JP6976155B2 - 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム - Google Patents

類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム Download PDF

Info

Publication number
JP6976155B2
JP6976155B2 JP2017241527A JP2017241527A JP6976155B2 JP 6976155 B2 JP6976155 B2 JP 6976155B2 JP 2017241527 A JP2017241527 A JP 2017241527A JP 2017241527 A JP2017241527 A JP 2017241527A JP 6976155 B2 JP6976155 B2 JP 6976155B2
Authority
JP
Japan
Prior art keywords
word
target
text
similar
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017241527A
Other languages
English (en)
Other versions
JP2019109654A (ja
Inventor
嵩博 小堀
善彬 北川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017241527A priority Critical patent/JP6976155B2/ja
Publication of JP2019109654A publication Critical patent/JP2019109654A/ja
Application granted granted Critical
Publication of JP6976155B2 publication Critical patent/JP6976155B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラムに関する。
従来、形態素の重複度によって文章同士の類似度を求める技術が知られている(例えば、特許文献1参照)。この技術では、一の文章から得られた全形態素に対し、他の文章から得られた形態素と一致する形態素の割合を、文章同士の類似度として求めている。
また、単語をベクトル化する技術であって、メモリリソースが足りなくなることを懸念し、一部の代表的な単語について概念ベクトルを求めておき、希少な単語に関しては、代表的な単語に対応付けられている概念ベクトルの重心から求められる複数の文ベクトルのうち、希少な単語が出現する文の文ベクトルに基づいて概念ベクトルを補完する技術が知られている(例えば、特許文献2参照)。
特開2004−171215号公報 特開2006−119714号公報
従来の技術では、類似度の高いテキスト群を簡便に抽出することができない場合があった。
本発明は、このような事情を考慮してなされたものであり、類似度の高いテキスト群を簡便に抽出することができる類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラムを提供することを目的の一つとする。
本発明の一態様は、複数の対象テキストのそれぞれについて、前記テキストごとに単語分割を行い単語ベクトルを生成する単語ベクトル生成部と、前記単語ベクトル生成部により生成された単語ベクトルに基づいて、前記対象テキストの特徴を示す文ベクトルを生成する文ベクトル生成部と、前記文ベクトル生成部により生成された文ベクトルに基づいて、前記複数の対象テキストから互いに類似する対象テキストを抽出する抽出部と、を備える類似テキスト抽出装置である。
本発明の一態様によれば、類似度の高いテキスト群を簡便に抽出することができる。
類似テキスト抽出装置100の機能構成と使用環境の一例を示す図である。 発話DB10から取得される複数の対象テキストの一例を示す図である。 単語分割部112および単語ベクトル生成部116が類似テキスト抽出装置100とは別体の装置である場合に実行される処理の流れの一例を示すシーケンス図である。 類似度算出部120により実行される処理の流れの一例を示すフローチャートである。 代表固有名詞を「赤坂見附」としてラベル化処理した場合の実験結果を示す図である。 他の例による実験結果を示す図である。 類似テキスト抽出装置100の処理結果を利用する自動応答装置500の機能構成と使用環境の一例を示す図である。 自動応答装置500による処理内容を概念的に示す図である。
[概要]
以下、図面を参照し、本発明の類似テキスト抽出装置、類似テキスト抽出方法、およびプログラムの実施形態について説明する。類似テキスト抽出装置は、一以上のハードウェアプロセッサにより実現される。類似テキスト抽出装置は、抽出対象のテキスト(以下、対象テキスト)から、任意に選択された第1対象テキストと類似する類似対象テキストを抽出する装置である。対象テキストは、例えば、発話をテキスト化したものであり、更に具体的には、人工知能(Artificial Intelligence; AI)により動作する自動応答装置と、人である利用者との間で行われた発話のテキスト情報である。発話は、テキスト入力とテキスト表示の形式で行われてもよいし、音声によって行われてもよい。後者の場合、音声認識などによってテキスト化された情報が発話のテキスト情報となる。なお、対象テキストは、このような発話に限らず、会話型のSNS(Social Networking Service)で交換されたメッセージでもよいし、ビデオチャットなどで交換された人同士の発話をテキスト化したものでもよい。
類似テキスト抽出装置が判断する「類似」とは、表層的な類似すなわち固有名詞などの文言の一致や言い回しの類似ではなく、意味的な類似である。意味的な類似とは、各対象テキストが抽象化された意味合いとして似ていることをいう。従って、「〇〇(地名)で食事をする場所を尋ねている」といった抽象的な意味が共通する場合、仮に地名自体や言い回しが似ていなくても、意味的な類似性は高いと判断される。
[全体構成]
図1は、類似テキスト抽出装置100の機能構成と使用環境の一例を示す図である。類似テキスト抽出装置100は、例えば、導出部110と、類似度算出部120と、類似テキスト抽出部130とを備える。導出部110は、単語分割部112と、ラベル化処理部114と、単語ベクトル生成部116と、文ベクトル生成部118とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。図1に示す各構成要素は、例えば、ネットワークを介して通信可能である。ネットワークは、例えば、WAN(Wide Area Network)やLAN(Local Area Network)、インターネット、無線基地局、プロバイダ端末などを含む。
類似テキスト抽出装置100は、図1に示す構成の他、図示しないキーボードやマウス、タッチパネルなどの入力装置、ディスプレイやスピーカなどの出力装置、記憶媒体を装着可能なドライブ装置などを備えてもよい。
類似テキスト抽出装置100は、発話DB(データベース)10から発話のログ情報を取得する。この発話のログ情報は、複数の対象テキストを含む。前述したように、対象テキストは、自動応答装置と利用者との間で行われた会話に含まれる発話のテキスト情報である。発話DB10は、HDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置により記憶されているデータベースである。
[導出部]
導出部110は、複数の対象テキストのそれぞれについて、コーパスにおける対象テキストを分割した単語と他の単語との共起性に基づいて導出された、分割した単語の単語ベクトルに基づいて、対象テキストの特徴を示す対象文ベクトルを導出する。なお、導出部110のラベル化処理部114は、分割した単語の単語ベクトルと共に分割した単語のカテゴリ情報を取得し、分割した単語のうち概念的に共通する固有名詞を一つの抽象化されたラベルまたは代表固有名詞に置換する。そして、導出部110は、コーパスにおけるラベルまたは代表固有名詞と他の単語との共起性に基づいて導出された代表固有名詞の単語ベクトルを、概念的に共通する固有名詞の単語ベクトルとする。具体例については以下に順を追って説明する。
図2は、発話DB10から取得される複数の対象テキストの一例を示す図である。対象テキストは、発話主体が一回の発話を行うごとに区切られたものである。導出部110は、このような複数の対象テキストを単語分割部112に出力し、単語への分割を依頼する。
単語分割部112は、例えば、MeCabなどの形態素解析エンジンを用いて動作し、対象テキストのそれぞれを単語に分割すると共に、分割した単語のそれぞれについて、名詞、動詞、形容詞、形容動詞、助動詞、助詞などの品詞を判別する。また、単語分割部112は、名詞に関しては、更に固有名詞、人名、場所名などの詳細内容を判別する。単語分割部112は、対象テキストを分割した単語の情報と、上記の判別結果とを導出部110に返す。なお、単語分割部112は、類似テキスト抽出装置100とは別体の装置により実現されてもよい。
ラベル化処理部114は、単語分割部112から取得した単語の情報を参照し、例えば、場所名を特定の場所名(固有名詞)に置換する。図2の例では、対象テキスト(1)と対象テキスト(3)は、例えば以下のように単語に分割されて、括弧書きのように品詞や詳細内容が付与されている。
(1)紀尾井町(固有名詞、場所名)/の(助詞)/地図(名詞)/を(助詞)/見せて(動詞)
(3)丸の内(固有名詞、場所名)/の(助詞)/レストラン(名詞)/を(助詞)/教えて(動詞)
上記の例では、ラベル化処理部114は、固有名詞かつ場所名である「紀尾井町」と「丸の内」が概念的に共通する固有名詞であると判定する。そして、「丸の内」および「紀尾井町」を[LOCATION]などの共有する抽象化されたラベルに置き換える処理を行う(ラベル化処理)。[LOCATION]というラベルでなく、代表固有名詞、例えば「紀尾井町」などに置き換える処理を行ってもよい。また、ラベル化処理部114は、複数の場所名あるいは場所を示す名詞が「の」、「にある」などの助詞を挟んで存在する場合、それらをまとめて代表固有名詞に置換してもよい。例えば、ラベル化処理部114は、「丸の内/の/ハンバーガーショップ」をまとめて「紀尾井町」に置換してもよい。これらの処理によって、類似テキスト抽出装置100は、場所に関する質問やコメントに関しては、特有の場所に依存することなく対象テキストの意味的な類似を判定することができる。
導出部110は、ラベル化処理部114による処理が終了すると、例えば、対象テキストを分割した単語から助詞などの機能表現を除外する処理を行う。そして、除外後の単語を単語ベクトル生成部116に出力して、単語ベクトルの生成を依頼する。
単語ベクトル生成部116は、コーパスに含まれる単語を、他の単語との共起性に基づいて決定される分散表現としての単語ベクトルに変換する。コーパスは、予め単語ベクトル生成部116において用意されたものであってもよいし、類似テキスト抽出装置100から提供されたものであってもよい。例えば、単語ベクトル生成部116は、word2vecと称されているニューラルネットワークに基づく手法を利用して、コーパスに含まれる複数の単語のそれぞれを単語ベクトルに変換し、導出部110に返す。これによって、導出部110は単語ベクトルを取得する。なお、単語ベクトル生成部116は、類似テキスト抽出装置100とは別体の装置により実現されてもよい。
図3は、単語分割部112および単語ベクトル生成部116が類似テキスト抽出装置100とは別体の装置である場合に実行される処理の流れの一例を示すシーケンス図である。まず、類似テキスト導出部100の導出部110は、発話DB10から複数の対象テキストを取得する(S100)。次に、導出部110は、複数の対象テキストを単語分割部112(図では単語分割装置)に出力する(S102)。単語分割部112は、入力された複数の対象テキストのそれぞれに対して形態素解析処理を行い(S104)、処理結果を導出部110に返す(S106)。
次に、ラベル化処理部114がラベル化処理を行い(S108)、導出部110が機能表現を除外する処理を行う(S110)。そして、導出部110は、S108およびS110の処理を経て残った単語(以下、「フィルタ済単語」と称する)の情報を、単語ベクトル生成部116(図では単語ベクトル生成装置)に出力する(S112)。単語ベクトル生成部116は、word2vecを利用して単語ベクトルを生成し(S114)、生成した単語ベクトルを導出部110に出力する。
[類似度算出部]
類似度算出部120は、導出部110によって取得された単語ベクトルに基づいて、第1対象テキストと、第1対象テキスト以外の複数の第2対象テキストとの類似度を算出する。第1対象テキストとは、例えば、発話DB10から取得された複数の対象テキストから選択された任意の対象テキストである。また、第1対象テキストは、任意に考えられた発話であってもよい。第1対象テキストの指定は、例えば、前述した入力装置を介して行われる。
図4は、類似度算出部120により実行される処理の流れの一例を示すフローチャートである。類似度算出部120は、まず、対象テキストのそれぞれについて、対象ベクトルに含まれる単語の単語ベクトルに基づいて、文ベクトルを導出する(S200)。
例えば、類似度算出部120は、式(1)に示すように、対象テキストから得られたフィルタ済単語の単語ベクトルを加算し、フィルタ済単語の数で除算することで、対象テキストの文ベクトルを導出する。式中、Vtxは文ベクトルであり、wv(n)はn番目のフィルタ済単語の単語ベクトルであり、kは対象テキストから得られたフィルタ済単語の数である。
Vtx={wv(1)+wv(2)+…+wv(k)}/k …(1)
ここで、類似度算出部120は、式(2)に示すように、対象テキストから得られたフィルタ済単語の単語ベクトルに重み係数を乗算してから加算し(加重和を求め)、フィルタ済単語の数で除算することで、対象テキストの文ベクトルを導出してもよい。式中、αnはn番目のフィルタ済単語に乗算する重み係数である。重み係数は、任意の規則で定められてよいが、例えば、(A)動詞や形容動詞を重くするなど、品詞に応じて定めてもよいし、(B)先頭と末尾を大きくする(あるいはその逆)など、対象テキストにおける出現位置に応じて定められてもよい。いずれの場合も、類似度算出部120は、品詞の種別または対象テキストにおける出現位置をフィルタ済単語のそれぞれについて特定し、特定した結果に基づいて重み係数を決定する。
Vtx={α1・wv(1)+α2・wv(2)+…+αk・wv(k)}/k …(2)
図4に戻り、類似度算出部120は、第1対象テキストの指定を受け付ける(S202)。第1対象ベクトルの指定は、S200よりも前に行われてもよい。また、複数の第1対象ベクトルが指定されてもよい。第1対象テキスト以外の対象テキストが第2対象テキストとして扱われる。以下、第1対象テキストについて求められた文ベクトルを第1対象文ベクトルと称し、第2対象テキストについて求められた文ベクトルを第2対象文ベクトルと称する。
次に、類似度算出部120は、第2対象文ベクトルのそれぞれについて、第1対象文ベクトルとの類似度を算出する(S204)。類似度算出部120は、例えば、第2対象文ベクトルと第1対象文ベクトルとのコサイン類似度を、それらの類似度として算出する。
なお、S204の処理に先立って、類似度算出部120は、例えばdoc2vecなどを利用して第1対象文ベクトルと類似する第2対象文ベクトルを粗く抽出し、抽出したものについてS204の処理を行ってもよい。
[類似テキスト抽出部]
類似テキスト抽出部130は、類似度算出部120により算出された類似度が高い一以上の第2対象文ベクトルの元となった第2対象テキストを、第1対象テキストと類似する類似対象テキストとして抽出する。「類似度が高い」とは、ある基準値よりも高いことを意味してもよいし、類似度が高い順に並べた場合に所定順位以上であることを意味してもよい。類似テキスト抽出部130により抽出された類似対象テキストは、第1対象テキストと意味的に類似するものとして、正規表現DB150に登録される。
正規表現DB150は、自動応答装置において、例えば、類似対象テキストに合致する発話が利用者によってなされた場合、その発話は第1対象テキストと同じ意味であると判断する、という基準として用いられる。詳しくは、後述する。本実施形態の類似テキスト抽出装置100によって、テキスト同士の類似度を簡便に求めることができるため、これを用いて正規表現DBを構築することで、自動応答装置の応答基準情報を簡便に生成することができる。
[実験結果]
図5は、代表固有名詞を「赤坂見附」としてラベル化処理した場合の実験結果を示す図である。また、図6は、他の例による実験結果を示す図である。これらの実験は、2000万発話の対象テキストを対象として、上記説明した手法によって行われた。図5の例は、第1対象テキストを「赤坂見附の地図を見せて」とし、第1対象テキストを含めて類似度の高い上位20個の対象テキストを抽出したものである。また、図6の例は、第1対象テキストを「高速道路の渋滞状況を教えて」とし、第1対象テキストを含めて類似度の高い上位20個の対象テキストを抽出したものである。図示するように、意味的に近い対象テキストが抽出されていることがわかる。
[適用例]
図7は、類似テキスト抽出装置100の処理結果を利用する自動応答装置500の機能構成と使用環境の一例を示す図である。類似テキスト抽出装置100と自動応答装置500を合わせて自動応答システム50が構成されてもよい。なお、自動応答システム50は、類似テキスト抽出装置100と自動応答装置500を統合した一つの装置であってもよい。
自動応答装置500は、ネットワークNWを介して端末装置400と通信する。端末装置400は、例えば、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータなどである。ネットワークNWは、例えば、WANやLAN、インターネット、無線基地局、プロバイダ端末などを含む。端末装置400および自動応答装置500は、それぞれ、ネットワークNWに接続するための各種通信インターフェースを備える。
端末装置400は、利用者の発話の入力を受け付けるための入力デバイス(タッチパネル、マイクなど)を備える。端末装置400は、利用者によって入力された発話の内容を示すテキスト情報あるいは音声情報を、自動応答装置500に送信する。
自動応答装置500は、例えば、正規表現抽出部510と、応答内容作成部520と、類似度算出部530とを備える。なお、類似度算出部530は必須の構成ではなく、省略されてもよい。自動応答装置500は、類似テキスト抽出装置100によって作成された正規表現DB150を利用して以下に説明する処理を行う。
図8は、自動応答装置500による処理内容を概念的に示す図である。例えば、端末装置400から「渋谷を地図で見せて」なる発話が受信されたとする。正規表現抽出部510は、単語分割部112と同様の形態素解析機能を有し、受信された発話を品詞に分割する。そして、固有名詞かつ場所名に該当する渋谷を符号に変換した検索キーを生成し、正規表現DB150を検索する。
正規表現DB150には、例えば、第1対象テキストの内容のうち固有名詞を抽象化された符号に変換した情報(正規表現)が登録されている。一例として、図示するように、(固有名詞、場所)を示す符号に対して「の地図を見せて」、「を地図で見せて」などのテキストが付与された情報が、正規表現として登録されている。
応答内容作成部520は、各第1対象テキストに対して応答すべき内容を、予め保持している。図8の例では、ヒットした「(固有名詞、場所)を地図で見せて」に対応する第1対象テキスト「(固有名詞、場所)の地図を見せて」を正規表現DB150から取得し、地図の情報を提供すればよいことを認識する。
そして、応答内容作成部520は、(固有名詞、場所)の部分に、正規表現抽出部510によって符号化された元情報である「渋谷」を埋め込むことで、「渋谷の地図を見たい」という利用者の意思を認識する。応答内容作成部520は、ネットワーク検索などを行い、渋谷の地図の画像情報、あるいはそれを呼び出すためのURL(Uniform Resource Locator)などの参照情報を端末装置400に送信する。
類似度算出部530は、正規表現抽出部510が発話DB150を検索した結果、ヒットしなかった場合に機能する。類似度算出部530は、例えば、類似テキスト抽出装置100の導出部110および類似度算出部120と同様の機能を有し、端末装置400から受信された発話を対象テキストとした場合の文ベクトルと、正規表現DB150に格納された各第1対象テキストに対応する第1対象文ベクトルとを取得する。そして、端末装置400から受信された発話を対象テキストとした場合の文ベクトルと各第1対象文ベクトルとの類似度を算出し、最も類似度が高い第1対象ベクトルを、応答内容作成部520に出力する。応答内容作成部520は、入力された第1対象ベクトルに基づいて、端末装置400への応答内容を決定する。これによって、正規表現DB150に登録されていない対象テキストに対しても、適切な応答を端末装置400に返すことができる。
以上説明した実施形態の類似テキスト抽出装置によれば、複数の対象テキストのそれぞれについて、コーパスにおける対象テキストを分割した単語と他の単語との共起性に基づいて、分割した単語ごとの単語ベクトルを生成する単語ベクトル生成部116と、単語ベクトル生成部116により生成された単語ベクトルに基づいて、対象テキストの特徴を示す文ベクトルを生成する文ベクトル生成部118と、文ベクトル生成部118により生成された文ベクトルに基づいて、複数の対象テキストから互いに類似する対象テキストを抽出する抽出部130と、を備えることにより、類似度の高いテキスト群を簡便に抽出することができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
50 自動応答システム
100 類似テキスト抽出装置
110 導出部
115 ラベル化処理部
120 類似度算出部
130 類似テキスト抽出部
150 正規表現DB
200 単語分割装置
300 単語ベクトル生成装置
500 自動応答装置
510 正規表現抽出部
520 応答内容作成部
530 類似度算出部

Claims (12)

  1. 複数の対象テキストのそれぞれについて、前記対象テキストごとに単語分割を行い単語ベクトルを生成する単語ベクトル生成部と、
    前記単語ベクトル生成部により生成された単語ベクトルに基づいて、前記対象テキストの特徴を示す文ベクトルを生成する文ベクトル生成部と、
    前記文ベクトル生成部により生成された文ベクトルに基づいて、前記複数の対象テキストから互いに類似する対象テキストを抽出する抽出部と、
    前記単語分割を行った単語の単語ベクトルと共に前記単語分割を行った単語のカテゴリ情報を取得し、前記単語分割を行った単語のうち概念的に共通する固有名詞を抽象的なラベルに置換するラベル化処理部と、
    を備える類似テキスト抽出装置。
  2. 複数の対象テキストのそれぞれについて、前記対象テキストごとに単語分割を行い単語ベクトルを生成する単語ベクトル生成部と、
    前記単語ベクトル生成部により生成された単語ベクトルに基づいて、前記対象テキストの特徴を示す文ベクトルを生成する文ベクトル生成部と、
    前記文ベクトル生成部により生成された文ベクトルに基づいて、前記複数の対象テキストから互いに類似する対象テキストを抽出する抽出部と、
    前記単語分割を行った単語の単語ベクトルと共に前記単語分割を行った単語のカテゴリ情報を取得し、前記単語分割を行った単語のうち概念的に共通する固有名詞を一つの代表固有名詞に置換するラベル化処理部と、
    を備える類似テキスト抽出装置。
  3. 前記単語ベクトル生成部は、単語の共起性に基づき前記単語ベクトルを生成することを特徴とする、
    請求項1または2に記載の類似テキスト抽出装置。
  4. 前記対象テキストは、会話コーパスから抽出されたことを特徴とする、
    請求項1から3のうちいずれか1項に記載の類似テキスト抽出装置。
  5. 前記文ベクトル生成部は、前記対象テキストについて前記単語ベクトル生成部により生成された単語ベクトルに対して統計処理を行うことで、当該対象テキストの前記文ベクトルを生成する、
    請求項1から4のうちいずれか1項記載の類似テキスト抽出装置。
  6. 前記文ベクトル生成部は、前記対象テキストについて前記単語ベクトル生成部により生成された単語ベクトルの平均を求めることで、当該対象テキストの前記文ベクトルを生成する、
    請求項5記載の類似テキスト抽出装置。
  7. 前記複数の対象テキストのうち第1対象テキストについて前記文ベクトル生成部により生成された第1対象文ベクトルと、前記複数の対象テキストのうち前記第1対象テキスト以外の複数の第2対象テキストについて前記文ベクトル生成部により生成された複数の第2対象文ベクトルとの類似度を算出する算出部を更に備え、
    前記抽出部は、前記算出部により算出された前記類似度が高い一以上の第2対象文ベクトルの元となった前記第2対象テキストを、前記第1対象テキストと類似する類似対象テキストとして前記複数の対象テキストから抽出する、
    請求項1から6のうちいずれか1項記載の類似テキスト抽出装置。
  8. 前記単語ベクトル生成部は、前記単語分割を行った単語から機能表現を除外した単語について前記単語ベクトルを生成する、
    請求項1から7のうちいずれか1項記載の類似テキスト抽出装置。
  9. 請求項7記載の類似テキスト抽出装置と、
    利用者の発話に基づく検索キーで、前記抽出部により抽出された類似対象テキストと対応する前記第1対象テキストとが対応付けられた類似テキスト群を複数含むデータベースを検索し、検索結果に基づいて、前記利用者の発話に対して自動応答する自動応答装置と、
    を備える自動応答システム。
  10. 前記自動応答装置は、前記利用者の発話に該当する前記類似対象テキストまたは前記第1対象テキストが前記データベースに存在しない場合、前記利用者の発話との類似度の高い前記第1対象テキストを前記データベースから抽出し、前記抽出した前記第1対象テキストを用いて、前記利用者の発話に対して自動応答する、
    請求項9記載の自動応答システム。
  11. コンピュータが、
    複数の対象テキストのそれぞれについて、前記対象テキストごとに単語分割を行い単語ベクトルを生成し、
    前記生成した単語ベクトルに基づいて、前記対象テキストの特徴を示す文ベクトルを生成し、
    前記生成した文ベクトルに基づいて、前記複数の対象テキストから互いに類似する対象テキストを抽出し、
    前記単語分割を行った単語の単語ベクトルと共に前記単語分割を行った単語のカテゴリ情報を取得し、
    前記単語分割を行った単語のうち概念的に共通する固有名詞を抽象的なラベルに置換する、
    類似テキスト抽出方法。
  12. コンピュータに、
    複数の対象テキストのそれぞれについて、前記対象テキストごとに単語分割を行い単語ベクトルを生成させ、
    前記生成させた単語ベクトルに基づいて、前記対象テキストの特徴を示す文ベクトルを生成させ、
    前記生成させた文ベクトルに基づいて、前記複数の対象テキストから互いに類似する対象テキストを抽出させ、
    前記単語分割を行った単語の単語ベクトルと共に前記単語分割を行った単語のカテゴリ情報を取得させ、
    前記単語分割を行った単語のうち概念的に共通する固有名詞を抽象的なラベルに置換させる、
    プログラム。
JP2017241527A 2017-12-18 2017-12-18 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム Active JP6976155B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017241527A JP6976155B2 (ja) 2017-12-18 2017-12-18 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017241527A JP6976155B2 (ja) 2017-12-18 2017-12-18 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019109654A JP2019109654A (ja) 2019-07-04
JP6976155B2 true JP6976155B2 (ja) 2021-12-08

Family

ID=67179807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017241527A Active JP6976155B2 (ja) 2017-12-18 2017-12-18 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6976155B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159377B (zh) * 2019-12-30 2023-06-30 深圳追一科技有限公司 属性召回模型训练方法、装置、电子设备以及存储介质
CN111680494B (zh) * 2020-04-27 2023-05-12 平安科技(深圳)有限公司 相似文本的生成方法及装置
JP7138981B1 (ja) 2021-08-11 2022-09-20 Croco株式会社 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム
CN117763106B (zh) * 2023-12-11 2024-06-18 中国科学院文献情报中心 一种文献查重的方法、装置、存储介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4576977B2 (ja) * 2004-10-28 2010-11-10 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP6635587B2 (ja) * 2015-12-14 2020-01-29 日本放送協会 広告文選択装置及びプログラム

Also Published As

Publication number Publication date
JP2019109654A (ja) 2019-07-04

Similar Documents

Publication Publication Date Title
US10719507B2 (en) System and method for natural language processing
US10832011B2 (en) Question answering system using multilingual information sources
JP6976155B2 (ja) 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム
KR101881114B1 (ko) 메시지들에서 태스크들 식별
KR101634086B1 (ko) 감정 분석을 통한 스티커 추천 방법 및 시스템
US20190370398A1 (en) Method and apparatus for searching historical data
EP2863300B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
CN103956169B (zh) 一种语音输入方法、装置和系统
US9047868B1 (en) Language model data collection
CN105183761B (zh) 敏感词替换方法和装置
JP2019061662A (ja) 情報を抽出する方法及び装置
WO2014043027A2 (en) Improving phonetic pronunciation
CN111737414B (zh) 一种歌曲推荐方法及装置、服务器、存储介质
JP7058574B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6370962B1 (ja) 生成装置、生成方法および生成プログラム
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
KR102088357B1 (ko) 기계독해기반 질의응답방법 및 기기
US20180068659A1 (en) Voice recognition device and voice recognition method
US10380125B2 (en) Information processing apparatus and information processing method
CN113254620B (zh) 基于图神经网络的应答方法、装置、设备及存储介质
JP6994289B2 (ja) キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
JP2015125499A (ja) 音声通訳装置、音声通訳方法及び音声通訳プログラム
CN107092679B (zh) 一种特征词向量获得方法、文本分类方法及装置
JP7096199B2 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211109

R150 Certificate of patent or registration of utility model

Ref document number: 6976155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250