JP2019008476A - 生成プログラム、生成装置及び生成方法 - Google Patents

生成プログラム、生成装置及び生成方法 Download PDF

Info

Publication number
JP2019008476A
JP2019008476A JP2017122459A JP2017122459A JP2019008476A JP 2019008476 A JP2019008476 A JP 2019008476A JP 2017122459 A JP2017122459 A JP 2017122459A JP 2017122459 A JP2017122459 A JP 2017122459A JP 2019008476 A JP2019008476 A JP 2019008476A
Authority
JP
Japan
Prior art keywords
word
rewritten
target word
usage
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017122459A
Other languages
English (en)
Inventor
拓哉 牧野
Takuya Makino
拓哉 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017122459A priority Critical patent/JP2019008476A/ja
Publication of JP2019008476A publication Critical patent/JP2019008476A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】自然な発話を可能とする生成プログラム等を提供すること。【解決手段】生成プログラムは、複数の単語を取得し、取得した単語に基づくキーワード検索を行った結果より、前記複数の単語から書き換えるべき対象語を選択し、選択した対象語と類似する書き換え語を選択し、前記対象語及び前記書き換え語と、前記対象語及び前記書き換え語それぞれに付随する機能表現ラベルの出現頻度とを対応づけて記憶する記憶部から、前記対象語及び前記書き換え語に対応する機能表現ラベルの分布を取得し、取得した分布から、前記対象語の用法と前記書き換え語の用法との類似度を算出し、算出した類似度に基づいて、前記対象語及び前記書き換え語に関する発話を生成する処理をコンピュータに実行させる。【選択図】図8

Description

本発明は、ユーザに対する発話を生成する生成プログラム等に関する。
検索システムにおいて、検索結果からユーザに入力されたキーワードが不適切であると判定した場合、検索システムが発話を行い、キーワードの追加、修正をユーザに促す対話型の検索が行われている(例えば、特許文献1)。
特開2009−151541号公報
しかし、従来の検索システムがキーワードの書き換えを提案する場合において、自然な発話を行うことは困難である。1つの側面では、自然な発話を可能とする生成プログラム等の提供を目的とする。
本願に開示する生成プログラムは、複数の単語を取得し、取得した単語に基づくキーワード検索を行った結果より、前記複数の単語から書き換えるべき対象語を選択し、選択した対象語と類似する書き換え語を選択し、前記対象語及び前記書き換え語と、前記対象語及び前記書き換え語それぞれに付随する機能表現ラベルの出現頻度とを対応づけて記憶する記憶部から、前記対象語及び前記書き換え語に対応する機能表現ラベルの分布を取得し、取得した分布から、前記対象語の用法と前記書き換え語の用法との類似度を算出し、算出した類似度に基づいて、前記対象語及び前記書き換え語に関する発話を生成する処理をコンピュータに実行させる。
一観点によれば、自然な発話が可能である。
対話型検索システムの構成例を示す説明図である。 対話型検索装置のハードウェア構成例を示すブロック図である。 端末のハードウェア構成例を示すブロック図である。 機能表現ラベルDBの例を示す説明図である。 ラベル辞書DBの例を示す説明図である。 類似度DBの例を示す説明図である。 テンプレートDBの例を示す説明図である。 発話生成処理の手順を示すフローチャートである。 端末の画面例を示す説明図である。 初期検索結果の例を示す説明図である。 機能表現ラベルDB構築処理の手順を示すフローチャートである。 機能表現ラベルDB構築処理の例を示す説明図である。 対話型検索装置の機能構成例を示すブロック図である。
以下実施の形態を、図面を参照して説明する。
まず、以下の説明において用いる用語について説明する。日本語の文を構成する要素を「内容語」又は「機能語」に分類する考え方がある。内容語は主に内容的な意味を表す要素である。名詞、動詞、形容詞及び副詞などが内容語に当たる。機能語は主に文の構成に関わる要素である。助詞、助動詞、接続詞及び形式名詞などが機能語に当たる。また、文の構成要素の中には、複数の語から構成されているにもかかわらず、全体として1つのまとまった意味を表すものもある。複数の語から構成され、内容的な意味を表す要素としては、複合名詞、複合動詞、慣用句などがある。複数の語から構成され、文の構成に関わる要素としては、複合辞がある。「複合辞」とは、「に対して」や「なければならない」のように、複数の語から構成され、かつ、全体として機能語のように働く表現のことである。ここで、主に文の構成に関わる要素である機能語と複合辞とを総称して、「機能表現」と呼ぶ。そして、機能表現により表される意味を体系化したものが、「機能表現ラベル」である。各機能表現は少なくとも1つの機能表現ラベルが付されている。
「対象語」とは、対話型検索システムに対して、ユーザが入力した検索式や質問文に含む単語であって、対話型検索システムが書き換えすべきと判定した語である。「書き換え語」とは、対話型検索システムが「対象語」に換えて検索に使用すべきと判定した語である。例えば、ユーザが入力した質問文に含まれる「みずみずしく」を「ぱりぱり」に置き換えるべきと対話型検索システムが判定した場合、「みずみずしく」が「対象語」である。「ぱりぱり」が「書き換え語」である。
図1は対話型検索システムの構成例を示す説明図である。対話型検索システムは対話型検索装置(生成装置)1、端末2を含む。端末2は複数台であってもよい。端末2の台数は図1に示すように2台に限らない。端末2は1台でも良いし、3台以上でもよい。対話型検索装置1及び端末2はネットワークNにより、互いに通信可能に接続されている。
図2は対話型検索装置1のハードウェア構成例を示すブロック図である。対話型検索装置1はCPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、大容量記憶部14(記憶部)、通信部15、及び読み取り部16を含む。各構成はバスBで接続されている。
CPU11はROM12に記憶された制御プログラム(生成プログラム)1Pに従い、ハードウェア各部を制御する。RAM13は例えばSRAM(Static RAM)、DRAM(Dynamic RAM)又はフラッシュメモリである。RAM13はCPU11によるプログラムの実行時に発生するデータを一時的に記憶する。
大容量記憶部14は、例えばハードディスク又はSSD(Solid State Drive)などである。大容量記憶部14は各種データを記憶する。制御プログラム1Pを大容量記憶部14に記憶してもよい。通信部15はネットワークNを介して、端末2や他のコンピュータと通信を行う。読み取り部16はCD(Compact Disc)−ROM及びDVD(Digital Versatile Disc)−ROMを含む可搬型記憶媒体1aを読み取る。CPU11が読み取り部16を介して、制御プログラム1Pを可搬型記憶媒体1aより読み取り、大容量記憶部14に記憶してもよい。また、ネットワークN等を介して他のコンピュータからCPU11が制御プログラム1Pをダウンロードし、大容量記憶部14に記憶してもよい。さらにまた、半導体メモリ1bから、CPU11が制御プログラム1Pを読み込んでもよい。
図3は端末2のハードウェア構成例を示すブロック図である。端末2はCPU21、ROM22、RAM23、大容量記憶部24、表示部25、入力部26、通信部27及び読み取り部28を含む。各構成はバスBで接続されている。
CPU21はROM22に記憶された制御プログラム2Pに従い、ハードウェア各部を制御する。RAM23は例えばSRAM、DRAM又はフラッシュメモリである。RAM23はCPU21によるプログラムの実行時に発生するデータを一時的に記憶する。
大容量記憶部24は、例えばハードディスク又はSSDなどである。大容量記憶部24は各種データを記憶する。制御プログラム2Pを大容量記憶部24に記憶してもよい。
表示部25は例えば液晶表示パネルなどの画像表示デバイスを含む。表示部25は対話型検索装置1が送信した発話内容を表示する。また、表示部25がスピーカなどの音声出力デバイスを備え、対話型検索装置1が送信した発話内容を音声出力してもよい。さらにまた、表示部25は画像表示デバイスや音声出力デバイスを備えず、画像データや音声データを出力し、端末2外部の画像表示デバイスに画像を表示させたり、音声出力デバイスに音声出力させたりしてもよい。
入力部26はキーボードやマウスを介して、ユーザが入力した発話データを受け付ける。入力部26はマイクなどを介して音声データを受け付けてもよい。また、タッチパネルディスプレイのように、表示部25及び入力部26を一体してもよい。
通信部27はネットワークNを介して、対話型検索装置1や他のコンピュータと通信を行う。読み取り部28はCD−ROM及びDVD−ROMを含む可搬型記憶媒体2aを読み取る。CPU21が読み取り部28を介して、制御プログラム2Pを可搬型記憶媒体2aより読み取り、大容量記憶部24に記憶してもよい。また、ネットワークN等を介して他のコンピュータからCPU21が制御プログラム2Pをダウンロードし、大容量記憶部24に記憶してもよい。さらにまた、半導体メモリ2bから、CPU21が制御プログラム2Pを読み込んでもよい。
次に対話型検索装置1の大容量記憶部24が記憶しているデータベース(DB:DataBase)について説明する。図4は機能表現ラベルDB141の例を示す説明図である。機能表現ラベルDB141は、内容語と機能表現との結びつきを示すものである。機能表現ラベルDB141は用言・体言列、目的列、無意志列、願望列、勧め列、意思列、不可能列及び困難列などを含む。用言・体言列は、名詞、動詞、形容詞及び副詞などの内容語を記憶する。目的列以降の各列は、機能表現ラベル(以下、単に「ラベル」ともいう。)の名称を列名としている。目的列以降の各列は、内容語と機能表現との結びつきを示すものであり、内容語に続いて出現する機能表現の出現度合いを、付された機能表現ラベル毎に集計した出現頻度である。図4の例では、形容詞「みずみずしい」の未然形又は連用形である「みずみずしく」に続いて出現した機能表現は、ラベル「目的」が付されたものが10、ラベル「無意志」が付されたものが1、ラベル「願望」が付されたものが8の出現頻度であることを示す。機能表現ラベルDB141はコーパス(テキストを大規模に集めてデータベース化した言語資料)を用いて作成する。機能表現ラベルDB141に採用する機能表現ラベルは定義されているすべてのラベルではなく、一部のラベルでもよい。目的列以降の各列を総称して、機能表現列という。また、出現頻度を単に頻度ともいう。
図5はラベル辞書DB142の例を示す説明図である。ラベル辞書DB142は機能表現列及びラベル列を含む。機能表現列は助詞、助動詞などの機能語を記憶する。ラベル列は機能語に付された機能表現ラベルを記憶する。
図6は類似度DB143の例を示す説明図である。類似度DB143は2つの内容語の類似度を記憶する。説明の都合上、2つの機能語の一方を対象語と呼び、他方を書き換え語と呼ぶ。類似度DB143は対象語列、書き換え語列及び類似度列を含む。対象語列は一方の内容語を記憶する。書き換え語列は対象語と類似する他方の内容語を記憶する。類似度列は対象語と書き換え語との類似度を記憶する。なお、対象語と書き換え語とは便宜上のものであるから、図6に示す類似度は対象語と書き換え語とが入れ替わっても同じである。例えば、対象語「ぱりぱり」と書き換え語「みずみずしく」との類似度も0.90である。類似度はあらかじめコーパスを学習データとして学習した結果(単語に対するD次元のベクトル)により求める。学習にはSkip−gramなどの公知の技術を利用する。
図7はテンプレートDB144の例を示す説明図である。テンプレートDB144は発話を生成する際に用いるテンプレートを記憶する。ここでの発話は、対象語を書き換え語に換えることを提案する発話である。テンプレートDB144は書き換え語列、対象語列及びテンプレート列を含む。書き換え語列は書き換え語の用法を記憶する。対象語列は対象語の用法を記憶する。テンプレート列は書き換え語の用法及び対象語の用法に対応する発話テンプレートを記憶する。書き換え語列及び対象語列が「−」に対応するテンプレートは、デフォルトのテンプレートである。書き換え語の用法及び対象語の用法が一致する場合や書き換え語の用法及び対象語の用法に対応するテンプレートが定義されていないときに用いる。図7に示す発話テンプレートにおいて、「OO」は対象語を当てはめる部分であり、「××」は書き換え語を当てはめる部分である。
以上に説明したデータベースは、対話型検索装置1の大容量記憶部14に限らず、対話型検索装置1がアクセス可能な他の装置に記憶してもよい。例えば、データベースサーバに上記データベースを記憶し、対話型検索装置1はネットワークNを介して、上記データベースにアクセスするようにしてもよい。
続いて、対話型検索装置1が行う情報処理について説明する。図8は発話生成処理の手順を示すフローチャートである。対話型検索装置1のCPU11は端末2が送信した入力文を取得する(ステップS1)。入力文はユーザが端末2に入力した問い合わせの文章である。CPU11は入力文から検索式を生成する(ステップS2)。CPU11は入力文からキーワードとなる単語を抽出する。CPU11は抽出した単語を論理和演算子で結合した検索式を生成する。CPU11は検索を行う(ステップS3)。例えば、検索対象となる文書を記憶する文書データベース(図示しない)で、生成した検索式を用いた検索(キーワード検索)を行う。文書データベースは、対話型検索装置1の大容量記憶部14や、文書保管サーバなどの他の装置に記憶する。さらにまた、検索はインターネットで提供されている検索エンジンを利用して行ってもよい。CPU11は検索結果の上位N件の文書を取得する(ステップS4)。検索結果には検索プログラムが付与したスコアが含まれている。スコアとは例えば、検索式に対して文書の適合度を示す指標であり、TF(Term Frequency)−IDF(Inverse Document Frequency)に基づいて求める。CPU11は当該スコアの降順に並び替える。CPU11は上位N件の文書を取得する。Nの値はあらかじめ定めておく。CPU11は書き換え対象とする対象語を選択する(ステップS5)。CPU11は上位N件の文書の検索を実行し、検索式を構成するキーワードの中で、上位N件の文書には含まれないものを対象語として選択する。すべてのキーワードが1つ以上の文書に含まれている場合、書き換えは不要と判定し、処理を終了してもよい。又は、出現頻度の低いキーワードを対象語として選択してもよい。一方、上位N件の文書には含まれないものキーワードが複数の場合、対象語を複数としてもよい。又は、ランダムに1つを対象語として選択してもよい。CPU11は書き換え語の候補を選択する(ステップS6)。CPU11は類似度DB143を検索し、対象語との類似度が高い上位K件を選択する。CPU11は書き換え語の候補の中から、初期検索結果(ステップS4で取得したN件の文書)に含まれる語を書き換え語として選択する(ステップS7)。CPU11は書き換え語の候補の中で、対象語との類似度が高い順に候補を選び、初期検索結果に出現しているか否か判定する。初期検索結果に出現していたらその語を書き換え語として選択する。CPU11は対象語の用法と書き換え語の用法との差Sを算出する(ステップS8)。CPU11は対象語及び書き換え語それぞれに対して、機能表現ラベルDB141の機能表現列を参照し、すべての機能表現ラベルについて、ラベル毎の頻度(分布)を取得する。CPU11は取得した機能表現ラベルの頻度を用いて用法の差を式(1)及び(2)により、算出する。
Figure 2019008476
対象語を単語pとし、書き換え語を単語qとする。CPU11は算出したSが閾値μ以上であるか否か判定する(ステップS9)。閾値μはあらかじめ定めておく。CPU11は算出したSが閾値μ以上であると判定した場合(ステップS9でYES)、対象語及び書き換え語の用法を取得する(ステップS10)。対象語の用法は、入力文を分析して得る。入力文において、対象語に続く機能表現のラベルを、対象語の用法とする。書き換え語の用法は機能表現ラベルDB141を取得する。書き換え語に対応する機能表現ラベルの中で最大の頻度を持つものを、書き換え語の用法とする。CPU11は対象語及び書き換え語の用法に対応したテンプレートをテンプレートDB144から取得する(ステップS11)。CPU11は処理をステップS13に進める。CPU11は算出したSが閾値μ未満であると判定した場合(ステップS9でNO)、標準テンプレートをテンプレートDB144から取得する(ステップS12)。CPU11は発話を生成する(ステップS13)。CPU11はステップS11又はステップS12で取得したテンプレートに、対象語及び書き換え語を埋め込む。CPU11は生成した発話を出力する(ステップS14)。
例を用いて以上の処理を再度説明する。図9は端末2の画面例を示す説明図である。図9の例では、ユーザが入力文として、「肌をみずみずしく保つ方法」(m11)と入力している。それに対して、対話型検索装置1は、「1061件中250件の候補がございます。」(m21)と検索にヒットした文書の件数を回答している。それに続いて、「みずみずしくということはぱりぱりしてしまいますか?」(m22)と書き換えを提案する発話を、対話型検索装置1は出力している。対話型検索装置1が発話m21を出力する処理を説明する。
対話型検索装置1のCPU11は入力文「肌をみずみずしく保つ方法」を取得する(ステップS1)。CPU11は入力文から、検索キーワードとなる単語として、「肌」、「みずみずしく」、「保つ」、「方法」を抽出する。CPU11は抽出した単語から、例えば検索式「肌 OR みずみずしく OR 保つ OR 方法」を生成する(ステップS2)。CPU11は生成した検索式を用いて検索を行う(ステップS3)。図10は初期検索結果の例を示す説明図である。図10の例では上位3件の文書を示している。文書d1にはキーワード「肌」が出現している。文書d2にはキーワード「肌」が出現している。
文書d3にはキーワード「肌」、「保つ」及び「方法」が出現している。以上の結果から、CPU11は「みずみずしく」を対象語として選択する(ステップS5)。CPU11は類似度DB143から、対象語と類似する語として、例えば「ぱりぱり」、「すべすべ」、「新鮮」の3語を、書き換え語の候補として選択する(ステップS6)。CPU11は類似度の高い順に、書き換え語の候補が上位3件の文書に含まれているか判定する。ここでは、「ぱりぱり」が文書d1に含まれているため、CPU11は「ぱりぱり」を書き換え語として選択する(ステップS7)。CPU11は対象語「みずみずしく」と書き換え語「ぱりぱり」との用法の差を算出する(ステップS8)。CPU11は機能表現ラベルDB141から、対象語「みずみずしく」及び書き換え語「ぱりぱり」の機能表現ラベルの頻度を取得する。図4の例では、「みずみずしく」はラベル「目的」の頻度が10、ラベル「無意志」、「願望」の頻度は、それぞれ1、8である。「ぱりぱり」については、ラベル「目的」、「無意志」、「願望」の順に、頻度が2、6、2である。CPU11は取得した頻度より、上述の式(1)及び(2)を用いて差Sを算出する。CPU11は算出したSが閾値μ以上であるか否か判定する(ステップS9)。ここでは、Sが閾値μ以上であるとする(ステップS9でYES)。CPU11は対象語「みずみずしく」と書き換え語「ぱりぱり」との用法を取得する(ステップS10)。対象語「みずみずしく」の用法は「目的」である。書き換え語「ぱりぱり」の用法は、機能表現ラベルDB141の最大頻度から「無意志」であると、CPU11は判定したとする。CPU11は判定結果を基にテンプレートを取得する(ステップS11)。ここでは、図7に示すテンプレートDB144において、書き換え語列が「無意志」、対象語列が「目的」であるテンプレートをCPU11は取得する。すなわち、「OOするということは、××してしまいますか?」というテンプレートをCPU11は取得する。CPU11は取得したテンプレートを用いて、発話を生成する(ステップS13)。テンプレートにおいて、「OO」は対象語を当てはめることを示す。テンプレートにおいて、「××」は書き換え語を当てはめることを示す。したがって、CPU11は、「みずみずしくするということは、ぱりぱりしてしまいますか?」との発話を生成し、出力する(ステップS14)。図9に示す例では、当該発話の前に、検索ヒット件数を示す発話m21を、CPU11は出力している。
書き換えを促す発話m22に対して、ユーザが「はい」などの肯定の入力をした場合、CPU11は対象語「みずみずしく」を書き換え語「ぱりぱり」に置き換えた検索式を生成し、再度、検索を行う。一方、書き換えを促す発話m22に対して、ユーザが「いいえ」などの否定の入力をした場合、再度の検索はせずに最初の検索結果を表示する。例えば、文書のタイトルを一覧表示する。
次に、発話生成処理を行う前に構築が必要となる機能表現ラベルDB141の構築方法について、説明する。図11は機能表現ラベルDB構築処理の手順を示すフローチャートである。CPU11はコーパスを取得する(ステップS21)。コーパスはテキストの集合である。CPU11は知識ベース、新聞・雑誌記事、ブログ、コールセンタの対応記録などから、テーマに合致する文を、コーパスを構築するものとして取得する。コーパスは既存のもので利用可能なものがあれば、それを利用しても良い。CPU11はコーパスから、未処理の一文を選択する(ステップS22)。CPU11は選択した文に対して、単語分割、品詞付与及び係り受け解析を行う(ステップS23)。単語分割、品詞付与及び係り受け解析はいずれも公知の技術であるから、説明を省略する。CPU11は選択した文に含まれる内容語を選択する(ステップS24)。CPU11は選択した内容語の次に出現する語句が機能表現であるか否かを判定する(ステップS25)。CPU11は次に出現する語句が機能表現でないと判定した場合(ステップS25でNO)、処理をステップS30へ移す。CPU11は次に出現する語句が機能表現であると判定した場合(ステップS25でYES)、選択した文に含まれる機能語の機能表現ラベルを取得する(ステップS26)。機能表現ラベルは公知の機能表現ラベル辞書(辞書)から取得可能である。機能表現ラベル辞書は、機能語と当該機能語の機能表現ラベルとを対応づけて記憶する辞書である。CPU11は取得した内容語が所定の語であるか否かを判定する(ステップS27)。所定の語とは、「なる」、「ある」、「いる」などである。CPU11は取得した内容語が所定の語でないと判定した場合(ステップS27でNO)、機能表現ラベルDB141において、用言・体言列が選択した内容語であるレコードの、機能語の機能表現ラベルと一致する列の値(頻度)を1加算する(ステップS28)。CPU11は取得した内容語が所定の語であると判定した場合(ステップS27でYES)、機能表現ラベルDB141において、用言・体言列が選択した内容語の修飾語である内容語であるレコードの、機能語の機能表現ラベルと一致する列の値(頻度)を1加算する(ステップS29)。ステップS28及びステップS29において、対象レコードがない場合はレコードを追加する。ステップS28又はステップS29の実行後、CPU11は未選択の他の内容語があるか否か判定する(ステップS30)。CPU11は未選択の他の内容語があると判定した場合(ステップS30でYES)、処理をステップS24へ戻す。CPU11は未選択の他の内容語がないと判定した場合(ステップS30でNO)、未処理の文があるか否か判定する(ステップS31)。CPU11は未処理の文があると判定した場合(ステップS31でYES)、処理をステップS22に戻す。CPU11は未処理の文がないと判定した場合(ステップS31でNO)、処理を終了する。
取得した内容語が「なる」、「ある」、「いる」などの場合、文において主たる内容を示すのは、当該内容語の修飾語であるため、機能表現ラベルの頻度の更新は、当該内容語の頻度ではなく、当該内容語の修飾語である内容語の頻度を更新する。
例を用いて、機能表現ラベルDB141構築処理を再度簡単に説明する。上述の例はメイキャップ化粧品による肌の手入れがテーマである。このようなテーマに対しては、例えば、「化粧水をつけても肌がぱりぱりになってしまう」、「まだ10月なのにすでに肌がぱりぱりに乾きます」及び「肌をみずみずしく戻すにはどうしたらいいでしょうか?」などの文が、コーパスを混成するものとして、収集される。
図12は機能表現ラベルDB141構築処理の例を示す説明図である。図12は文の一部である「ぱりぱりになってしまう」という2つの文節について示している。図12Aに示すように、CPU11は内容語である「ぱりぱり」を選択する(ステップS24)。CPU11はそれに続く語句が機能表現であるか否か判定する(ステップS25)。図12Aに示すように、「ぱりぱり」の次の語句は助詞「に」である。助詞「に」は機能表現ではないので(ステップS25でNO)、CPU11は他の内容語があるか否かを判定する(ステップS30)。次の文節に動詞「なっ」があるので、CPU11は他の内容語があると判定し(ステップS30でYES)、処理をステップS24に戻す。CPU11は動詞「なっ」を選択する(ステップS24)。CPU11はそれに続く語句が機能表現であるか否か判定する(ステップS25)。図12Bに示すように、動詞「なっ」の次の語句は助詞「て」である。助詞「て」は機能表現であるので(ステップS25でYES)、CPU11は機能語「て」の機能表現ラベルを取得する(ステップS26)。機能語「て」の機能表現ラベルは無意志である。CPU11は選択している内容語が所定の語であるか否かを判定する(ステップS27)。ここで、「なっ」は動詞「なる」の連用形である。動詞「なる」は上述したように、所定の語である。CPU11は内容語が所定の語であると判定し(ステップS27でYES)、選択した内容語「なっ」の修飾語に対する頻度を加算する(ステップS29)。すなわち、図12Cに示すように、内容語「なっ」の修飾語である「ぱりぱり」について、機能表現ラベル「無意志」の頻度を加算する。CPU11は他の内容語があるか否かを判定する(ステップS30)。次に動詞「しまう」があるので、CPU11は他の内容語があると判定し(ステップS30でYES)、処理をステップS24に戻す。CPU11は動詞「しまう」を選択する(ステップS24)。CPU11はそれに続く語句が機能表現であるか否か判定する(ステップS25)。動詞「しまう」は文末であり続く語句がないので、CPU11は続く語句が機能表現でないと判定し(ステップS25でNO)、処理をステップS30へ移す。未処理の他の内容語はないので(ステップS30でNO)、CPU11は上述の例文についての処理は終了し、ステップS31以降を実行する。以上のような処理が繰り返されることにより、機能表現ラベルDB141が構築される。
本実施の形態は、次の効果を奏する。ユーザが入力した文に含まれている単語をキーワードとして検索を行った場合において、検索結果の上位に含まれないキーワードの書き換えをユーザに提案する。ユーザが提案に同意すると、キーワードを書き換えて再検索を行うので、精度を向上させることが可能となる。また、ユーザにキーワードの書き換えを提案する発話は、対象語及び書き換え語の用法に適したテンプレートを用いて生成するので、違和感のない自然な発話となる。それにより、キーワードを書き換えに対する肯定的な回答をユーザから引き出せる。したがって、キーワードを書き換えた精度を向上させた再検索を行う確率を高めることが可能となる。ひいては、対話型検索システムに対するユーザ満足度の向上に貢献する。
図13は対話型検索装置1の機能構成例を示すブロック図である。対話型検索装置1は、第1取得部11a、第1選択部11b、第2選択部11c、第2取得部11d、算出部11e、生成部11f及び出力部11gを含む。CPU11が制御プログラム1Pを実行することにより、対話型検索装置1は以下のように動作する。
第1取得部11aは複数の単語を取得する。第1選択部11bは取得した単語に基づくキーワード検索を行った結果より、前記複数の単語から書き換えるべき対象語を選択する。第2選択部11cは、選択した対象語と類似する語を書き換え語として選択する。第2取得部11dは、コーパスより収集して得た、用言又は体言と、それに続いて出現する機能語の出現度合いを当該機能語の機能表現ラベル毎に集計した出現頻度とを対応づけて記憶する記憶部から、前記対象語及び前記書き換え語に対応する機能表現ラベルの分布を取得する。算出部11eは取得した分布から、前記対象語の用法と前記書き換え語の用法との類似度を算出する。生成部11fは算出した類似度に基づいて、前記対象語及び前記書き換え語に関する発話を生成する。出力部11gは生成した発話を出力する。
各実施の形態で記載されている技術的特徴(構成要件)はお互いに組み合わせ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
以上の実施の形態に関し、さらに以下の付記を開示する。
(付記1)
複数の単語を取得し、
取得した単語に基づくキーワード検索を行った結果より、前記複数の単語から書き換えるべき対象語を選択し、
選択した対象語と類似する書き換え語を選択し、
前記対象語及び前記書き換え語と、前記対象語及び前記書き換え語それぞれに付随する機能表現ラベルの出現頻度とを対応づけて記憶する記憶部から、前記対象語及び前記書き換え語に対応する機能表現ラベルの分布を取得し、
取得した分布から、前記対象語の用法と前記書き換え語の用法との類似度を算出し、
算出した類似度に基づいて、前記対象語及び前記書き換え語に関する発話を生成する
処理をコンピュータに実行させる生成プログラム。
(付記2)
前記機能表現ラベルは、コーパスより収集して得た、前記対象語及び前記書き換え語に続いて出現する機能語に付与した機能表現ラベルである
付記1に記載の生成プログラム。
(付記3)
前記類似度が所定の閾値未満の場合、前記対象語の用法及び前記書き換え語の用法は同一と判定し、
前記類似度が所定の閾値以上の場合、前記対象語の用法及び前記書き換え語の用法は異なると判定し、
判定結果に基づいて、前記発話を生成する
付記1又は付記2に記載の生成プログラム。
(付記4)
前記判定により用法は同一であると判定したときは、所定のテンプレートを取得し、
前記判定により用法は異なると判定したときは、用法とテンプレートとを対応づけて記憶する記憶部から、前記対象語の用法及び前記書き換え語の用法に対応づけられたテンプレートを取得し、
取得したテンプレートに前記対象語及び前記書き換え語を当てはめて、前記発話を生成する
付記3に記載の生成プログラム。
(付記5)
キーワード検索の結果は文書及びスコアを含み、前記対象語は前記スコアが上位である前記文書には含まれていない単語である
付記1から付記4のいずれか一つに記載の生成プログラム。
(付記6)
単語分割、品詞付与及び係り受け解析を含む処理がされたテキストを複数取得し、
取得したテキスト毎に、
前記テキストに含まれる名詞、動詞、形容詞及び副詞を含む内容語を取得し、
取得した内容語に続いて出現する助詞及び助動詞を含む機能語を取得し、
機能語と機能表現ラベルとを対応づけて記憶する辞書より、取得した機能語に対応づけられた機能表現ラベルを取得し、
前記取得した内容語毎に、続いて出現する内容語の機能表現ラベルの頻度を記憶する
付記1から付記5のいずれか一つに記載の生成プログラム。
(付記7)
前記類似度は、前記分布に基づく前記対象語の用法と前記書き換え語の用法との差である
付記1から付記6のいずれか一つに記載の生成プログラム。
(付記8)
前記対象語(単語pとする)の用法と前記書き換え語(単語qとする)の用法との類似度Sを以下の式(1)により求める
付記1から付記7のいずれか一つに記載の生成プログラム。
Figure 2019008476
(付記9)
複数の単語を取得する第1取得部と、
取得した単語に基づくキーワード検索を行った結果より、前記複数の単語から書き換えるべき対象語を選択する第1選択部と、
選択した対象語と類似する書き換え語を選択する第2選択部と、
前記対象語及び前記書き換え語と、前記対象語及び前記書き換え語それぞれに付随する機能表現ラベルの出現頻度とを対応づけて記憶する記憶部から、前記対象語及び前記書き換え語に対応する機能表現ラベルの分布を取得する第2取得部と、
取得した分布から、前記対象語の用法と前記書き換え語の用法との類似度を算出する算出部と、
算出した類似度に基づいて、前記対象語及び前記書き換え語に関する発話を生成する生成部と
を備える生成装置。
(付記10)
複数の単語を取得し、
取得した単語に基づくキーワード検索を行った結果より、前記複数の単語から書き換えるべき対象語を選択し、
選択した対象語と類似する書き換え語を選択し、
前記対象語及び前記書き換え語と、前記対象語及び前記書き換え語それぞれに付随する機能表現ラベルの出現頻度とを対応づけて記憶する記憶部から、前記対象語及び前記書き換え語に対応する機能表現ラベルの分布を取得し、
取得した分布から、前記対象語の用法と前記書き換え語の用法との類似度を算出し、
算出した類似度に基づいて、前記対象語及び前記書き換え語に関する発話を生成する
生成方法。
1 対話型検索装置
11 CPU
12 ROM
13 RAM
14 大容量記憶部
141 機能表現ラベルDB
142 ラベル辞書DB
143 類似度DB
144 テンプレートDB
15 通信部
16 読み取り部
11a 第1取得部
11b 第1選択部
11c 第2選択部
11d 第2取得部
11e 算出部
11f 生成部
11g 出力部
1P 制御プログラム
1a 可搬型記憶媒体
1b 半導体メモリ
2 端末

Claims (5)

  1. 複数の単語を取得し、
    取得した単語に基づくキーワード検索を行った結果より、前記複数の単語から書き換えるべき対象語を選択し、
    選択した対象語と類似する書き換え語を選択し、
    前記対象語及び前記書き換え語と、前記対象語及び前記書き換え語それぞれに付随する機能表現ラベルの出現頻度とを対応づけて記憶する記憶部から、前記対象語及び前記書き換え語に対応する機能表現ラベルの分布を取得し、
    取得した分布から、前記対象語の用法と前記書き換え語の用法との類似度を算出し、
    算出した類似度に基づいて、前記対象語及び前記書き換え語に関する発話を生成する
    処理をコンピュータに実行させる生成プログラム。
  2. 前記機能表現ラベルは、コーパスより収集して得た、前記対象語及び前記書き換え語に続いて出現する機能語に付与した機能表現ラベルである
    請求項1に記載の生成プログラム。
  3. 前記類似度が所定の閾値未満の場合、前記対象語の用法及び前記書き換え語の用法は同一と判定し、
    前記類似度が所定の閾値以上の場合、前記対象語の用法及び前記書き換え語の用法は異なると判定し、
    判定結果に基づいて、前記発話を生成する
    請求項1又は請求項2に記載の生成プログラム。
  4. 複数の単語を取得する第1取得部と、
    取得した単語に基づくキーワード検索を行った結果より、前記複数の単語から書き換えるべき対象語を選択する第1選択部と、
    選択した対象語と類似する書き換え語を選択する第2選択部と、
    前記対象語及び前記書き換え語と、前記対象語及び前記書き換え語それぞれに付随する機能表現ラベルの出現頻度とを対応づけて記憶する記憶部から、前記対象語及び前記書き換え語に対応する機能表現ラベルの分布を取得する第2取得部と、
    取得した分布から、前記対象語の用法と前記書き換え語の用法との類似度を算出する算出部と、
    算出した類似度に基づいて、前記対象語及び前記書き換え語に関する発話を生成する生成部と
    を備える生成装置。
  5. 複数の単語を取得し、
    取得した単語に基づくキーワード検索を行った結果より、前記複数の単語から書き換えるべき対象語を選択し、
    選択した対象語と類似する書き換え語を選択し、
    前記対象語及び前記書き換え語と、前記対象語及び前記書き換え語それぞれに付随する機能表現ラベルの出現頻度とを対応づけて記憶する記憶部から、前記対象語及び前記書き換え語に対応する機能表現ラベルの分布を取得し、
    取得した分布から、前記対象語の用法と前記書き換え語の用法との類似度を算出し、
    算出した類似度に基づいて、前記対象語及び前記書き換え語に関する発話を生成する
    生成方法。
JP2017122459A 2017-06-22 2017-06-22 生成プログラム、生成装置及び生成方法 Pending JP2019008476A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017122459A JP2019008476A (ja) 2017-06-22 2017-06-22 生成プログラム、生成装置及び生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017122459A JP2019008476A (ja) 2017-06-22 2017-06-22 生成プログラム、生成装置及び生成方法

Publications (1)

Publication Number Publication Date
JP2019008476A true JP2019008476A (ja) 2019-01-17

Family

ID=65029620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017122459A Pending JP2019008476A (ja) 2017-06-22 2017-06-22 生成プログラム、生成装置及び生成方法

Country Status (1)

Country Link
JP (1) JP2019008476A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434158A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备
JP7413776B2 (ja) 2019-12-27 2024-01-16 富士フイルムビジネスイノベーション株式会社 情報処理装置、及びコンピュータプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7413776B2 (ja) 2019-12-27 2024-01-16 富士フイルムビジネスイノベーション株式会社 情報処理装置、及びコンピュータプログラム
CN112434158A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备
CN112434158B (zh) * 2020-11-13 2024-05-28 海创汇科技创业发展股份有限公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备

Similar Documents

Publication Publication Date Title
EP1349145B1 (en) System and method for providing information using spoken dialogue interface
JPWO2008059710A1 (ja) 操作支援装置および操作支援方法
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP6225012B2 (ja) 発話文生成装置とその方法とプログラム
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
JP6551968B2 (ja) 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
JP2003196280A (ja) テキスト生成方法及びテキスト生成装置
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
JP2019008476A (ja) 生成プログラム、生成装置及び生成方法
JP2020135289A (ja) 質問応答装置、学習装置、質問応答方法及びプログラム
JP2007148118A (ja) 音声対話システム
JP6882975B2 (ja) 対話ログ群からコンテキストを決定可能な対話シナリオ生成装置、プログラム及び方法
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
KR100353549B1 (ko) 언어를 학습하기 위한 방법 및 시스템
JP3123836B2 (ja) テキスト型データベース装置
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
CN112905835B (zh) 一种多模态乐曲标题生成方法、装置及存储介质
WO2022003967A1 (ja) 発話理解支援システム、方法、装置及びプログラム
JP7044245B2 (ja) 対話システム補強装置及びコンピュータプログラム
Zouaoui et al. Ontological Approach Based on Multi-Agent System for Indexing and Filtering Arabic Docu-ments
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
CN114722267A (zh) 信息推送方法、装置及服务器
CN114930316A (zh) 透明迭代多概念语义搜索
JP2020140674A (ja) 回答選択装置及びプログラム
JPH1145270A (ja) 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体