JP6165657B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP6165657B2
JP6165657B2 JP2014058246A JP2014058246A JP6165657B2 JP 6165657 B2 JP6165657 B2 JP 6165657B2 JP 2014058246 A JP2014058246 A JP 2014058246A JP 2014058246 A JP2014058246 A JP 2014058246A JP 6165657 B2 JP6165657 B2 JP 6165657B2
Authority
JP
Japan
Prior art keywords
topic
document
feature amount
candidate
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014058246A
Other languages
English (en)
Other versions
JP2015184749A (ja
Inventor
康太 中田
康太 中田
蟻生 政秀
政秀 蟻生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014058246A priority Critical patent/JP6165657B2/ja
Priority to US14/644,395 priority patent/US20150269162A1/en
Priority to CN201510109856.7A priority patent/CN104933022B/zh
Publication of JP2015184749A publication Critical patent/JP2015184749A/ja
Application granted granted Critical
Publication of JP6165657B2 publication Critical patent/JP6165657B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。
コンピュータおよびインターネット環境の普及により、大量の文書が電子化され蓄積されている。このような電子化された大量の文書を用いて、音声認識等の技術に利用される言語モデルを学習することができる。例えばウェッブ上で公開されている大量の文書を用いて、一般的な用途に利用される言語モデルを学習することにより、その言語モデルの性能を向上させることができる。しかし、ある特定の目的に利用される言語モデルをウェッブ上で公開されている大量の文書を用いて学習しても、特定の目的以外に関する文書が多量に含まれるので、性能を大幅に向上させることはできない。
ある特定の目的に利用される言語モデルの性能を向上させるには、特定の目的に関する文書(目的文書)のみを用いて言語モデルを学習すればよい。例えば、特定の目的がコールセンターにおける音声認識である場合、コールセンターにおけるオペレータのやり取りの音声を書き起こした文書を用いて言語モデルを学習すれば、その特定の目的に利用される言語モデルの性能を向上させることができる。
ところで、このような方法は、十分な量の目的文書を用いて学習しなければ、多様な表現に対応した言語モデルとすることができない。しかし、特定の目的に関する文書を数多く収集することは困難である。例えば、音声を書き起こして文書化する作業は、経済的および時間的なコストが大きく、十分な量の目的文書を得ることは困難である。
特開2009−238235号公報
発明が解決しようとする課題は、言語モデルを学習するために用いられる文書を、目的外の文書を大量に含む複数の候補文書から適切に選択することにある。
実施形態の情報処理装置は、複数の候補文書から言語モデルの学習に用いる文書を選択する。前記情報処理装置は、第1特徴量算出部と、第2特徴量算出部と、類似度算出部と、選択部と、を備える。前記第1特徴量算出部は、前記言語モデルが利用される目的に合致した目的文書について、それぞれのトピックに対する文書の関連の強さを表すトピック特徴量を算出する。前記第2特徴量算出部は、前記複数の候補文書のそれぞれについて、前記トピック特徴量を算出する。前記類似度算出部は、前記複数の候補文書のそれぞれの前記トピック特徴量について、前記目的文書の前記トピック特徴量との類似度を算出する。前記選択部は、前記類似度が基準値より大きい候補文書を、前記言語モデルの学習に用いる文書として選択する。
第1実施形態に係る情報処理装置の構成を示す図。 トピック数が50個のトピック情報の一例を示す図。 第1実施形態に係る情報処理装置の処理フローを示す図。 目的文書の第1例を示す図。 候補文書の第1例を示す図。 候補文書の第2例を示す図。 候補文書の第3例を示す図。 トピック特徴量の算出フローを示す図。 単語の一致度の高い文書の一例を示す図。 トピック数が10個のトピック情報の一例を示す図。 トピック数が200個のトピック情報の一例を示す図。 トピック情報を選択するための処理フローを示す図。 第2変形例に係るトピック情報の一例を示す図。 第2実施形態に係る情報処理装置の構成を示す図。 第2実施形態に係る情報処理装置の処理フローを示す図。 目的文書の第2例を示す図。 類似目的文書の一例を示す図。 第1の品詞群のトピック情報の一例を示す図。 第2の品詞群のトピック情報の一例を示す図。 情報処理装置のハードウェア構成を示す図。
(第1の実施形態)
図1は、第1実施形態に係る情報処理装置10の構成を示す図である。図2は、トピック数が50個のトピック情報の一例を示す図である。
情報処理装置10は、ウェッブ上等の複数の候補文書から言語モデルの学習に用いる文書を選択し、選択した候補文書を用いて言語モデルを学習する。情報処理装置10は、目的文書格納部21と、候補コーパス格納部22と、トピック情報取得部23と、第1特徴量算出部24と、第2特徴量算出部25と、類似度算出部26と、選択部27と、学習部28とを備える。
目的文書格納部21は、学習対象の言語モデルが利用される目的に合致した文書(目的文書)を格納する。目的文書は、一例として、ユーザにより手動で選択される。学習対象の言語モデルがコールセンターにおける音声認識に利用される場合には、目的文書は、一例として、コールセンターにおけるオペレータの音声を書き起こしたテキストである。
候補コーパス格納部22は、言語モデルの学習に用いる文書の候補となる複数の文書(候補文書)を格納する。複数の候補文書は、一例として、ウェッブから収集した大量のテキストである。複数の候補文書には、例えば、ニュースサイトの記事、および、掲示板上に書き込まれたコメント等の、多様な目的で用いられる文書が含まれ、言語モデルが利用される目的以外で用いられる文書も含まれる。候補コーパス格納部22は、情報処理装置10内に設けられるのではなく、ネットワーク上のサーバに設けられていてもよいし、複数のサーバに分散して設けられていてもよい。
トピック情報取得部23は、トピック情報を取得する。トピック情報は、図2に示すような、トピック毎に、単語とスコアとのペアの集合を含む。
トピックとは、文書で述べられている中心的な対象(テーマ)およびその文書の発話のスタイル等の特徴をいう。1つの文書に複数のトピックが含まれていてもよい。例えば、図2のトピック番号#1は、デジタル家庭電化製品のトピックを表す。また、図2のトピック番号#2は、食品に関するトピックを表す。さらに、トピック情報は、例えば、丁寧な発話スタイルを表すトピック、および、書き言葉のスタイル(書く場合に用いるスタイル)を表すトピックを含んでもよい。
トピック情報におけるそれぞれのトピックに属する単語は、そのトピックに関連する単語であって、そのトピックに関する文書に含まれる可能性がある。また、トピック情報に含まれるそれぞれの単語は、スコアとペアとなっている。スコアは、その単語が属するトピックとの関連の強さを表す。本実施形態においては、スコアは、大きいほど、対するトピックとの関連が強いことを表す。
なお、トピック情報は、1つの単語が、複数のトピックに属していてもよい。また、トピック情報に含まれるトピックの数は、何個であってもよい。
トピック情報は、一例として、ユーザが複数のトピックを設定し、ユーザがそれぞれのトピックに関する単語を収集することにより、生成される。また、トピック情報は、一例として、ユーザが複数のトピックを設定し、ユーザがトピック毎に関連する文書とを準備し、コンピュータが準備した複数の文書内の単語の頻度を算出することにより、生成される。
また、トピック情報取得部23は、例えば、下記の文献に記載されているような教師無しトピック分析技術により、トピック情報を自動で生成してもよい。
Blei, David M., Andrew Y. Ng, and Michael I. Jordan. "Latent dirichlet allocation." the Journal of machine Learning research 3 (2003): P.993-1022.
この方法では、まず、ユーザがトピック数Nを設定する。そして、トピック情報取得部23は、大量で多様な文書を解析して、N個のトピックに分割されたトピック情報を生成する。この方法によれば、トピック情報取得部23は、トピックに関する事前の知識を用いずにトピック情報を生成することができる。
第1特徴量算出部24は、トピック情報に基づいて、目的文書格納部21に格納された目的文書に対するトピック特徴量を算出する。トピック特徴量は、それぞれのトピックに対する、その文書の関連の強さを表す。本実施形態では、トピック特徴量は、下記の数1に示されるような、ベクトル(配列)により表される。
Figure 0006165657
ベクトルで表されたトピック特徴量は、トピック情報に含まれるトピックの数分の成分(例えば、T,T,…,T49,T50)を含む。トピック特徴量に含まれるそれぞれの成分は、トピック情報に含まれるそれぞれのトピックに一対一で対応する。それぞれの成分は、対応するトピックに対する、その文書の関連の強さを表す。例えば、数1の成分Tは、図2に示すトピック情報におけるトピック番号#1のトピックに対する、文書の関連の強さを表す。
このようなトピック特徴量は、その文書のトピック毎の関連の強さの分布を表している。なお、トピック特徴量のより詳細な算出方法については、後述の図8を参照して説明する。
第2特徴量算出部25は、トピック情報に基づいて、候補コーパス格納部22に格納されたそれぞれの候補文書に対するトピック特徴量を算出する。なお、候補文書に対するトピック特徴量は、目的文書に対するトピック特徴量と、同一の形式であり、同一の算出方法で算出される。
類似度算出部26は、複数の候補文書のそれぞれのトピック特徴量に対する、目的文書のトピック特徴量との類似度を算出する。すなわち、類似度算出部26は、複数の候補文書のそれぞれのトピック毎の関連の強さの分布が、目的文書のトピック毎の関連の強さの分布とどれだけ類似しているかを算出する。
本実施形態においては、類似度算出部26は、ベクトルで表されたトピック特徴量の内積を演算することにより、類似度を算出する。すなわち、類似度算出部26は、候補文書に対するトピック特徴量に含まれるそれぞれの成分と、目的文書に対するトピック特徴量の対応する成分とを乗算し、乗算結果を全て加算した値を類似度として算出する。
選択部27は、複数の候補文書のうち、類似度が基準値より大きい候補文書を、言語モデルの学習に用いる文書として選択する。ここで、基準値は、ユーザが設定した値であってもよい。また、基準値は、複数の候補文書の類似度に基づき算出された値であってもよい。例えば、基準値は、複数の候補文書の類似度の平均値、または、複数の候補文書の類似度の最大値から一定量小さい値等であってもよい。
学習部28は、選択部27により選択された候補文書に基づき、言語モデルを学習する。学習部28は、一例として、nグラム言語モデルを一般的な公知技術を用いて学習する。
図3は、第1実施形態に係る情報処理装置10の処理フローを示す図である。なお、本フローでは、家庭電化製品のメーカーのコールセンターの音声認識に用いられる言語モデルを学習する例を説明する。また、本フローでは、図2で示したトピック情報を用いる例を説明する。
処理に先立って、予めユーザにより目的文書が目的文書格納部21に格納される。目的文書格納部21は、一例として、図4に示されるような、テレビジョン受像機(テレビとも称する。)のリモートコントローラ(リモコンとも称する。)についての問い合わせに対する応答音声を書き起こしたテキストを、目的文書として格納する。
また、処理に先立って、情報処理装置10は、ウェッブ等から複数の候補文書を取得し、候補コーパス格納部22に格納する。候補コーパス格納部22は、一例として、図5、図6および図7に示されるような、候補文書を格納する。なお、図5に示される候補文書C_{n1}は、家庭電化製品のメーカーのコールセンターに対する、DVDレコーダーについての問い合わせ音声を書き起こしたテキストである。図6に示される候補文書C_{n2}は、テレビの調子がおかしいとのウェッブ上での書き込みのテキストである。図7に示される候補文書C_{n3}は、食品メーカーのコールセンターに対する、アレルギー源に対する問い合わせの音声を書き起こしたテキストである。
まず、ステップS11において、トピック情報取得部23は、トピック情報を生成する。トピック情報取得部23は、予め保存されているトピック情報を取得してもよい。
続いて、ステップS12において、第1特徴量算出部24は、トピック毎に、目的文書に含まれる単語のスコアを累積して、目的文書のトピック特徴量を算出する。具体的には、第1特徴量算出部24は、図8のステップS21からステップS29に示す手順で、目的文書のトピック特徴量を算出する。
図8のステップS21において、第1特徴量算出部24は、トピック特徴量を初期化する。本例においては、下記の数2に示すように、トピック特徴量に含まれる全ての成分を0.0に初期化する。
Figure 0006165657
続いて、第1特徴量算出部24は、対象の文書に含まれる全ての単語毎に、ステップS23からステップS27までの処理を繰り返して実行する(ステップS22とステップS28との間のループ処理)。第1特徴量算出部24は、一例として、対象の文書の先頭の単語から最後の単語まで、1つずつ単語を選択して、ステップS23からステップS27の処理を実行する。
単語毎のループ処理において、第1特徴量算出部24は、さらに、トピック情報に示されたトピック毎に、ステップS24からステップS26の処理を繰り返して実行する(ステップS23とステップS27との間のループ処理)。第1特徴量算出部24は、一例として、トピック情報のトピック番号#1からトピック番号#50まで順次にトピックを選択して、ステップS24からステップS26の処理を実行する。
トピック毎のループ処理において、まず、ステップS24において、第1特徴量算出部24は、選択した単語が、トピック情報における対象のトピックの単語の集合に含まれるか否かを判断する。含まれない場合には(ステップS24のNo)、第1特徴量算出部24は、処理をステップS27に進める。含まれる場合には(ステップS24のYes)、第1特徴量算出部24は、処理をステップS25に遷移させる。
ステップS25において、第1特徴量算出部24は、トピック情報における対象のトピックの単語の集合から、選択した単語に対応する(ペアとなる)スコアを取得する。続いて、ステップS26において、第1特徴量算出部24は、取得したスコアにより、トピック特徴量の対応する成分を更新する。第1特徴量算出部24は、一例として、トピック特徴量の対応する成分に、取得したスコアを加算する。
例えば、ループ処理の対象の単語が「テレビ」であり、ループ処理の対象のトピックがトピック番号#1であるとする。この場合、トピック番号#1の単語の集合の中の「テレビ」が存在する。従って、第1特徴量算出部24は、トピック番号#1の「テレビ」に対応するスコア(0.11)を、トピック特徴量の1番目の成分Tに加算する。下記の数3は、初期化したトピック特徴量に対して、「テレビ」に対応するスコア(0.11)を加算した後のトピック特徴量である。
Figure 0006165657
第1特徴量算出部24は、ステップS26の処理が終了すると、処理をステップS27に進める。ステップS27において、全てのトピックについて、まだ、ステップS24からステップS26の処理を終了していない場合には、第1特徴量算出部24は、処理をステップS23に戻して次のトピックについて処理を繰り返す。終了した場合には、第1特徴量算出部24は、処理をステップS28に進める。
ステップS28において、全ての単語について、まだ、ステップS23からステップS27の処理を終了していない場合には、第1特徴量算出部24は、処理をステップS22に戻して、次の単語について処理を繰り返す。終了した場合には、第1特徴量算出部24は、処理をステップS29に進める。
下記の数4は、全ての単語についての更新処理が完了した後のトピック特徴量である。本例では、目的文書にトピック番号#1に属する単語が多く含まれているので、Tの値が他の成分より大きくなっている。
Figure 0006165657
ステップS29において、第1特徴量算出部24は、トピック特徴量を正規化する。本例では、下記の数5に示される演算によりトピック特徴量を正規化する。すなわち、第1特徴量算出部24は、それぞれの成分Tを、全ての成分の二乗平均で除算することにより、トピック特徴量を正規化する。
Figure 0006165657
下記の数6は、目的文書に対する正規化後のトピック特徴量を示す。
Figure 0006165657
本例において、正規化後のトピック特徴量は、各成分の二乗和が1となる。このように正規化することにより、トピック特徴量は、対象の文書が何れのトピックと関連性が強いのかを表すことができる。なお、数6のトピック特徴量は、成分T〜T48までは0.0である。従って、本実施形態において、目的文書は、トピック番号#1とトピック番号#50のトピックとの関連性が強い。
第1特徴量算出部24は、以上のように目的文書に対するトピック特徴量を算出する。
図3に戻る。続いて、情報処理装置10は、候補コーパス格納部22に格納されている候補文書毎に、ステップS14からステップS17の処理を繰り返して実行する(ステップS13とステップS18との間のループ処理)。
候補文書毎のループ処理では、まず、ステップS14において、第2特徴量算出部25は、トピック毎に、対象の文書に含まれる単語のスコアを累積して、候補文書のトピック特徴量を算出する。具体的には、第2特徴量算出部25は、図8のステップS21からステップS29に示した手順で、候補文書のトピック特徴量を算出する。
下記の数7は、候補文書C_{n1}、候補文書C_{n2}および候補文書C_{n3}に対するトピック特徴量を示す。
Figure 0006165657
なお、数7に示すトピック特徴量は、成分T〜T48までは0.0である。候補文書C_{n1}は、トピック番号#1およびトピック番号#50のトピックとの関連性が強い。候補文書C_{n2}は、トピック番号#1およびトピック番号#49のトピックとの関連性が強い。候補文書C_{n3}は、トピック番号#2およびトピック番号#50のトピックとの関連性が強い。
続いて、ステップS15において、類似度算出部26は、目的文書のトピック特徴量と候補文書のトピック特徴量との類似度を算出する。本実施形態においては、類似度算出部26は、下記の数8に示されるように、目的文書のトピック特徴量と、候補文書のトピック特徴量との内積を演算する。
Figure 0006165657
下記の数9は、候補文書C_{n1}、候補文書C_{n2}および候補文書C_{n3}に対する類似度を示す。
Figure 0006165657
候補文書C_{n1}の類似度は、0.98となる。候補文書C_{n2}の類似度は、0.58となる。候補文書C_{n3}の類似度は、0.48となる。目的文書および候補文書C_{n1}は、共に、トピック番号#1およびトピック番号#50のトピックとの関連性が強いので、類似度が他よりも高くなっている。
続いて、ステップS16において、選択部27は、類似度が基準値より大きいか否かを判断する。類似度が基準値以下である場合には(ステップS16のNo)、選択部27は、処理をステップS18に進める。類似度が基準値より大きい場合には(ステップS16のYes)、選択部27は、処理をステップS17に進める。
ステップS17において、選択部27は、対象の候補文書を、言語モデルの学習に用いる文書として選択する。本例においては、選択部27は、基準値が0.70に設定されており、類似度が0.70より大きい候補文書C_{n1}を選択する。そして、選択部27は、処理をステップS18に進める。
ステップS18において、全ての候補文書について、まだステップS14からステップS17の処理を終了していない場合には、選択部27は、処理をステップS13に戻して、次の候補文書について処理を繰り返す。終了した場合には、選択部27は、処理をステップS19に進める。
ステップS19において、学習部28は、選択された候補文書を用いて、言語モデルを学習する。そして、ステップS19の処理を終えると、情報処理装置10は、本フローを終了する。
以上のように、本実施形態に係る情報処理装置10によれば、目的外の文書を大量に含む複数の候補文書から、言語モデルを学習するために適切な文書を効率良く選択することができる。特に、情報処理装置10によれば、目的文書に含まれる単語と一致する単語が比較的に少ない候補文書であっても、トピックの分布が類似していれば、言語モデルを学習するために用いる文書として選択することができる。
例えば、図4に示す目的文書と、図5に示す候補文書C_{n1}とを比較すると、含まれる単語の多くが異なっており、単語毎の一致度は低い。しかし、例えば、図4に示す目的文書の「テレビ」と図5に示す候補文書C_{n1}の「DVD」とは、両者ともデジタル家庭電化製品に関連する単語として認識されるので、人間の感覚では類似すると判断される。情報処理装置10は、このような候補文書C_{n1}を選択する。
また、単語の一致度の高い文書は、ほとんどが同一の単語を用いたテキストで構成される可能性がある。例えば、図9は、図4に示す目的文書と、単語の一致度の高い候補文書の一例を示す図である。図9の候補文書は、目的文書とほぼ同様の表現で構成された文書となっている。従って、図9に示すような候補文書を用いて言語モデルを学習したとしても、多様な表現に対して脆弱な言語モデルとなってしまう。
情報処理装置10は、目的文書および候補文書のトピック特徴量を比較して類似度を判断する。従って、情報処理装置10は、目的文書と単語の一致度が低くても、同一のトピックに属する単語が含まれる候補文書を選択することができる。例えば、図5に示す候補文書C_{n1}は、図4に示す目的文書と同様に、トピック番号#1およびトピック番号#50のトピックの成分が大きいので、言語モデルを学習するための文書として選択される。従って、情報処理装置10では、人間の感覚では目的文書と類似すると判断される候補文書を適切に選択することができる。これにより、情報処理装置10によれば、目的に関する多様な表現な含む文書により言語モデルを学習することができるので、多様な表現に対して頑健な言語モデルを生成することができる。
(第1変形例)
つぎに、第1実施形態の第1変形例に係る情報処理装置10について説明する。
図10は、トピック数が10個のトピック情報の一例を示す図である。図11は、トピック数が200個のトピック情報の一例を示す図である。
トピック数が少ない場合、1つのトピックには、広い範囲に関連する単語が含まれる。例えば、図10に示されるように、トピック数が10個のトピック情報には、トピック番号#1のトピックに「テレビ」「DVD」等のデジタル家庭電化製品に関連する単語に加えて、「番組」「年末」等のテレビジョン番組に関連する単語が含まれてしまう。
トピック数が多い場合、1つのトピックには、狭い範囲に関連する単語が含まれる。例えば、図11に示されるように、トピック数が200個のトピック情報には、トピック番号#1のトピックとトピック番号#2のトピックとに、「テレビ」と「DVD」とが分かれて属してしまう。そして、トピック番号#1には「テレビ」に関連する単語が含まれ、トピック番号#2には「DVD」に関連する単語が含まれてしまう。
そこで、第1変形例に係るトピック情報取得部23は、複数のトピック数Nに対してトピック情報を生成し、生成されたトピック情報の中から最も適切なトピック情報を選択する。
図12は、適切なトピック数のトピック情報を選択するための処理フローを示す図である。
まず、ステップS31において、トピック情報取得部23は、トピック数が異なる複数のトピック情報を生成する。本例においては、トピック情報取得部23は、トピック数N=10、N=50、N=200のトピック情報を生成する。
続いて、ステップS32において、トピック情報取得部23は、トピック数が異なる複数のトピック情報のそれぞれに基づいて、目的文書のトピック特徴量を算出する。下記の数10は、トピック数N=10、N=50、N=200の場合のトピック情報を示す。なお、数10に示すトピック特徴量は、T以降の成分の値は0.0である。
Figure 0006165657
トピック数N=10およびトピック数N=50のトピック情報は、「テレビ」および「リモコン」がトピック番号#1のトピックに属する。従って、トピック数N=10およびトピック数N=50のトピック情報に基づく、トピック特徴量は、トピック番号#1の成分Tの値が大きい。
トピック数N=200のトピック情報は、「テレビ」がトピック番号#1のトピックに属し、「リモコン」がトピック番号#2のトピックに属する。従って、トピック数N=200のトピック情報に基づく、トピック特徴量は、トピック番号#1の成分Tとトピック番号#2の成分Tがほぼ同等となっている。
続いて、ステップS33において、トピック情報取得部23は、生成した複数のトピック情報のうち、含まれる最大の成分の値が、閾値以上であるトピック情報を抽出する。本例の場合、トピック数N=10のトピック情報に基づくトピック特徴量の最大の成分の値は、0.80である。また、トピック数N=50のトピック情報に基づくトピック特徴量の最大の成分の値は、0.74である。また、トピック数N=200のトピック情報に基づくトピック特徴量の最大の成分の値は、0.54である。そして、閾値を0.7とした場合、トピック情報取得部23は、閾値以上であるトピック情報として、トピック数N=10のトピック情報、および、トピック数N=50のトピック情報を抽出する。
続いて、ステップS34において、トピック情報取得部23は、抽出したトピック情報のうち、トピック数が最大となるトピック情報を選択する。本例の場合、トピック情報取得部23は、トピック数N=50のトピック情報を選択する。
第1変形例に係る情報処理装置10は、このように適切な数のトピック数に設定されたトピック情報を用いて、言語モデルを学習するための候補文書を選択する。これにより、本変形例に係る情報処理装置10によれば、より性能の良い言語モデルを学習することができる。
(第2変形例)
つぎに、第1実施形態の第2変形例に係る情報処理装置10について説明する。図13は、第2変形例に係るトピック情報の一例を示す図である。
第2変形例に係るトピック情報は、文章および発話のスタイルを表すトピックの単語の集合を含む。例えば、図13に示すトピック情報におけるトピック番号#49のトピックは、親しい友人との会話で使用されるような通常の発話スタイルで用いられる単語の集合を含む。また、図13に示すトピック情報におけるトピック番号#50のトピックは、接客等で用いられるような丁寧な発話スタイルで用いられる単語の集合を含む。
例えば、コールセンターのオペレータは、通常、丁寧な発話スタイルの音声を発生する。従って、デジタル家庭電化製品に属する単語が含まれている文書であって、且つ、日本語において文章の語尾に用いられる「です」または「ます」等の丁寧な発話スタイルに用いる単語を含む文書を選択することにより、コールセンターのオペレータの音声認識に用いられる言語モデルを、効率良く学習することができる。
従って、第2変形例に係る情報処理装置10によれば、トピック情報が発話スタイルを表すトピックの単語の集合を含むことにより、特定の用途の言語モデルを学習するために、より適切な候補文書を選択することができる。
(第2実施形態)
つぎに、第2実施形態に係る情報処理装置10について説明する。なお、第2実施形態に係る情報処理装置10は、第1実施形態に係る情報処理装置10と略同一の機能および構成を有する。従って、略同一の機能および構成を有する要素には同一の符号を付けて、相違点を除き詳細な説明を省略する。
図14は、第2実施形態に係る情報処理装置10の構成を示す図である。第2変形例に係る情報処理装置10は、類似目的文書格納部61と、第3特徴量算出部62とをさらに備える。
類似目的文書格納部61は、学習対象の言語モデルと類似した用途で用いられる言語モデルを学習するための文書(類似目的文書)を格納する。例えば、学習対象の言語モデルが、デジタル家庭電化製品のメーカーのコールセンターの音声認識に用いられる場合であれば、類似目的文書により学習する言語モデルは、異なる商品のメーカーのコールセンターの音声認識に用いられる。
トピック情報取得部23は、含まれる単語が品詞群毎に分割されたトピック情報を取得する。トピック情報取得部23は、一例として、名詞(第1の品詞群)を含むトピック情報と、名詞以外の単語(例えば、助詞、助動詞、動詞および代名詞等の第2の品詞群)を含むトピック情報とを生成する。
第1特徴量算出部24は、品詞群毎のトピック情報に基づき、目的文書に対する品詞群毎のトピック特徴量を算出する。第1特徴量算出部24は、一例として、目的文書に対する、名詞(第1の品詞群)に関するトピック特徴量および名詞以外の単語(第2の品詞群)に関するトピック特徴量を算出する。
第2特徴量算出部25は、品詞群毎に分割されたトピック情報に基づき、それぞれの候補文書に対する品詞群毎のトピック特徴量を算出する。第2特徴量算出部25は、一例として、候補文書に対する、名詞(第1の品詞群)に関するトピック特徴量および名詞以外の単語(第2の品詞群)に関するトピック特徴量を算出する。
第3特徴量算出部62は、品詞群毎に分割されたトピック情報に基づき、類似目的文書に対する品詞群毎のトピック特徴量を算出する。第3特徴量算出部62は、一例として、類似目的文書に対する、名詞(第1の品詞群)に関するトピック特徴量および名詞以外の単語(第2の品詞群)に関するトピック特徴量を算出する。
類似度算出部26は、第1算出部71と、第2算出部72とを有する。第1算出部71は、目的文書に対する品詞群毎のトピック特徴量、および、それぞれの候補文書に対する品詞群毎のトピック特徴量を入力する。また、第1算出部71は、第1の品詞群の指定を入力する。そして、第1算出部71は、複数の候補文書のそれぞれの第1の品詞群に関するトピック特徴量に対して、目的文書の第1の品詞群に関するトピック特徴量との第1の類似度を算出する。第1算出部71は、一例として、それぞれの候補文書の名詞(第1の品詞群)に関するトピック特徴量に対して、目的文書の名詞(第1の品詞群)に関するトピック特徴量の類似度(第1の類似度)を算出する。
第2算出部72は、類似目的文書に対する品詞群毎のトピック特徴量、および、それぞれの候補文書に対する品詞群毎のトピック特徴量を入力する。また、第2算出部72は、第2の品詞群の指定を入力する。そして、第2算出部72は、複数の候補文書のそれぞれの第2の品詞群に関するトピック特徴量に対して、類似目的文書の第2の品詞群に関するトピック特徴量との第2の類似度を算出する。第2算出部72は、一例として、それぞれの候補文書の名詞以外の品詞(第2の品詞群)に関するトピック特徴量に対して、類似目的文書の名詞以外の品詞(第2の品詞群)に関するトピック特徴量の類似度(第2の類似度)を算出する。
選択部27は、複数の候補文書のうち、第1の類似度が第1の基準値より大きく、且つ、第2の類似度が第2の基準値より大きい候補文書を、言語モデルの学習に用いる文書として選択する。
ここで、第1の基準値および第2の基準値は、ユーザが設定した値であってもよい。また、第1の基準値は、複数の候補文書の第1の類似度に基づき算出された値(平均値または最大値に基づく値等)であってもよい。また、第2の基準値は、複数の候補文書の第2の類似度に基づき算出された値(平均値または最大値に基づく等)であってもよい。
図15は、第2実施形態に係る情報処理装置10の処理フローを示す図である。なお、本フローでは、家庭電化製品のメーカーのコールセンターの音声認識に用いられる言語モデルを学習する例を説明する。
処理に先立って、予めユーザにより目的文書が目的文書格納部21に格納される。目的文書格納部21は、一例として、図16に示されるような、家庭電化製品のメーカーのコールセンターのオペレータにより作成された、対話内容をまとめたレポート等のテキストを、目的文書として格納する。
また、処理に先立って、情報処理装置10は、ウェッブ等から複数の候補文書を取得して、候補コーパス格納部22に格納する。候補コーパス格納部22は、一例として、第1実施形態と同様の、図5、図6および図7に示されるような、候補文書を格納する。
また、処理に先立って、予めユーザにより類似目的文書が類似目的文書格納部61に格納される。類似目的文書格納部61は、一例として、図17に示されるようなテキストを類似目的文書として格納する。図17のテキストは、家庭電化製品とは異なる製品(食品)のメーカーのコールセンターの音声認識に用いられる言語モデルの学習に利用される文書である。
まず、ステップS41において、トピック情報取得部23は、品詞群毎に、トピック情報を生成する。下記の数11は、本実施形態の品詞群の集合の一例を示す式である。
Figure 0006165657
数11の式では、第1の品詞群Aは、名詞であること示し、第2の品詞群Bは、助詞、助動詞、動詞および代名詞であることを示す。なお、トピック情報取得部23は、3以上の品詞群に分割したトピック情報を生成してもよい。
トピック情報取得部23は、一例として、第1の品詞群Aのトピック情報として、図18に示すようなトピック情報を生成する。また、トピック情報取得部23は、一例として、第2の品詞群Bのトピック情報として、図19に示すようなトピック情報を生成する。
このように品詞群毎にトピック情報を生成することにより、例えば、名詞のトピック情報は、「デジタル家庭電化製品」(トピック番号#A_1)または「食品」(トピック番号#A_2)等のトピック毎に、名詞である単語を分類することができる。また、助詞、助動詞、動詞および代名詞のトピック情報は、「書く場合に用いるスタイル」(トピック番号#B_1)または「丁寧な発話のスタイル」(トピック番号#B_2)等の文章または発話のスタイル毎に単語を分類することができる。なお、第1の品詞群のトピック情報と第2の品詞群のトピック情報とは、トピック数が異なっていてよい。
続いて、ステップS42において、第1特徴量算出部24は、品詞群毎のトピック情報に基づき、目的文書に対する品詞群毎のトピック特徴量を算出する。下記の数12は、目的文書に対する第1の品詞群Aに関するトピック特徴量、および、目的文書に対する第2の品詞群Bに関するトピック特徴量を示す。
Figure 0006165657
数12に示されるように、目的文書は、トピック番号#A_1およびトピック番号#B_1の値が大きいので、「デジタル家庭電化製品」および「書く場合に用いるスタイル」との関連性が高いことがわかる。
続いて、ステップS43において、第3特徴量算出部62は、品詞群毎のトピック情報に基づき、類似目的文書に対する品詞群毎のトピック特徴量を算出する。下記の数13は、類似目的文書に対する第1の品詞群Aに関するトピック特徴量、および、類似目的文書に対する第2の品詞群Bに関するトピック特徴量を示す。
Figure 0006165657
数13に示されるように、類似目的文書は、トピック番号#A_2およびトピック番号#B_2の値が大きいので、「食品」および「丁寧な発話スタイル」との関連性が高いことがわかる。
続いて、情報処理装置10は、候補コーパス格納部22に格納されている候補文書毎に、ステップS45からステップS49の処理を繰り返して実行する(ステップS44とステップS50との間のループ処理)。
候補文書毎のループ処理では、まず、ステップS45において、第2特徴量算出部25は、候補文書に対する品詞群毎のトピック特徴量を算出する。下記の数14は、候補文書C_{n1}、候補文書C_{n2}および候補文書C_{n3}に対する、第1の品詞群Aおよび第2の品詞群Bに関するトピック特徴量を示す。
Figure 0006165657
数14に示すように、候補文書C_{n1}は、トピック番号#A_1およびトピック番号#B_2の値が大きいので、「デジタル家庭電化製品」および「丁寧な発話スタイル」との関連性が高いことがわかる。また、候補文書C_{n2}は、トピック番号#A_1およびトピック番号#B_1の値が大きいので、「デジタル家庭電化製品」および「書く場合に用いるスタイル」との関連性が高いことがわかる。また、候補文書C_{n3}は、トピック番号#A_2およびトピック番号#B_2の値が大きいので、「食品」および「丁寧な発話スタイル」との関連性が高いことがわかる。
続いて、ステップS46において、類似度算出部26の第1算出部71は、品詞群毎に、目的文書のトピック特徴量と候補文書のトピック特徴量との類似度(第1の類似度)を算出する。本実施形態においては、第1算出部71は、下記の数15に示されるように、第1の品詞群Aおよび第2の品詞群Bのそれぞれについて、目的文書のトピック特徴量と、候補文書のトピック特徴量との内積を演算する。
Figure 0006165657
続いて、ステップS47において、類似度算出部26の第2算出部72は、品詞群毎に、類似目的文書のトピック特徴量と候補文書のトピック特徴量との類似度(第2の類似度)を算出する。本実施形態においては、第1算出部71は、下記の数16に示されるように、第1の品詞群Aおよび第2の品詞群Bのそれぞれについて、類似目的文書のトピック特徴量と、候補文書のトピック特徴量との内積を演算する。
Figure 0006165657
続いて、ステップS48において、選択部27は、第1の類似度が第1の基準値(th)より大きく、且つ、第2の類似度が第2の基準値(th)より大きいか否かを判断する。下記の数17は、選択部27による判断条件を示す式である。
Figure 0006165657
条件を満たさない場合には(ステップS48のNo)、選択部27は、処理をステップS50に進める。条件を満たす場合には(ステップS48のYes)、選択部27は、処理をステップS49に進める。
ステップS49において、選択部27は、対象の候補文書を、言語モデルの学習に用いる文書として選択する。本例においては、選択部27は、第1の基準値および第2の基準値が0.50に設定されており、第1の類似度および第2の類似度が共に0.50より大きい候補文書C_{n1}を選択する。そして、選択部27は、処理をステップS50に進める。
ステップS50において、全ての候補文書について、まだステップS45からステップS49の処理を終了していない場合には、選択部27は、処理をステップS44に戻して、次の候補文書について処理を繰り返す。終了した場合には、選択部27は、処理をステップS51に進める。
ステップS51において、学習部28は、選択された候補文書を用いて、言語モデルを学習する。そして、ステップS51の処理を終えると、情報処理装置10は、本フローを終了する。
ここで、第2実施形態においては、候補文書C_{n1}についての数17の条件式は、下記の通りとなる。
sim_A(t,C_{n1})=0.74*0.79+0.11*0.03=0.59、かつ、sim_B(t´,C_{n1})=0.10*0.10+0.8*0.8=0.65
従って、候補文書C_{n1}は、第1の品詞群Aおよび第2の品詞群Bの両方で条件を満たすので、学習用の文書として抽出される。候補文書C_{n1}は、デジタル家庭電化製品についての丁寧な発話スタイルの文書であり、コールセンターで発話される内容と一致する。従って、情報処理装置10は、このような文書を用いて学習を行うことで、性能の高い言語モデルを生成することができる。
もし、第1の品詞群および第2の品詞群の両方に対して、目的文書との類似度を用いた場合、候補文書C_{n1}についての、第2の品詞群Bに関する数17の条件式は、sim_B(t,C_{n1})=0.15となる。従って、この場合、候補文書C_{n1}は、条件を満たさず、学習用の文書として選択されない。一方で、候補文書C_{n2}についての数17の条件式は、sim_A(t,C_{n2})=0.56、sim_B(t,C_{n2})=0.65となる。従って、この場合、候補文書C_{n2}が学習用の文書として選択され、コールセンターで実際には発話されないような、書く場合に用いるスタイルの単語を含んだ文書が、学習用の文書として選択されてしまう。
また、もし、第1の品詞群および第2の品詞群の両方に対して、類似目的文書との類似度を用いた場合には、候補文書C_{n1}についての、第1の品詞群Aに関する数17の条件式は、sim_A(t´,C_{n1})=0.11となる。従って、この場合、候補文書C_{n1}は、条件を満たさず、学習用の文書として選択されない。
一方で、候補文書C_{n3}についての数17の条件式は、sim_A(t´,C_{n3})=0.71、sim_B(t,C_{n3})=0.64となる。従って、この場合、候補文書C_{n3}が学習用の文書として選択され、異なる話題のコールセンターの発話と類似した文書が、学習用の文書として選択されてしまう。
このように第2実施形態に係る情報処理装置10によれば、目的文書の主要なテーマと、類似目的文書の発話スタイルが予め分かっている場合に、両文書の特徴を組み合わせて、目的に合った学習用の文書を選択することができる。
(ハードウェア構成)
図20は、実施形態に係る情報処理装置10のハードウェア構成の一例を示す図である。実施形態に係る情報処理装置10は、CPU101(Central Processing Unit)等の制御装置と、ROM102(Read Only Memory)およびRAM103(Random Access Memory)等の記憶装置と、ネットワークに接続して通信を行う通信I/F104と、各部を接続するバスとを備えている。
実施形態に係る情報処理装置10で実行されるプログラムは、ROM102等に予め組み込まれて提供される。また、実施形態に係る情報処理装置10で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されてもよい。
さらに、実施形態に係る情報処理装置10で実行されるプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納され、情報処理装置10がネットワーク経由でダウンロードすることにより提供されてもよい。また、実施形態に係る情報処理装置10で実行されるプログラムは、インターネット等のネットワーク経由で提供または配布されてもよい。
実施形態に係る情報処理装置10で実行されるプログラムは、トピック情報取得モジュール、第1特徴量算出モジュール、第2特徴量算出モジュール、第3特徴量算出モジュール、類似度算出モジュール、選択モジュールおよび学習モジュールを含む構成となっており、コンピュータを上述した情報処理装置10の各部(トピック情報取得部23、第1特徴量算出部24、第2特徴量算出部25、類似度算出部26、第3特徴量算出部62、選択部27および学習部28)として機能させうる。このコンピュータは、CPU101がコンピュータ読取可能な記憶媒体からこのプログラムを主記憶装置上に読み出して実行することができる。なお、トピック情報取得部23、第1特徴量算出部24、第2特徴量算出部25、類似度算出部26、第3特徴量算出部62、選択部27および学習部28は、一部または全部がハードウェアにより構成されていてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
10 情報処理装置
21 目的文書格納部
22 候補コーパス格納部
23 トピック情報取得部
24 第1特徴量算出部
25 第2特徴量算出部
26 類似度算出部
27 選択部
28 学習部
61 類似目的文書格納部
62 第3特徴量算出部
71 第1算出部
72 第2算出部
101 CPU
102 ROM
103 RAM
104 通信I/F

Claims (10)

  1. 複数の候補文書から言語モデルの学習に用いる文書を選択する情報処理装置であって、
    前記言語モデルが利用される目的に合致した目的文書について、それぞれのトピックに対する文書の関連の強さを表すトピック特徴量を算出する第1特徴量算出部と、
    前記複数の候補文書のそれぞれについて、前記トピック特徴量を算出する第2特徴量算出部と、
    前記複数の候補文書のそれぞれの前記トピック特徴量について、前記目的文書の前記トピック特徴量との類似度を算出する類似度算出部と、
    前記類似度が基準値より大きい候補文書を、前記言語モデルの学習に用いる文書として選択する選択部と、
    を備える情報処理装置。
  2. トピック毎に、単語と、前記単語のトピックとの関連の強さを表すスコアとのペアの集合を含むトピック情報を取得するトピック情報取得部をさらに備え、
    前記第1特徴量算出部および前記第2特徴量算出部は、前記トピック情報に基づき、前記トピック特徴量を算出する
    請求項1に記載の情報処理装置。
  3. 前記第1特徴量算出部および前記第2特徴量算出部は、トピック毎に、対象の文書に含まれる単語のスコアを累積して、前記トピック特徴量を算出する
    請求項2に記載の情報処理装置。
  4. 選択された前記候補文書に基づき、前記言語モデルを学習する学習部
    をさらに備える請求項1に記載の情報処理装置。
  5. 前記トピック情報取得部は、前記複数の候補文書を用いて前記トピック情報を生成する
    請求項2に記載の情報処理装置。
  6. 前記トピック情報取得部は、異なるトピック数の複数の前記トピック情報を生成し、生成した複数の前記トピック情報に基づき、前記目的文書の複数の前記トピック特徴量を算出し、算出した複数の前記トピック特徴量に基づき、生成した複数の前記トピック情報のうちの1つの前記トピック情報を選択する
    請求項5に記載の情報処理装置。
  7. 前記トピック情報取得部は、品詞群毎に前記トピック情報を生成し、
    前記第1特徴量算出部および前記第2特徴量算出部は、前記品詞群毎の前記トピック情報に基づき、前記品詞群毎の前記トピック特徴量を算出する
    請求項5に記載の情報処理装置。
  8. 前記目的文書と内容が異なり前記言語モデルの学習の基準となる
    学習対象の言語モデルと類似した用途で用いられる言語モデルを学習するための類似目的文書に対する、品詞群毎の前記トピック特徴量を算出する第3特徴量算出部をさらに備え、
    前記類似度算出部は、
    前記複数の候補文書のそれぞれの第1の品詞群に関する前記トピック特徴量に対して、前記目的文書の前記第1の品詞群に関する前記トピック特徴量との第1の類似度を算出し、
    前記複数の候補文書のそれぞれの第2の品詞群に関する前記トピック特徴量に対して、前記類似目的文書の前記第2の品詞群に関する前記トピック特徴量との第2の類似度を算出し、
    前記選択部は、前記第1の類似度が第1の基準値より大きく、且つ、前記第2の類似度が第2の基準値より大きい候補文書を、前記言語モデルの学習に用いる文書として選択する
    請求項7に記載の情報処理装置。
  9. 複数の候補文書から言語モデルの学習に用いる文書を選択する情報処理方法であって、
    前記言語モデルが利用される目的に合致した目的文書について、それぞれのトピックに対する文書の関連の強さを表すトピック特徴量を算出する第1特徴量算出ステップと、
    前記複数の候補文書のそれぞれについて、前記トピック特徴量を算出する第2特徴量算出ステップと、
    前記複数の候補文書のそれぞれの前記トピック特徴量について、前記目的文書の前記トピック特徴量との類似度を算出する類似度算出ステップと、
    前記類似度が基準値より大きい候補文書を、前記言語モデルの学習に用いる文書として選択する選択ステップと、
    を実行する情報処理方法。
  10. コンピュータを、複数の候補文書から言語モデルの学習に用いる文書を選択する情報処理装置として機能させるためのプログラムであって、
    前記情報処理装置は、
    前記言語モデルが利用される目的に合致した目的文書について、それぞれのトピックに対する文書の関連の強さを表すトピック特徴量を算出する第1特徴量算出部と、
    前記複数の候補文書のそれぞれについて、前記トピック特徴量を算出する第2特徴量算出部と、
    前記複数の候補文書のそれぞれの前記トピック特徴量について、前記目的文書の前記トピック特徴量との類似度を算出する類似度算出部と、
    前記類似度が基準値より大きい候補文書を、前記言語モデルの学習に用いる文書として選択する選択部と、
    を備えるプログラム。
JP2014058246A 2014-03-20 2014-03-20 情報処理装置、情報処理方法およびプログラム Active JP6165657B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014058246A JP6165657B2 (ja) 2014-03-20 2014-03-20 情報処理装置、情報処理方法およびプログラム
US14/644,395 US20150269162A1 (en) 2014-03-20 2015-03-11 Information processing device, information processing method, and computer program product
CN201510109856.7A CN104933022B (zh) 2014-03-20 2015-03-13 信息处理装置和信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014058246A JP6165657B2 (ja) 2014-03-20 2014-03-20 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015184749A JP2015184749A (ja) 2015-10-22
JP6165657B2 true JP6165657B2 (ja) 2017-07-19

Family

ID=54120191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014058246A Active JP6165657B2 (ja) 2014-03-20 2014-03-20 情報処理装置、情報処理方法およびプログラム

Country Status (3)

Country Link
US (1) US20150269162A1 (ja)
JP (1) JP6165657B2 (ja)
CN (1) CN104933022B (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302797B (zh) * 2015-11-20 2019-02-01 百度在线网络技术(北京)有限公司 识别文本题材的方法和装置
US11288590B2 (en) * 2016-05-24 2022-03-29 International Business Machines Corporation Automatic generation of training sets using subject matter experts on social media
CN107798113B (zh) * 2017-11-02 2021-11-12 东南大学 一种基于聚类分析的文档数据分类方法
CN109635290B (zh) * 2018-11-30 2022-07-22 北京百度网讯科技有限公司 用于处理信息的方法、装置、设备和介质
JP7456137B2 (ja) * 2019-12-05 2024-03-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7497997B2 (ja) 2020-02-26 2024-06-11 本田技研工業株式会社 文書分析装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04314171A (ja) * 1991-04-12 1992-11-05 Nippon Telegr & Teleph Corp <Ntt> メニュー学習型テキストベース検索装置
WO2001011559A1 (en) * 1999-08-06 2001-02-15 Lexis-Nexis System and method for classifying legal concepts using legal topic scheme
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
CN100543735C (zh) * 2005-10-31 2009-09-23 北大方正集团有限公司 基于文档结构的文档相似性度量方法
JP4853915B2 (ja) * 2006-10-19 2012-01-11 Kddi株式会社 検索システム
CN100570611C (zh) * 2008-08-22 2009-12-16 清华大学 一种基于观点检索的信息检索文档的评分方法
JP2010097318A (ja) * 2008-10-15 2010-04-30 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
JP5475795B2 (ja) * 2008-11-05 2014-04-16 グーグル・インコーポレーテッド カスタム言語モデル
US8352386B2 (en) * 2009-07-02 2013-01-08 International Business Machines Corporation Identifying training documents for a content classifier
US8315849B1 (en) * 2010-04-09 2012-11-20 Wal-Mart Stores, Inc. Selecting terms in a document
JP5403696B2 (ja) * 2010-10-12 2014-01-29 株式会社Nec情報システムズ 言語モデル生成装置、その方法及びそのプログラム
EP2546760A1 (en) * 2011-07-11 2013-01-16 Accenture Global Services Limited Provision of user input in systems for jointly discovering topics and sentiment
JP5723711B2 (ja) * 2011-07-28 2015-05-27 日本放送協会 音声認識装置および音声認識プログラム
CN103425710A (zh) * 2012-05-25 2013-12-04 北京百度网讯科技有限公司 一种基于主题的搜索方法和装置
US9275135B2 (en) * 2012-05-29 2016-03-01 International Business Machines Corporation Annotating entities using cross-document signals
CN103473280B (zh) * 2013-08-28 2017-02-08 中国科学院合肥物质科学研究院 一种网络可比语料的挖掘方法
US20150120379A1 (en) * 2013-10-30 2015-04-30 Educational Testing Service Systems and Methods for Passage Selection for Language Proficiency Testing Using Automated Authentic Listening

Also Published As

Publication number Publication date
US20150269162A1 (en) 2015-09-24
JP2015184749A (ja) 2015-10-22
CN104933022A (zh) 2015-09-23
CN104933022B (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
JP6165657B2 (ja) 情報処理装置、情報処理方法およびプログラム
Huang et al. Multi-accent deep neural network acoustic model with accent-specific top layer using the KLD-regularized model adaptation.
CN110990685B (zh) 基于声纹的语音搜索方法、设备、存储介质及装置
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US12001465B2 (en) Response selecting apparatus, response selecting method, and response selecting program
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
US9142211B2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium
JP2015219583A (ja) 話題決定装置、発話装置、方法、及びプログラム
CN110738061B (zh) 古诗词生成方法、装置、设备及存储介质
JP2020077159A (ja) 対話システム、対話装置、対話方法、及びプログラム
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
JP2016001242A (ja) 質問文生成方法、装置、及びプログラム
KR20190024148A (ko) 음성 인식 장치 및 음성 인식 방법
US20150371627A1 (en) Voice dialog system using humorous speech and method thereof
JP2017045054A (ja) 言語モデル改良装置及び方法、音声認識装置及び方法
JP6556381B2 (ja) モデル学習装置及びモデル学習方法
JPWO2011071174A1 (ja) テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
US20210312333A1 (en) Semantic relationship learning device, semantic relationship learning method, and storage medium storing semantic relationship learning program
JP6775465B2 (ja) 対話ルール照合装置、対話装置、対話ルール照合方法、対話方法、対話ルール照合プログラム、及び対話プログラム
US20180082681A1 (en) Bilingual corpus update method, bilingual corpus update apparatus, and recording medium storing bilingual corpus update program
JP2018180459A (ja) 音声合成システム、音声合成方法、及び音声合成プログラム
JP6821542B2 (ja) 複数種の対話を続けて実施可能な対話制御装置、プログラム及び方法
JP6723188B2 (ja) 対話ルール選択装置、対話装置、対話ルール選択方法、対話方法、及び対話ルール選択プログラム
JP4735958B2 (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170523

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170621

R151 Written notification of patent or utility model registration

Ref document number: 6165657

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350