JP5921716B2 - 意図推定装置および意図推定方法 - Google Patents
意図推定装置および意図推定方法 Download PDFInfo
- Publication number
- JP5921716B2 JP5921716B2 JP2014550077A JP2014550077A JP5921716B2 JP 5921716 B2 JP5921716 B2 JP 5921716B2 JP 2014550077 A JP2014550077 A JP 2014550077A JP 2014550077 A JP2014550077 A JP 2014550077A JP 5921716 B2 JP5921716 B2 JP 5921716B2
- Authority
- JP
- Japan
- Prior art keywords
- intention
- partial
- estimation
- estimation unit
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000000605 extraction Methods 0.000 claims description 146
- 238000006243 chemical reaction Methods 0.000 claims description 60
- 238000004364 calculation method Methods 0.000 claims description 28
- 239000000284 extract Substances 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 description 52
- 238000012545 processing Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 31
- 230000000877 morphologic effect Effects 0.000 description 21
- 238000013500 data storage Methods 0.000 description 7
- AYCPARAPKDAOEN-LJQANCHMSA-N N-[(1S)-2-(dimethylamino)-1-phenylethyl]-6,6-dimethyl-3-[(2-methyl-4-thieno[3,2-d]pyrimidinyl)amino]-1,4-dihydropyrrolo[3,4-c]pyrazole-5-carboxamide Chemical compound C1([C@H](NC(=O)N2C(C=3NN=C(NC=4C=5SC=CC=5N=C(C)N=4)C=3C2)(C)C)CN(C)C)=CC=CC=C1 AYCPARAPKDAOEN-LJQANCHMSA-N 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008094 contradictory effect Effects 0.000 description 2
- 239000002344 surface layer Substances 0.000 description 2
- KVCQTKNUUQOELD-UHFFFAOYSA-N 4-amino-n-[1-(3-chloro-2-fluoroanilino)-6-methylisoquinolin-5-yl]thieno[3,2-d]pyrimidine-7-carboxamide Chemical compound N=1C=CC2=C(NC(=O)C=3C4=NC=NC(N)=C4SC=3)C(C)=CC=C2C=1NC1=CC=CC(Cl)=C1F KVCQTKNUUQOELD-UHFFFAOYSA-N 0.000 description 1
- 241000102542 Kara Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
(a)1つの操作に対して、さらに多様な単語を使った入力
(b)複数の操作からなる要求を1つの塊として入力
上述した(a)の場合、学習データをさらに増加することにより多様な発話を処理することができる。一方、(b)の場合、元々学習データが1つの意図と対応付けられているため、複数の意図を含む場合には適切な意図を組み合わせた処理を行うことができない。
従って、分割点を基に複数の意図を推定することは、分割点の正しさに加えて、分割後の各部分入力に対する正解意図を個別に推定した結果最も尤もらしい意図を選択し、それを接続した意図列を返すことに他ならず、その発話全体における複数の意図の妥当性が検証されないという課題があった。
(c)学習データが大量に用意できない場合は、意図推定精度が低くなるため、全体の意図列も精度が低くなる可能性がある。
(d)入力には前方の部分を受けて後方の発話が省略される場合があるため、その場合に後方の発話の意図がユーザの意図列に一致しない場合がある。
(e)入力が音声の場合には、音声認識の結果を入力とするため、誤認識を含む場合の推定間違いを意図間の整合性から排除することができない。
以下ではナビゲーションシステムに適用される意図推定装置を例に説明を行う。さらに以下では、ユーザが発するあるいは入力する言語に対応した、ユーザの希望する操作を「意図」と記す。
図1は、実施の形態1に係る意図推定装置の構成を示すブロック図である。
意図推定装置10は、音声認識部1、形態素解析部2および意図列推定部3で構成されている。また意図列推定部3は、意図推定単位抽出部4、意図推定モデル蓄積部5、意図推定部6、意図階層グラフデータ蓄積部7および意図共起重み計算部8を備えている。
意図階層グラフデータは、意図ノード21〜27、各意図ノード21〜27の階層関係、および子ノードの意図共起重みを数値化して示した意図共起重み28、29が示されている。ここで、子ノードとは、例えば意図ノード21の場合、当該意図ノード21の一層下位に位置する意図ノード22を示す。
入力音声31は、入力例としてユーザが「○○ドームに立ち寄ってから、××ランドに行きたい」と発話したことを示している。音声認識結果32は、音声認識部1が入力音声31を音声認識した結果である。具体的には、「○○ドームに立ち寄ってから△△ラジオを聞きたい」が音声認識スコア「0.6」で求められた音声認識結果例33、および「○○ドームに立ち寄ってから、××ランドに行きたい」が音声認識スコア「0.4」で求められた音声認識結果例34で構成されている。
図4および図5は、実施の形態1に係る意図推定装置の意図推定部6の処理を示す図である。より詳細には、図4は図3で示した意図推定単位抽出結果36に基づく部分意図の推定を示し、図5は図3で示した意図推定単位抽出結果40に基づく部分意図の推定を示している。
ターム列41は、意図推定単位抽出結果36から生成される部分意図推定に用いるターム列を示しており、「○○ドーム/に」に対しては「$施設$_1」、「立ち寄っ/て/から」に対しては「立ち寄る」、「××ラジオ/を」に対しては「$ラジオ局$_1」、「聞き/たい」に対しては「聞く」が生成されることを示している。
ターム列51は、意図推定単位抽出結果40から生成される部分意図推定に用いるターム列を示しており、「○○ドーム/に」に対しては「$施設$_1」、「立ち寄っ/て/から」に対しては「立ち寄る」、「××ランド/へ」に対しては「$施設$_2」、「行き/たい」に対しては「行く」が生成されることを示している。
図6および図7は、実施の形態1に係る意図推定装置の意図列推定部3の処理を示す図である。より詳細には、図6は図4で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示し、図7は図5で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示している。
最終スコアは、各意図推定単位の全ての連続する部分意図列に対する部分スコアを掛け合わせ、さらに意図推定単位の妥当性、および意図共起重み計算部8が算出した意図共起重みを掛け合わせて算出される。
音声認識部1は、入力音声の音声認識を行う(ステップST1)。形態素解析部2は、ステップST1で得られた音声認識結果に対して形態素解析を行う(ステップST2)。意図推定単位抽出部4は、ステップST2で得られた形態素解析結果である形態素列を部分形態素に分割し、意図を推定する単位である意図推定単位を全て抽出する(ステップST3)。意図推定部6は、ステップST3で抽出された全ての意図推定単位に対して部分意図推定を行い、部分意図推定結果および部分スコアを得る(ステップST4)。
まず、音声による入力として図3で示した入力音声31「○○ドームに立ち寄ってから××ランドに行きたい」が入力され、当該入力音声31に対してステップST1として音声認識部1が音声認識を行い、音声認識結果32が得られたものとする。音声認識結果32は、音声認識結果例33の「○○ドームに立ち寄ってから△△ラジオを聞きたい」がスコア0.6、音声認識結果例34の「○○ドームに立ち寄ってから××ランドへ行きたい」がスコア0.4で得られたとする。当該音声認識結果例33、34は形態素解析部2に出力される。
形態素解析結果35は、2つの形態素解析結果例36、40で構成され、それぞれ意図推定単位抽出部4に出力される。
図3の意図推定単位抽出結果例36で示した、抽出パターン37は文節を単位とする形態素列の意図推定単位であり、抽出パターン38は直後の用言に体言を接続させた2つの文節からなる意図推定単位であり、抽出パターン39は抽出パターン38の2つの文節をさらにまとめた意図推定単位である。
タームは、(1)形態素を単独のタームとして使う方法、(2)自立語形態素を単独のタームとして使う方法、(3)形態素を単独およびn個の連鎖をタームとして使う方法、(4)形態素を単独およびそれに付随する付属の意味シンボル連鎖をタームとして使う方法などが考えられるが、本実施の形態1では、簡単のため自立語形態素の原形を抽出するものとして説明を進める。また、「○○ドーム」、「××ランド」、「△△ラジオ」や住所、施設ジャンル名、ブランド名などのタームは多様なタームが現れるため、そのままでは意図推定モデルの構築が困難なため、上位概念によるシンボルの共通化をして、「$施設$」、「$住所$」、「$ラジオ局$」、「$ジャンル名$」、「$ブランド名$」などのタームを用いる。
図4の実線矢印42、43、44はステップST3で抽出した意図推定単位に対する部分意図推定結果を示し、点線矢印45、46はステップST3で抽出されなかった意図推定単位に対する部分意図推定結果を示し、音声認識結果例33全体をカバーする意図推定単位に関する部分意図推定結果である。点線矢印45、46で示した意図推定単位の部分意図推定結果を算出した理由は、入力音声が必ずしも文法的に正しい構文を構成するものだけではない可能性が存在するためである。特に、入力音声が音声認識される場合には、ユーザの発話が助詞や助動詞を十分に用いない形で行われることも多く、構文的に厳密な入力を想定すると、意図推定単位に漏れが生じる可能性がある。さらに、音声認識結果に認識誤りが含まれる可能性もあり、全ての可能性を評価した上で最適と考えられる意図列を選択する方が好ましい。
意図列68の場合:
0.4×0.6×0.4=0.096
抽出パターンAの場合、全ての分割点が使われているため、各点の分割採用重み47を掛け合わせる。
意図列69の場合:
(1.0−0.4)×0.6×(1.0−0.4)=0.216
抽出パターンB+Cの場合、2番目の分割点のみ使われているため、2番目の点以外は1.0からの分割採用重み47を引いたものを掛け合わせる。
さらに、評価の方法として、音声認識スコア61、71に対して分割重みスコア65、74を積算したものを最終スコアとする方法も考えられるが、音声認識スコア61と音声認識スコア71とを比較すると音声認識結果例33の音声認識スコア61の方が高い値であるため、いずれの場合も抽出パターンB+Cで示した「経由地設定[施設=$施設$_1]、ラジオ再生[対象=$ラジオ局$_1]」が最終的な意図推定結果となる。これは、意図間の関係を考慮した条件が存在しないために、音声認識結果が最優先で評価されて起こる。
(1)連続する2つの意図を順番に抽出し、2つの意図の関係を計算する。
(a)2つの意図の上位・下位の関係がある場合は一定の重み(たとえば、0.7)
(b)2つの意図が共通の上位意図を持つ場合、そのノードに付与された重み
(2)(1)で求めた重みの積を最終的な重み、すなわち最終スコア67、76とする。
上述した(1)による計算では、標準的な意図連鎖関係には1.0を与え、より密接な意図連鎖関係には1.0より大きい値を与え、矛盾するような意図連鎖関係には1.0より小さい値を与えることで、加点、減点を行うことになる。
(最終スコア)=(分割重みスコア)×(意図共起重み)×(音声認識スコア)
最終スコア67、76の算出結果を参照すると、最も高い最終スコアを有するのは抽出パターンB´+C´で示した意図列77となり、ステップST7として当該意図列77がユーザの入力音声31に最も適した意図列推定結果として出力される。
実施の形態2では、ユーザが発話の省略を行った場合にも適切な意図列推定結果を得る構成を示す。
図9は、実施の形態2に係る意図推定装置の構成を示すブロック図である。
図1で示した実施の形態1の意図推定装置10に意図列変換テーブル蓄積部11および意図列変換部12を追加して設けている。なお以下では、実施の形態1による意図推定装置10の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
意図列変換部12は、意図列変換テーブル蓄積部11に蓄積された意図列変換テーブルを参照して、意図推定部6が推定した部分意図推定結果と一致する意図列が存在するか否か順番にチェックを行い、一致する意図列が存在する場合にはルールに従って当該意図列の変換を行う。
意図列変換テーブルは複数の意図列変換ルールで構成され、図10の例では3つの意図列変換ルール81、82、83を示している。意図列変換ルールは、左辺の意図列に一致する部分意図推定結果が出現した場合には、当該部分意図推定結果を右辺の意図列に置き換えることを示している。
位置変換テーブルに記載される意図列変換ルールは基本的には、発話中の省略や意味的な変換が前後の関係から明らかな場合の経験則によるルールである。例えば、意図列変換ルール81の入力文例はその典型的な発話例を表したもので、入力文例の後段の「$施設$_Y」に相当する発話は文脈から目的地を示唆しているため、変換前の「地点検索(施設検索)」の意図を「目的地設定」に置き換えることを示している。
図11では入力音声として「○○ドームに立ち寄ってから××ランド」という発話が入力された場合の音声認識結果から意図推定単位を抽出するまでの例を示す。
音声認識結果91は、音声認識部1が入力音声31を音声認識した結果である。具体的には、「○○ドームに立ち寄ってから××ランド」がスコア「0.7」で求められた音声認識結果例が示されており、発話の通りの認識が行われたことを示している。形態素解析結果92は、形態素解析部2が音声認識結果91を形態素解析した結果である。意図推定単位抽出結果93は、意図推定単位抽出部4が形態素解析結果92に対して意図推定単位を抽出した結果である。意図推定単位抽出結果93では、3つの抽出パターン93a、93b、93cが示されている。
ターム列94は、意図推定単位抽出結果93から生成される部分意図推定に用いるターム列を示している。また、抽出パターン93a、93b、93cに基づいた抽出パターンH、I、Jおよび非抽出パターンKを示している。実線矢印95および部分スコア96は、各意図推定単位に対して意図推定した結果例である。点線矢印および分割点採用重みの構成は実施の形態1と同様である。
音声認識結果91に対して、部分意図推定結果の組み合わせにより最終スコアを計算した例であり、実施の形態1と同様に部分スコア101、音声認識スコア102、全体スコア103、分割重み104、分割重みスコア105、意図共起重み106および最終スコア107が示されている。意図列108は、全ての分割パターンに対して最適な意図推定結果を示す意図列を示している。
ステップST5において、音声認識結果の全体に一致する意図列を生成して全体スコアを算出すると、意図列変換部12は生成された意図列の部分意図列の中から意図列変換テーブル蓄積部11に蓄積された意図列変換ルールに一致する分割パターンを検索し、一致する分割パターンが存在する場合には、当該意図列を意図列変換ルールに基づいて変換する(ステップST11)。
まず、音声による入力として「○○ドームに立ち寄ってから××ランド」が入力され、ステップST1として図11に示す音声認識結果91がスコア0.7で得られたとする。音声認識結果91以外の認識結果が生成されることも予想されるが、実施の形態2の発明のポイントには影響を与えないため説明を省略する。音声認識結果91が生成されると、ステップST2の形態素解析およびステップST3の意図推定単位の抽出が行われ、図11に示す意図推定単位抽出結果93が得られる。
具体的には、図13で示した意図列108の場合、抽出パターンIの部分意図列および抽出パターンHの部分意図列で構成され、当該意図列108は図10で示した意図列変換ルール81に一致するため、以下のように変換される。
変換前:経由地設定[施設=$施設$_1]、施設検索[施設=$施設$_2]
変換後:経由地設定[施設=$施設$_1]、目的地設定[施設=$施設$_2]
上述した実施の形態1では使用言語を日本語として説明を行ったが、この実施の形態3では使用言語を英語として説明する。なお、以下ではナビゲーションシステムに適用される意図推定装置を例に説明を行う。
また、以下の説明では、実施の形態1で示した意図推定装置(図1参照)を用いて説明を行う。また、意図推定装置10の意図階層グラフデータ蓄積部7は図2で示した意図階層グラフデータを蓄積するものとする。さらに、図8で示したフローチャートに基づいて意図推定処理を行うものとして説明を行う。
入力音声111は、入力例としてユーザが「Stop at ○○ Dome, then drive to ×× Land」と発話したことを示している。音声認識結果112は、音声認識部1が入力音声111を音声認識した結果である。具体的には、「Stop at ○○ Dome, then listen to the △△ Radio」が音声認識スコア「0.6」で求められた音声認識結果例113、および「Stop at ○○ Dome, then drive to ×× Land」が音声認識スコア「0.4」で求められた音声認識結果例114で構成されている。
図16および図17は、実施の形態3に係る意図推定装置の意図推定部6の処理を示す図である。より詳細には、図16は図15で示した意図推定単位抽出結果116に基づく部分意図の推定を示し、図17は図15で示した意図推定単位抽出結果120に基づく部分意図の推定を示している。
ターム列121は、意図推定単位抽出結果116から生成される部分意図推定に用いるターム列を示しており、「○○ Dome」に対しては「$施設$_1」、「Stop at」に対しては「stop」、「the △△ Radio」に対しては「$ラジオ局$_1」、「listen to」に対しては「listen」が生成されることを示している。
ターム列131は、意図推定単位抽出結果120から生成される部分意図推定に用いるターム列を示しており、「○○ Dome」に対しては「$施設$_1」、「Stop at」に対しては「Stop」、「×× Land」に対しては「$施設$_2」、「drive to」に対しては「drive」が生成されることを示している。
図18および図19は、実施の形態3に係る意図推定装置の意図列推定部3の処理を示す図である。より詳細には、図18は図16で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示し、図19は図17で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示している。
最終スコアは、各意図推定単位の全ての連続する部分意図列に対する部分スコアを掛け合わせ、さらに意図推定単位の妥当性、および意図共起重み計算部8が算出した意図共起重みを掛け合わせて算出される。
まず、音声による入力として図15で示した入力音声111「Stop at ○○ Dome, then drive to ×× Land」が入力され、当該入力音声111に対してステップST1として音声認識部1が音声認識を行い、音声認識結果112が得られたものとする。音声認識結果112は、音声認識結果例113の「Stop at ○○ Dome, then listen to the △△ Radio」がスコア0.6、音声認識結果例114の「Stop at ○○ Dome, then drive to ×× Land」がスコア0.4で得られたとする。当該音声認識結果例113、114は形態素解析部2に出力される。
形態素解析結果115は、2つの形態素解析結果例116、120で構成され、それぞれ意図推定単位抽出部4に出力される。
図15の意図推定単位抽出結果例116で示した、抽出パターン117は文節を単位とする形態素列の意図推定単位であり、抽出パターン118は直前の動詞に名詞を接続させた2つの文節からなる意図推定単位であり、抽出パターン119は抽出パターン118の2つの文節をさらにまとめた意図推定単位である。
タームは、(1)形態素を単独のタームとして使う方法、(2)名詞、動詞、形容詞などの限定された単語を単独のタームとして使う方法、(3)形態素を単独およびn個の連鎖をタームとして使う方法、(4)形態素を単独およびそれに付随する付属の意味シンボル連鎖をタームとして使う方法などが考えられるが、本実施の形態3では、簡単のため名詞、動詞、形容詞などの限定された単語の原形を抽出するものとして説明を進める。ただし、施設や住所などの名詞は、複数の単語列で1つの塊とみなす。また、「○○ Dome」、「×× Land」、「△△ Radio」や住所、施設ジャンル名、ブランド名などのタームは多様なタームが現れるため、そのままでは意図推定モデルの構築が困難なため、上位概念によるシンボルの共通化をとして、「$施設$」、「$住所$」、「$ラジオ局$」、「$ジャンル名$」、「$ブランド名$」などのタームを用いる。
図16の実線矢印122、123、124はステップST3で抽出した意図推定単位に対する部分意図推定結果を示し、点線矢印125、126はステップST3で抽出されなかった意図推定単位に対する部分意図推定結果を示し、音声認識結果例113全体をカバーする意図推定単位に関する部分意図推定結果である。ここで、点線矢印125、126で示した意図推定単位の部分意図推定結果を算出した理由は、入力音声が必ずしも文法的に正しい構文を構成するものだけではない可能性が存在するためである。特に、入力音声が音声認識される場合には、ユーザの発話が冠詞や前置詞を十分に用いない形で行われることも多く、構文的に厳密な入力を想定すると、意図推定単位に漏れが生じる可能性がある。さらに、音声認識結果に認識誤りが含まれる可能性もあり、全ての可能性を評価した上で最適と考えられる意図列を選択する方が好ましい。
意図列148の場合:
0.4×0.6×0.4=0.096
抽出パターンaの場合、全ての分割点が使われているため、各点の分割採用重み127を掛け合わせる。
意図列149の場合:
(1.0−0.4)×0.6×(1.0−0.4)=0.216
抽出パターンb+cの場合、2番目の分割点のみ使われているため、2番目の点以外は1.0からの分割採用重み127を引いたものを掛け合わせる。
さらに、評価の方法として、音声認識スコア141、151に対して分割重みスコア145、154を積算したものを最終スコアとする方法も考えられるが、音声認識スコア141と音声認識スコア151とを比較すると音声認識結果例113の音声認識スコア141の方が高い値であるため、いずれの場合も抽出パターンb+cで示した「経由地設定[施設=$施設$_1]、ラジオ再生[対象=$ラジオ局$_1]」が最終的な意図推定結果となる。これは、意図間の関係を考慮した条件が存在しないために、音声認識結果が最優先で評価されて起こる。
(1)連続する2つの意図を順番に抽出し、2つの意図の関係を計算する。
(a)2つの意図の上位・下位の関係がある場合は一定の重み(たとえば、0.7)
(b)2つの意図が共通の上位意図を持つ場合、そのノードに付与された重み
(2)(1)で求めた重みの積を最終的な重み、すなわち最終スコア147、156とする。
上述した(1)による計算では、標準的な意図連鎖関係には1.0を与え、より密接な意図連鎖関係には1.0より大きい値を与え、矛盾するような意図連鎖関係には1.0より小さい値を与えることで、加点、減点を行うことになる。
(最終スコア)=(分割重みスコア)×(意図共起重み)×(音声認識スコア)
最終スコア147、156の算出結果を参照すると、最も高い最終スコアを有するのは抽出パターンb´+c´で示した意図列157となり、ステップST7として当該意図列157がユーザの入力音声111に最も適した意図列推定結果として出力される。
上述した実施の形態2では使用言語を日本語として説明を行ったが、この実施の形態4では使用言語を英語として説明する。なお、以下ではナビゲーションシステムに適用される意図推定装置を例に説明を行う。
また、以下の説明では、実施の形態2で示した意図推定装置(図9参照)を用いて説明を行う。また、意図推定装置10の意図列変換テーブル蓄積部11は図10で示した意図列変換テーブルを蓄積するものとする。さらに、図14で示したフローチャートに基づいて意図推定処理を行うものとして説明を行う。
図20では入力音声として「Stop at ○○ Dome then ×× Land」という発話が入力された場合の音声認識結果から意図推定単位を抽出するまでの例を示す。
音声認識結果161は、音声認識部1が入力音声31を音声認識した結果である。具体的には、「Stop at ○○ Dome then ×× Land」がスコア「0.7」で求められた音声認識結果例が示されており、発話の通りの認識が行われたことを示している。形態素解析結果162は、形態素解析部2が音声認識結果161を形態素解析した結果である。意図推定単位抽出結果163は、意図推定単位抽出部4が形態素解析結果162に対して意図推定単位を抽出した結果である。意図推定単位抽出結果163では、3つの抽出パターン163a、163b、163cが示されている。
ターム列164は、意図推定単位抽出結果163から生成される部分意図推定に用いるターム列を示している。また、抽出パターン163a、163b、163cに基づいた抽出パターンh、i、jおよび非抽出パターンkを示している。実線矢印165および部分スコア166は、各意図推定単位に対して意図推定した結果例である。点線矢印および分割点採用重みの構成は実施の形態3と同様である。
音声認識結果161に対して、部分意図推定結果の組み合わせにより最終スコアを計算した例であり、実施の形態3と同様に音声認識スコア171、部分スコア172、全体スコア173、分割重み174、分割重みスコア175、意図共起重み176および最終スコア177が示されている。意図列178は、全ての分割パターンに対して最適な意図推定結果を示す意図列を示している。
まず、音声による入力として「Stop at ○○ Dome then ×× Land」が入力され、ステップST1として音声認識部1が音声認識を行い、図20に示す音声認識結果161がスコア0.7で得られたものとする。音声認識結果161以外の認識結果が生成されることも予想されるが、実施の形態4の発明のポイントには影響を与えないため説明を省略する。音声認識結果161が生成されると、ステップST2の形態素解析およびステップST3の意図推定単位の抽出が行われ、図20に示す意図推定単位抽出結果163が得られる。
具体的には、図22で示した意図列178の場合、抽出パターンiの部分意図列および抽出パターンhの部分意図列で構成され、当該意図列178は図10で示した意図列変換ルール81に一致するため、以下のように変換される。
変換前:経由地設定[施設=$施設$_1]、施設検索[施設=$施設$_2]
変換後:経由地設定[施設=$施設$_1]、目的地設定[施設=$施設$_2]
Claims (5)
- ユーザの言語入力から前記ユーザの意図を推定する意図推定装置であって、
前記入力された言語から前記意図を推定する単位である1個以上の意図推定単位を抽出する意図推定単位抽出部と、前記意図推定単位抽出部が抽出したそれぞれの意図推定単位から当該意図推定単位を構成する部分の意図である部分意図を推定する意図推定部と、前記意図間の関係性に従って当該意図を階層化して定義した意図階層グラフデータを参照し、各階層を構成する前記各意図に定義された重みを用いて前記意図推定部が推定した前記部分意図間の関係に基づいた意図共起重みを計算する意図共起重み計算部とを有し、前記意図推定部が推定した1個以上の前記部分意図を用いて前記入力された言語に相当する意図列を生成し、生成した前記意図列の尤もらしさを示すスコアと、生成した前記意図列を構成する前記部分意図について前記意図共起重み計算部が計算した意図共起重みとを用いて、前記入力された言語に対応した意図推定結果を生成する意図列推定部
を備えたことを特徴とする意図推定装置。 - 前記意図階層グラフデータは、下位の意図がより上位の意図を具体化した関係性を有し、
前記意図共起重み計算部は、前記意図階層グラフデータを参照し、前記意図列推定部が生成した前記意図列を構成する連続する2つの部分意図に共通する上位の意図が存在する場合に、当該上位の意図に定義された重みを用いて前記意図共起重みを計算することを特徴とする請求項1記載の意図推定装置。 - 前記意図階層グラフデータは、下位の意図がより上位の意図を具体化した関係性を有し、
前記意図共起重み計算部は、前記意図階層グラフデータを参照し、前記意図列推定部が生成した前記意図列を構成する連続する2つの部分意図に上位と下位の関係が存在する場合に、あらかじめ設定された値を前記意図共起重みとすることを特徴とする請求項1記載の意図推定装置。 - 前記意図列を構成する連続する前記部分意図間の関係性に従って前記部分意図を変換する意図列変換ルールを保持した意図列変換テーブルと、
前記意図列推定部が生成した前記意図列を構成する連続する前記部分意図のうち、前記意図列変換テーブルに記載された意図列変換ルールに合致する関係性を有する前記部分意図を、前記意図列変換ルールに従って変換する意図列変換部とを備えたことを特徴とする請求項1記載の意図推定装置。 - ユーザの言語入力から前記ユーザの意図を推定する意図推定方法であって、
意図推定単位抽出部が、前記入力された言語から前記意図を推定する単位である1個以上の意図推定単位を抽出するステップと、
意図推定部が、前記抽出されたそれぞれの意図推定単位から当該意図推定単位を構成する部分の意図である部分意図を推定するステップと、
意図共起重み計算部が、前記意図間の関係性に従って当該意図を階層化して定義した意図階層グラフデータを参照し、各階層を構成する前記各意図に定義された重みを用いて前記推定された前記部分意図間の関係に基づいた意図共起重みを計算するステップと、
意図列推定部が、前記推定された1個以上の前記部分意図を用いて前記入力された言語に相当する意図列を生成し、生成した前記意図列の尤もらしさを示すスコアと、生成した前記意図列を構成する前記部分意図について前記意図共起重み計算部が計算した意図共起重みとを用いて、前記入力された言語に対応した意図推定結果を生成するステップと
を備えたことを特徴とする意図推定方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012262593 | 2012-11-30 | ||
JP2012262593 | 2012-11-30 | ||
PCT/JP2013/077504 WO2014083945A1 (ja) | 2012-11-30 | 2013-10-09 | 意図推定装置および意図推定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5921716B2 true JP5921716B2 (ja) | 2016-05-24 |
JPWO2014083945A1 JPWO2014083945A1 (ja) | 2017-01-05 |
Family
ID=50827591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014550077A Active JP5921716B2 (ja) | 2012-11-30 | 2013-10-09 | 意図推定装置および意図推定方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9530405B2 (ja) |
JP (1) | JP5921716B2 (ja) |
CN (1) | CN104756100B (ja) |
DE (1) | DE112013005742T5 (ja) |
WO (1) | WO2014083945A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400579B (zh) * | 2013-08-04 | 2015-11-18 | 徐华 | 一种语音识别系统和构建方法 |
US10037758B2 (en) | 2014-03-31 | 2018-07-31 | Mitsubishi Electric Corporation | Device and method for understanding user intent |
KR102304052B1 (ko) * | 2014-09-05 | 2021-09-23 | 엘지전자 주식회사 | 디스플레이 장치 및 그의 동작 방법 |
JP6514503B2 (ja) * | 2014-12-25 | 2019-05-15 | クラリオン株式会社 | 意図推定装置、および意図推定システム |
JP6334815B2 (ja) * | 2015-03-20 | 2018-05-30 | 株式会社東芝 | 学習装置、方法、プログラムおよび音声対話システム |
US10224034B2 (en) * | 2016-02-03 | 2019-03-05 | Hua Xu | Voice recognition system and construction method thereof |
US20190005950A1 (en) * | 2016-03-30 | 2019-01-03 | Mitsubishi Electric Corporation | Intention estimation device and intention estimation method |
US10139243B2 (en) * | 2016-04-30 | 2018-11-27 | Toyota Motor Engineering & Manufacturing North America, Inc. | High level instruction for navigational routing systems |
KR20180052347A (ko) * | 2016-11-10 | 2018-05-18 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
CN108287858B (zh) * | 2017-03-02 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 自然语言的语义提取方法及装置 |
CN110770819B (zh) | 2017-06-15 | 2023-05-12 | 北京嘀嘀无限科技发展有限公司 | 语音识别系统和方法 |
CN109101475B (zh) * | 2017-06-20 | 2021-07-27 | 北京嘀嘀无限科技发展有限公司 | 出行语音识别方法、系统和计算机设备 |
CN108022586B (zh) * | 2017-11-30 | 2019-10-18 | 百度在线网络技术(北京)有限公司 | 用于控制页面的方法和装置 |
US11481558B2 (en) | 2018-09-12 | 2022-10-25 | Samsung Electroncis Co., Ltd. | System and method for a scene builder |
CN109710941A (zh) * | 2018-12-29 | 2019-05-03 | 上海点融信息科技有限责任公司 | 基于人工智能的用户意图识别方法和装置 |
CN111897910A (zh) * | 2019-05-05 | 2020-11-06 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
CN110096595A (zh) * | 2019-05-06 | 2019-08-06 | 上海互问信息科技有限公司 | 一种基于混合策略的复句用户查询语句的意图识别方法 |
US11705114B1 (en) * | 2019-08-08 | 2023-07-18 | State Farm Mutual Automobile Insurance Company | Systems and methods for parsing multiple intents in natural language speech |
CN111933127B (zh) * | 2020-07-31 | 2024-06-25 | 升智信息科技(南京)有限公司 | 一种具备自学习能力的意图识别方法及意图识别系统 |
JP7520304B2 (ja) | 2020-08-28 | 2024-07-23 | ウェルヴィル株式会社 | プログラム、応答生成方法、及び応答生成装置 |
JP7565742B2 (ja) | 2020-10-08 | 2024-10-11 | 株式会社日立製作所 | 意図推定装置 |
JP6954549B1 (ja) * | 2021-06-15 | 2021-10-27 | ソプラ株式会社 | エンティティとインテントとコーパスの自動生成装置及びプログラム |
CN116959433B (zh) * | 2023-09-18 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07219961A (ja) * | 1994-01-31 | 1995-08-18 | Hitachi Ltd | 音声対話システム |
US20080183462A1 (en) * | 2007-01-31 | 2008-07-31 | Motorola, Inc. | Method and apparatus for intention based communications for mobile communication devices |
US20120089394A1 (en) * | 2010-10-06 | 2012-04-12 | Virtuoz Sa | Visual Display of Semantic Information |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61105671A (ja) * | 1984-10-29 | 1986-05-23 | Hitachi Ltd | 自然言語処理装置 |
JP3350293B2 (ja) * | 1994-08-09 | 2002-11-25 | 株式会社東芝 | 対話処理装置及び対話処理方法 |
JP2000200273A (ja) | 1998-11-04 | 2000-07-18 | Atr Interpreting Telecommunications Res Lab | 発話意図認識装置 |
ITTO20011035A1 (it) * | 2001-10-30 | 2003-04-30 | Loquendo Spa | Metodo per la gestione di dialoghi persona-macchina ad iniziativa mista basato sull'interazione vocale. |
US7747601B2 (en) * | 2006-08-14 | 2010-06-29 | Inquira, Inc. | Method and apparatus for identifying and classifying query intent |
KR100679043B1 (ko) * | 2005-02-15 | 2007-02-05 | 삼성전자주식회사 | 음성 대화 인터페이스 장치 및 방법 |
US7409344B2 (en) * | 2005-03-08 | 2008-08-05 | Sap Aktiengesellschaft | XML based architecture for controlling user interfaces with contextual voice commands |
US8265939B2 (en) * | 2005-08-31 | 2012-09-11 | Nuance Communications, Inc. | Hierarchical methods and apparatus for extracting user intent from spoken utterances |
DE102005061365A1 (de) * | 2005-12-21 | 2007-06-28 | Siemens Ag | Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem |
US8521511B2 (en) * | 2007-06-18 | 2013-08-27 | International Business Machines Corporation | Information extraction in a natural language understanding system |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
KR101253104B1 (ko) * | 2009-09-01 | 2013-04-10 | 한국전자통신연구원 | 패턴 데이터베이스화 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법 |
KR101699720B1 (ko) * | 2010-08-03 | 2017-01-26 | 삼성전자주식회사 | 음성명령 인식 장치 및 음성명령 인식 방법 |
JP2012047924A (ja) * | 2010-08-26 | 2012-03-08 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
WO2012030838A1 (en) * | 2010-08-30 | 2012-03-08 | Honda Motor Co., Ltd. | Belief tracking and action selection in spoken dialog systems |
US8346563B1 (en) * | 2012-04-10 | 2013-01-01 | Artificial Solutions Ltd. | System and methods for delivering advanced natural language interaction applications |
US20120296638A1 (en) * | 2012-05-18 | 2012-11-22 | Ashish Patwa | Method and system for quickly recognizing and responding to user intents and questions from natural language input using intelligent hierarchical processing and personalized adaptive semantic interface |
US9105268B2 (en) * | 2012-09-19 | 2015-08-11 | 24/7 Customer, Inc. | Method and apparatus for predicting intent in IVR using natural language queries |
US8484025B1 (en) * | 2012-10-04 | 2013-07-09 | Google Inc. | Mapping an audio utterance to an action using a classifier |
-
2013
- 2013-10-09 WO PCT/JP2013/077504 patent/WO2014083945A1/ja active Application Filing
- 2013-10-09 US US14/413,544 patent/US9530405B2/en not_active Expired - Fee Related
- 2013-10-09 DE DE112013005742.5T patent/DE112013005742T5/de active Pending
- 2013-10-09 JP JP2014550077A patent/JP5921716B2/ja active Active
- 2013-10-09 CN CN201380055883.XA patent/CN104756100B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07219961A (ja) * | 1994-01-31 | 1995-08-18 | Hitachi Ltd | 音声対話システム |
US20080183462A1 (en) * | 2007-01-31 | 2008-07-31 | Motorola, Inc. | Method and apparatus for intention based communications for mobile communication devices |
US20120089394A1 (en) * | 2010-10-06 | 2012-04-12 | Virtuoz Sa | Visual Display of Semantic Information |
Non-Patent Citations (2)
Title |
---|
JPN6015038106; 入江 友紀 外4名: '意図タグつきコーパスを用いた発話意図推定手法' 第38回 言語・音声理解と対話処理研究会資料 (SIG-SLUD-A301) , 20030704, p.7-12, 社団法人人工知能学会 * |
JPN6015038108; 白木 将幸 外3名: '自然発話文における統計的な意図理解手法の検討' 情報処理学会研究報告 第2004巻第15号, 20040207, p.69-74, 社団法人情報処理学会 * |
Also Published As
Publication number | Publication date |
---|---|
DE112013005742T5 (de) | 2015-09-10 |
CN104756100B (zh) | 2017-07-28 |
JPWO2014083945A1 (ja) | 2017-01-05 |
WO2014083945A1 (ja) | 2014-06-05 |
CN104756100A (zh) | 2015-07-01 |
US9530405B2 (en) | 2016-12-27 |
US20150255064A1 (en) | 2015-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5921716B2 (ja) | 意図推定装置および意図推定方法 | |
Mairesse et al. | Phrase-based statistical language generation using graphical models and active learning | |
US10037758B2 (en) | Device and method for understanding user intent | |
US9697827B1 (en) | Error reduction in speech processing | |
JP6310150B2 (ja) | 意図理解装置、方法およびプログラム | |
US7860719B2 (en) | Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers | |
WO2016067418A1 (ja) | 対話制御装置および対話制御方法 | |
JP4968036B2 (ja) | 韻律語グルーピング方法及び装置 | |
Sak et al. | Morpholexical and discriminative language models for Turkish automatic speech recognition | |
JP6830226B2 (ja) | 換言文識別方法、換言文識別装置及び換言文識別プログラム | |
KR20120038198A (ko) | 음성 인식 장치 및 방법 | |
JP5276610B2 (ja) | 言語モデル生成装置、そのプログラムおよび音声認識システム | |
JPWO2009107441A1 (ja) | 音声合成装置、テキスト生成装置およびその方法並びにプログラム | |
US10354646B2 (en) | Bilingual corpus update method, bilingual corpus update apparatus, and recording medium storing bilingual corpus update program | |
JP5189413B2 (ja) | 音声データ検索システム | |
JP2010231149A (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
Donaj et al. | Context-dependent factored language models | |
JP6276516B2 (ja) | 辞書作成装置、及び辞書作成プログラム | |
KR102042991B1 (ko) | 한국어 접사 기반 토크나이징 장치 및 그 방법 | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP2017167378A (ja) | 単語スコア計算装置、単語スコア計算方法及びプログラム | |
JP5302784B2 (ja) | 機械翻訳方法、及びシステム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP2006243976A (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP2002258884A (ja) | 音声合成方法および装置並びにプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5921716 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |