JP6334815B2 - 学習装置、方法、プログラムおよび音声対話システム - Google Patents
学習装置、方法、プログラムおよび音声対話システム Download PDFInfo
- Publication number
- JP6334815B2 JP6334815B2 JP2017507165A JP2017507165A JP6334815B2 JP 6334815 B2 JP6334815 B2 JP 6334815B2 JP 2017507165 A JP2017507165 A JP 2017507165A JP 2017507165 A JP2017507165 A JP 2017507165A JP 6334815 B2 JP6334815 B2 JP 6334815B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- intention
- text
- similar
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 46
- 238000012545 processing Methods 0.000 claims description 48
- 238000004458 analytical method Methods 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 35
- 238000012937 correction Methods 0.000 claims description 27
- 238000012790 confirmation Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims 1
- 210000000689 upper leg Anatomy 0.000 description 42
- 230000004044 response Effects 0.000 description 28
- 239000013598 vector Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 6
- 231100000862 numbness Toxicity 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 208000024891 symptom Diseases 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
本実施形態で前提となる対話システムの一例について図1の概念図を参照して説明する。
図1に示す対話システム100は、端末101と対話処理サーバ102とを含む。端末101は、ここでは、例えば、ユーザ103が使用するタブレット端末、スマートフォンなどの携帯電話であることを想定する。本実施形態では、ユーザ103が端末101に搭載されるクライアントアプリに対して音声入力を行なうことを前提とするが、テキスト入力するような場合でも同様に処理することができる。
対話処理サーバ102は、ネットワーク104を介して端末101に接続され、端末101に音声入力された音声信号を受信して、音声信号に対して音声認識を行い、音声認識結果を得る。対話処理サーバ102は、音声認識結果からユーザの意図を推定し、意図に応じた処理を行う対話システムとして動作し、処理結果に基づいて音声認識結果に対する応答処理を行う。応答処理としては、例えば音声認識結果に対する応答である応答テキストを音声合成して合成音声を生成し、合成音声を端末101に送信すればよい。なお、上記では対話処理サーバ102が音声認識処理および音声合成処理も行うとしているが、別途音声認識サーバおよび音声合成サーバを用意し、音声認識サーバが音声認識処理を行い、音声合成サーバが音声合成処理を行なってもよい。
第1の実施形態に係る学習装置200は、発話受理部201、意図解析部202、類似情報検出部203、意図修正部204、発話登録部205、対話制御部206、応答生成部207、対話履歴格納部208(第2格納部ともいう)、類似発話抽出部209、類似情報更新部210(第1更新部ともいう)、意図解析情報格納部211、類似情報格納部212(第1格納部ともいう)および発話意図情報格納部213を含む。
類似情報検出部203は、意図解析部202から発話テキストおよび発話意図を受け取り、発話テキストが後述の類似情報格納部212に格納されている類似情報に含まれるテキストと一致するか否かを判定する。発話テキストと一致するテキストを含む類似情報が類似情報格納部212に格納される場合は、該当する類似情報(対応類似情報ともいう)を検出する。類似情報検出部203は、発話テキストと一致するテキストを含む類似情報が類似情報格納部212に格納されていない場合は、そのまま発話テキストおよび発話意図を対話制御部206に送る。
ステップS301では、類似発話抽出部209が、対話履歴格納部208に格納される対話履歴から未処理の対話履歴の一部を抽出し、抽出した対話履歴中の発話テキストをユーザIDごとに時刻でソートする。対話履歴が未処理であるか否かは、例えば、処理が完了した発話テキストに処理完了を示すフラグを付与しておき、類似発話抽出部209が、フラグを確認することにより未処理であるか否かを判定すればよい。なお、フラグに限らず、未処理の対話履歴について類似情報更新処理が行われるような仕組みであればよい。
ステップS302では、類似発話抽出部209が、同一のユーザIDの発話の中で、類似発話が存在するか否かを判定する。類似発話が存在するか否かは、例えば、ユーザの発話のうち、処理対象の発話に関する発話テキストと、同一ユーザの1つ前の発話に関する発話テキストとの、2文間の単語の編集距離による類似度を算出すればよい。なお、同一ユーザの1つ前の発話に限らず、1つ後の発話でもよいし、前後の発話であればよい。または、単語ベクトルのコサイン距離に関する類似度を算出してもよいし、フレーズの意味的類似を考慮してもよい。すなわち、文章間の類似度を算出するための一般的な方法を用いればよい。類似発話抽出部209は、類似度が閾値以上であれば類似発話が存在すると判定すればよい。類似発話が存在する場合は、ステップS303に進み、類似発話が存在しない場合は、処理を終了する。
ステップS304では、類似情報更新部210が、類似発話グループごとに、類似発話グループ内のユーザ発話に対して対話が成功したと判定された発話、つまり、正しい発話意図が付与されたと推定される発話を抽出する。一般に、ユーザ発話に対するシステム応答が適切でない場合、ユーザは対話システムがユーザ発話の意図の解釈を誤ったと考え、表現を少しだけ変えて言いなおすことが多い。そして、言い直したユーザ発話が対話システムに正しく解釈された場合は、次の対話に進む。すなわち、ある類似発話グループ内で、最新のユーザ発話(時系列で最後に出現するユーザ発話)に対する発話意図は、ユーザの発話意図と一致している可能性が高いと考えられる。
図4に示す対話履歴400は、ある同一のユーザIDの発話に関する発話テキスト(「U:」で始まるテキスト)と、ユーザの発話に対するシステム応答である応答テキスト(「S:」で始まるテキスト)との対を、時系列に並べたものである。
図5に示すテーブル500は、類似情報501を1つのエントリとして含むテーブルである。類似情報501は、発話テキスト502、代表類似発話503、意図候補504および確信度として出現頻度505を含み、それぞれ対応付けられる。
なお、本実施形態では、意図候補504は、ユーザの発話意図を表す意図タグと付加情報とを含む。具体的には、意図候補504「痛い(太もも)」のうち、意図タグは「痛い」、付加情報は「太もも」であり、ここでは、意図タグが症状、付加情報が症状が出ている部位を示す。
ここでは、図4に示す対話履歴400を未処理の対話履歴として類似情報更新処理を行い、図3に示すステップS302の処理として、対象の発話テキストと、対象の発話テキストの直前、すなわち1つ前の発話に関する発話テキストとの類似度を単語ベクトルのコサイン距離を用いて類似度を判定する場合を想定する。対象の発話テキストと1つ前の発話テキストとを比較するのは、発話間の時間が空いている場合、システムにおける発話意図の推定誤りに対するユーザの言い直しであるという可能性が低いと考えられるからである。よって、発話意図の推定精度を向上させるためには、できるだけ直近の発話同士を比較するのが望ましい。
発話テキスト410:(1,0,0,0,0)
発話テキスト411:(0,1,1,1,1)
類似発話抽出部209は、2つのベクトルのコサイン距離を求める。ベクトルV1とV2とのコサイン距離は、以下の式により算出できる。
コサイン距離 cos(V1,V2)=V1・V2/|V1||V2|・・・(1)
(1)式を用いて上記発話テキストのコサイン距離を求めると、0/(1*2)=0となる。同様に、発話テキスト412「太ももの後ろ側がい。」と発話テキスト411「太ももの裏側がピリピリする。」とのコサイン距離、発話テキスト413「太ももの後ろ側が痛い」と発話テキスト412「太ももの後ろ側がい。」とのコサイン距離は、表1のように表現できる。なお、発話テキスト412「太ももの後ろ側がい。」は、音声認識結果が誤っている場合の例である。
対象の2文が類似しているか否かの判定は、算出したコサイン距離の値が予め定めた閾値以上であるか否かにより判定すればよい。例えば、閾値を「0.5」とすると、発話テキスト410「いいえ」と発話テキスト411「太ももの裏側が痛い」とは、類似発話ではない。一方、発話テキスト411、412および413は一連の発話を含む類似発話であると判定できる。よって、この例の場合、発話テキスト411、412および413が1つの類似発話グループとして生成される。
図4の対話履歴400の例の場合、類似発話グループは、発話テキスト411、412、および413からなるグループのみである。また、この類似発話グループ内の代表類似発話は、前述した通り発話テキスト413となる。従って、類似情報更新部210は、発話テキスト411、412について類似情報内に対応するエントリがあるか否かを判定する。類似情報更新部210は、発話テキスト411「太ももの裏側がピリピリする。」と、発話テキスト413に対応する発話意図(「痛い(太もも)」)とに適合するエントリがあり、その出現頻度が「19」であったとすると、このエントリの出現頻度505を「20」に変更する。また、類似情報更新部210は、発話テキスト412「太ももの後ろ側がい。」と発話テキスト413に対応する発話意図に適合するエントリがない場合、図5のエントリ506のように新たにエントリを追加する。
図6は、対話履歴の第2例であり、対話履歴600は、金融機関での手続きに通帳と印鑑が必要であり、ユーザの手元にこれらがあるか否かを確認する対話の例である。それぞれの発話テキストについて類似度を算出する。具体的に、発話テキスト602「ハンコの所在はわかりません」と発話テキスト601「xxxの手続きがしたい」との類似度、発話テキスト603「ハンコはな」と発話テキスト602「ハンコの所在はわかりません」との類似度、発話テキスト604「銀行印が見つかりません」と発話テキスト603「ハンコはな」との類似度は、それぞれ表2のようになる。
図7は、図6に対応する類似情報の第2例であり、類似情報更新部210は、図5の場合と同様に更新すればよい。
図8は、対話履歴の第3例であり、金融機関等での相談サービスに対して、相続税の計算シミュレーションを希望している対話履歴の一部である。この例では、発話テキスト801「相続するとどのくらい税金がかかるの」、発話テキスト802「相続にかかる税額が知りたい」、および発話テキスト803「相続税の金額が知りたい」の類似度は、表3のように表すことができる。
図9は、図8に対応する類似情報の第3例である。類似情報更新部210は、図5の場合と同様に更新すればよい。
ステップS1001では、発話受理部201が、音声認識結果となる発話テキスト(第1テキストともいう)を受理する。
ステップS1002では、意図解析部202が、第1テキストに対して意図解析を行い、ユーザ発話の発話意図を判定する。
ステップS1004では、類似情報検出部203が、第1テキストと発話テキストとが一致するエントリを抽出する。
ステップS1006では、意図修正部204が、発話意図を、抽出されたエントリに含まれる意図候補に修正する。
ステップS1008では、類似情報更新部210が、発話登録部205から発話意図情報が格納されたことを示すフラグを受け取り、エントリに含まれる発話テキストと意図候補が発話意図情報に格納されたことを示す情報を、類似情報格納部212に登録する。これは、例えば、類似情報格納部212に格納されるエントリに、発話意図情報が格納されたことを示すフラグを対応付ければよい。
ステップS1010では、応答生成部207が、対話処理結果を応答メッセージに変換し、ユーザに対して出力する。以上で学習装置200の発話登録処理を終了する。
図11の発話意図情報1101は、発話意図識別情報1102および発話テキスト1103を含む。発話意図識別情報1102は、意図タグと付加情報とを含む。具体的には、例えば、発話意図情報1101として、発話意図識別情報1102「腫れ(瞼)」と発話テキスト1103「瞼が腫れちゃった」とが対応付けられる。
なお、エントリを登録する前に、発話登録部205が、類似情報のエントリに対応するデータが発話意図情報に反映されているか否かを示すフラグを確認し、フラグが立っていない場合に登録するようにしてもよい。
第2の実施形態では、意図修正部204で修正した意図が正しいか否かをユーザに確認する点が異なる。
第2の実施形態に係る学習装置1200は、発話受理部201、類似情報検出部203、意図修正部204、発話登録部205、対話制御部206、応答生成部207、類似情報更新部210、類似発話抽出部209、意図解析情報格納部211、対話履歴格納部208、類似情報格納部212、発話意図情報格納部213、意図解析部1201および意図確認部1202を含む。
意図解析部1201は、第1の実施形態に係る意図解析部202とほぼ同様の動作を行うが、意図確認に関する対話処理であるか否かをフラグに従って判定し、意図確認に関する対話処理であれば、意図確認部1202にユーザ発話を送り、意図確認に関する対話処理でなければ、類似情報検出部203にユーザ発話および発話意図を送る。
ステップS1301からステップS1305までの処理以外は、図10と同様であるのでここでの説明を省略する。
ステップS1302では、意図確認部1202が、発話意図が正しいか否か、すなわちユーザ発話が「肯定」を表すものであるか否かを判定する。これは、ステップS1002で推定したユーザ発話に対する発話意図が、「肯定」を表すものであるか否かにより判定すればよい。ユーザ発話が「肯定」を表す場合、ステップS1007に進み、ユーザに確認中であるユーザ発話と意図候補とが発話意図情報格納部213に格納される。格納後、確認のためバッファなどに保持していたユーザ発話と意図候補、およびフラグなどを削除する。ユーザ発話が「肯定」を表さない場合、ステップS1303に進む。
図14の類似情報は、図5の類似情報501に、ユーザが意図を訂正した情報を追加した例を示す。具体的には、類似情報1402として、発話テキスト502「太ももの裏側がピリピリする」に対する意図候補「しびれ(太もも)」が追加される。また、この場合、対話制御部206には、発話テキスト502「太ももの裏側がピリピリする」と、ユーザが訂正した発話意図(「しびれ(太もも)」)が渡される。
第3の実施形態では、発話意図情報格納部に格納されるデータを、意図解析情報格納部にフィードバックする点が上述の実施形態とは異なる。
図15に示す学習装置1500は、発話受理部201、意図解析部202、類似情報検出部203、意図修正部204、発話登録部205、対話制御部206、応答生成部207、対話履歴格納部208、類似発話抽出部209、類似情報更新部210、意図解析情報格納部211、類似情報格納部212、発話意図情報格納部213および意図解析情報更新部1501(第2更新部ともいう)を含む。
意図解析情報更新部1501は、現在利用している意図解析情報格納部211のデータに発話意図情報格納部213に格納されるデータを追加および更新する。これにより、新たな意図解析情報が生成されて、現行の意図解析情報が更新される。更新の頻度は、予め定義された頻度で行えばよい。
第4の実施形態では、ユーザ発話の曖昧性を検出して対話システムのシステム管理者にメッセージを送信する点が異なる。
第4の実施形態に係る学習装置1600は、発話受理部201、意図解析部202、意図修正部204、発話登録部205、対話制御部206、応答生成部207、対話履歴格納部208、類似発話抽出部209、類似情報検出部203、意図解析情報格納部211、類似情報格納部212、発話意図情報格納部213、類似情報更新部1601および通知部1602を含む。
類似情報更新部1601は、類似情報更新部210とほぼ同様であるが、更新した各類似情報エントリが、管理者に通知する条件を満たすか否かを判定する点が異なる。
図17は、第4の実施形態に係る対話履歴の一部を抽出した第1例である。対話履歴1701および対話履歴1702は、対話履歴格納部208から、それぞれ別のユーザIDを持つユーザ発話の発話テキストと、その発話に対するシステム応答の応答テキストとの対を、時系列に並べたものである。
図19は、第4の実施形態に係る対話履歴の一部を抽出した第2例である。図19に示す対話履歴1901は、対話履歴格納部208から、同一のユーザIDを有するユーザ発話の発話テキストと、その発話に対するシステム応答の応答テキストとの対を、時系列に並べたものである。
図19および図20の例のように、ユーザ発話に対して推定される発話意図と、実際の意図とが異なる場合も、ユーザ発話に複数の意図候補がある場合と同様、ユーザ発話が複数の意図で使われている可能性がある。この場合、システム管理者に通知される条件は、「ユーザ発話推定意図と意図候補とが異なり、かつユーザ発話推定意図と意図候補との組み合わせの確信度(出現頻度)が予め定めた閾値以上」である。ここで、閾値を「30」とすると、図20の類似情報2001に示したエントリの例の場合、この管理者通知条件を満たすため、「太ももの裏側がピリピリする」という発話は、「痛み」と「痺れ」という2種類の意図で使われる可能性があることを示すメッセージがシステム管理者に通知される。
ステップS2101およびステップS2102以外は、図3に示すフローチャートと同様であるのでここでの説明は省略する。
ステップS2102では、通知部1602が、システム管理者にメッセージを通知する。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (16)
- ユーザの発話を音声認識した結果である第1テキストから推定される該ユーザの発話意図を用いる学習装置であって、該学習装置は、
対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第2テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第2テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を格納する第1格納部と、
前記類似情報から、前記第1テキストと一致する前記第2テキストを含む対応類似情報を検出する検出部と、
前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正する修正部と、を具備することを特徴とする学習装置。 - 前記第1テキストと修正された発話意図とを発話意図情報として登録する登録部をさらに具備することを特徴とする請求項1に記載の学習装置。
- 前記対話履歴を格納する第2格納部と、
前記第2格納部から、同一のユーザの発話に関する前記第2テキストと、前記意図候補と、前記対話が成功したと判定された発話を音声認識した結果である第3テキストと、前記確信度とを少なくとも抽出する抽出部と、
前記抽出部で抽出される情報により、前記第1格納部に格納される前記類似情報を更新する第1更新部と、をさらに具備することを特徴とする請求項1または請求項2に記載の学習装置。 - 前記抽出部は、前記ユーザの第1発話と該ユーザの前後に発話された第2発話とが類似している場合に、該第1発話と該第2発話とを前記類似発話として抽出し、1つ以上の類似発話を含む類似発話グループを生成することを特徴とする請求項3に記載の学習装置。
- 前記第1更新部は、前記対話が成功したと判定された発話として前記類似発話グループのうち最新の発話を選択し、該最新の発話に関する発話意図を前記意図候補として決定することを特徴とする請求項4に記載の学習装置。
- 前記第1テキストと修正された発話意図との組を前記ユーザに確認する確認部をさらに具備する請求項1から請求項5のいずれか1項に記載の学習装置。
- 前記第1更新部は、前記ユーザが前記第1テキストの意図として修正された発話意図を承諾する場合、前記第1格納部に該第1テキストと該修正された発話意図とを登録することを特徴とする請求項3に記載の学習装置。
- 前記類似情報は、該類似情報が生成された日時情報をさらに含み、
前記第1更新部は、前記日時情報が示す日時から第1期間を経過した類似情報を前記第1格納部から削除することを特徴とする請求項3のいずれか1項に記載の学習装置。 - 前記確信度は、前記対話が成功したと判定された発話から推定される意図候補と、前記第2テキストのうち該対話が成功したと判定された発話以外の第2テキストとの組が出現した回数を示す出現頻度であることを特徴とする請求項1から請求項8のいずれか1項に記載の学習装置。
- 前記対応類似情報が複数存在し、かつそれぞれの確信度が前記閾値以上である場合、前記第1テキストに関する発話が曖昧な発話であることに関するメッセージを管理者に通知する通知部をさらに具備することを特徴とする請求項1から請求項9のいずれか1項に記載の学習装置。
- 前記発話意図と前記意図候補とが異なり、かつ該発話意図と該意図候補との組み合わせの確信度が閾値以上である場合、前記第1テキストに関する発話が曖昧な発話であることに関するメッセージを管理者に通知する通知部をさらに具備することを特徴とする請求項1から請求項9のいずれか1項に記載の学習装置。
- 前記発話意図を推定する処理に用いられる意図解析情報を、前記第1テキストと修正された発話意図とを用いて更新する第2更新部をさらに具備する請求項3に記載の学習装置。
- 前記第1更新部は、前記修正部により修正が行われ、かつ前記修正部による修正が前記意図解析情報に反映される場合、前記第1格納部から前記対応類似情報を削除することを特徴とする請求項12に記載の学習装置。
- ユーザの発話を音声認識した結果である第1テキストから推定される該ユーザの発話意図を用いる学習方法であって、該学習方法は、
対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第2テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第2テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を第1格納部に格納し、
前記類似情報から、前記第1テキストと一致する前記第2テキストを含む対応類似情報を検出し、
前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正することを特徴とする学習方法。 - ユーザの発話を音声認識した結果である第1テキストから推定される該ユーザの発話意図を用いる学習プログラムであって、該学習プログラムは、
コンピュータを、
ユーザの発話を音声認識した結果である第1テキストから、該ユーザの発話意図を推定する解析手段と、
対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第2テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第2テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を格納する第1格納手段と、
前記類似情報から、前記第1テキストと一致する前記第2テキストを含む対応類似情報を検出する検出手段と、
前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正する修正手段として機能させるための学習プログラム。 - ユーザが発話することによって音声入力を行う端末と、
ネットワークを介して前記端末に接続され、前記ユーザの発話を音声認識した結果である第1テキストから推定される該ユーザの発話意図を用いる対話処理サーバと
を具備する音声対話システムであって、
前記対話処理サーバは、
対話履歴の中で類似する一連の発話を示す類似発話を音声認識した結果である第2テキストと、該類似発話の中で対話が成功したと判定された発話から推定される意図候補と、該意図候補が該第2テキストの意図となる度合いを示す確信度とを少なくとも含む類似情報を格納する第1格納部と、
前記類似情報から、前記第1テキストと一致する前記第2テキストを含む対応類似情報を検出する検出部と、
前記対応類似情報に含まれる確信度が閾値以上である場合、前記発話意図を、該対応類似情報に含まれる意図候補に修正する修正部と
を具備することを特徴とする音声対話システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/058564 WO2016151699A1 (ja) | 2015-03-20 | 2015-03-20 | 学習装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016151699A1 JPWO2016151699A1 (ja) | 2017-05-25 |
JP6334815B2 true JP6334815B2 (ja) | 2018-05-30 |
Family
ID=56978087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017507165A Active JP6334815B2 (ja) | 2015-03-20 | 2015-03-20 | 学習装置、方法、プログラムおよび音声対話システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10446146B2 (ja) |
JP (1) | JP6334815B2 (ja) |
WO (1) | WO2016151699A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016143131A1 (ja) * | 2015-03-12 | 2016-09-15 | 株式会社 東芝 | 対話支援装置、方法およびプログラム、および端末 |
WO2016151699A1 (ja) * | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 学習装置、方法およびプログラム |
JP6621776B2 (ja) * | 2017-03-22 | 2019-12-18 | 株式会社東芝 | 検証システム、検証方法及びプログラム |
JP6654611B2 (ja) * | 2017-12-05 | 2020-02-26 | 株式会社日立製作所 | 成長型対話装置 |
JP2019106054A (ja) * | 2017-12-13 | 2019-06-27 | 株式会社東芝 | 対話システム |
WO2019142427A1 (ja) | 2018-01-16 | 2019-07-25 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
WO2019163247A1 (ja) * | 2018-02-22 | 2019-08-29 | ソニー株式会社 | 情報処理装置、情報処理方法、および、プログラム |
JP6458183B1 (ja) * | 2018-04-05 | 2019-01-23 | アビームコンサルティング株式会社 | モータスポーツにおける自動音声回答システム及びプログラム |
JP7042701B2 (ja) * | 2018-06-14 | 2022-03-28 | ヤフー株式会社 | 評価装置、評価方法および評価プログラム |
JP2021156907A (ja) | 2018-06-15 | 2021-10-07 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
US20200142719A1 (en) * | 2018-11-02 | 2020-05-07 | International Business Machines Corporation | Automatic generation of chatbot meta communication |
CN109783621B (zh) * | 2018-12-17 | 2021-10-08 | 北京百度网讯科技有限公司 | 对话生成方法、装置及设备 |
US11501753B2 (en) * | 2019-06-26 | 2022-11-15 | Samsung Electronics Co., Ltd. | System and method for automating natural language understanding (NLU) in skill development |
CN110457709A (zh) * | 2019-08-16 | 2019-11-15 | 北京一链数云科技有限公司 | 外呼对话处理方法、装置及服务器 |
CN111209023B (zh) * | 2020-01-08 | 2023-06-23 | 百度在线网络技术(北京)有限公司 | 技能服务的更新方法、装置、电子设备及可读存储介质 |
CN111221944B (zh) * | 2020-01-13 | 2024-04-23 | 平安科技(深圳)有限公司 | 文本意图识别方法、装置、设备和存储介质 |
CN112015897B (zh) * | 2020-08-27 | 2023-04-07 | 中国平安人寿保险股份有限公司 | 语料的意图标注方法、装置、设备及存储介质 |
US20230136842A1 (en) * | 2021-11-03 | 2023-05-04 | International Business Machines Corporation | Training data sequence for rnn-t based global english model |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3375449B2 (ja) | 1995-02-27 | 2003-02-10 | シャープ株式会社 | 統合認識対話装置 |
US6192110B1 (en) * | 1995-09-15 | 2001-02-20 | At&T Corp. | Method and apparatus for generating sematically consistent inputs to a dialog manager |
JP4128342B2 (ja) * | 2001-07-19 | 2008-07-30 | 三菱電機株式会社 | 対話処理装置及び対話処理方法並びにプログラム |
JP2007264128A (ja) * | 2006-03-27 | 2007-10-11 | Toshiba Corp | 音声認識装置及びその方法 |
US8781813B2 (en) * | 2006-08-14 | 2014-07-15 | Oracle Otc Subsidiary Llc | Intent management tool for identifying concepts associated with a plurality of users' queries |
JP2008203559A (ja) * | 2007-02-20 | 2008-09-04 | Toshiba Corp | 対話装置及び方法 |
JP2009025538A (ja) | 2007-07-19 | 2009-02-05 | Nissan Motor Co Ltd | 音声対話装置 |
JP5468474B2 (ja) * | 2010-06-21 | 2014-04-09 | 株式会社野村総合研究所 | トークスクリプト利用状況算出システムおよびトークスクリプト利用状況算出プログラム |
JP5637888B2 (ja) | 2011-02-09 | 2014-12-10 | 三菱電機株式会社 | 同一意図テキスト生成装置、意図推定装置および同一意図テキスト生成方法 |
KR101178310B1 (ko) * | 2011-02-24 | 2012-08-29 | 포항공과대학교 산학협력단 | 대화 관리 방법 및 이를 실행하는 시스템 |
JP2013050605A (ja) * | 2011-08-31 | 2013-03-14 | Nippon Hoso Kyokai <Nhk> | 言語モデル切替装置およびそのプログラム |
US9530405B2 (en) * | 2012-11-30 | 2016-12-27 | Mitsubishi Electric Corporation | Intention estimating device and intention estimating method |
JP6251958B2 (ja) | 2013-01-28 | 2017-12-27 | 富士通株式会社 | 発話解析装置、音声対話制御装置、方法、及びプログラム |
AU2014233517B2 (en) * | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US9875494B2 (en) * | 2013-04-16 | 2018-01-23 | Sri International | Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant |
US9466297B2 (en) * | 2014-12-09 | 2016-10-11 | Microsoft Technology Licensing, Llc | Communication system |
WO2016151699A1 (ja) * | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 学習装置、方法およびプログラム |
US9472196B1 (en) * | 2015-04-22 | 2016-10-18 | Google Inc. | Developer voice actions system |
-
2015
- 2015-03-20 WO PCT/JP2015/058564 patent/WO2016151699A1/ja active Application Filing
- 2015-03-20 JP JP2017507165A patent/JP6334815B2/ja active Active
-
2017
- 2017-02-08 US US15/427,347 patent/US10446146B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2016151699A1 (ja) | 2016-09-29 |
US10446146B2 (en) | 2019-10-15 |
JPWO2016151699A1 (ja) | 2017-05-25 |
US20170148441A1 (en) | 2017-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6334815B2 (ja) | 学習装置、方法、プログラムおよび音声対話システム | |
US10679610B2 (en) | Eyes-off training for automatic speech recognition | |
JP6448765B2 (ja) | 対話装置、方法及びプログラム | |
JP6484236B2 (ja) | オンライン音声翻訳方法及び装置 | |
KR102222317B1 (ko) | 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체 | |
AU2017425675B2 (en) | Extracting domain-specific actions and entities in natural language commands | |
US10720152B2 (en) | Negative n-gram biasing | |
US9583107B2 (en) | Continuous speech transcription performance indication | |
AU2017424116B2 (en) | Extracting domain-specific actions and entities in natural language commands | |
US20170262434A1 (en) | Machine translation apparatus and machine translation method | |
US20160314116A1 (en) | Interpretation apparatus and method | |
CN111881297B (zh) | 语音识别文本的校正方法及装置 | |
US20190042560A1 (en) | Extracting domain-specific actions and entities in natural language commands | |
US20180286386A1 (en) | Deep language and acoustic modeling convergence and cross training | |
CN114223029A (zh) | 支持装置进行语音识别的服务器及服务器的操作方法 | |
JP2015200860A (ja) | 辞書データベース管理装置、apiサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム | |
US20220050971A1 (en) | System and Method for Generating Responses for Conversational Agents | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
CN114519358A (zh) | 翻译质量评估方法、装置、电子设备和存储介质 | |
CN114358026A (zh) | 语音翻译方法、装置、设备和计算机可读存储介质 | |
JP2021082125A (ja) | 対話装置 | |
WO2023036283A1 (zh) | 一种在线课堂交互的方法及在线课堂系统 | |
JP2012189829A (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
JP2023007014A (ja) | 応答システム、応答方法、および応答プログラム | |
CN116070621A (zh) | 语音识别结果的纠错方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180306 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180403 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180426 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6334815 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |