JP6251958B2 - 発話解析装置、音声対話制御装置、方法、及びプログラム - Google Patents

発話解析装置、音声対話制御装置、方法、及びプログラム Download PDF

Info

Publication number
JP6251958B2
JP6251958B2 JP2013013282A JP2013013282A JP6251958B2 JP 6251958 B2 JP6251958 B2 JP 6251958B2 JP 2013013282 A JP2013013282 A JP 2013013282A JP 2013013282 A JP2013013282 A JP 2013013282A JP 6251958 B2 JP6251958 B2 JP 6251958B2
Authority
JP
Japan
Prior art keywords
word
misread
similarity
unclear
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013013282A
Other languages
English (en)
Other versions
JP2014145842A (ja
Inventor
高橋 潤
潤 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013013282A priority Critical patent/JP6251958B2/ja
Publication of JP2014145842A publication Critical patent/JP2014145842A/ja
Application granted granted Critical
Publication of JP6251958B2 publication Critical patent/JP6251958B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

開示の技術は、発話解析装置、発話解析方法、発話解析プログラム、音声対話制御装置、音声対話制御方法、及び音声対話制御プログラムに関する。
近年の計算機処理技術の発達に伴い、人間の発話を認識する音声認識技術を応用し、システムにおいてユーザの発話を解析し、ユーザとシステムとが対話を繰り返して、問題解決を行う音声対話システムが実現可能なった。
このような音声対話システムにおける利便性、つまりユーザビリティを向上させるためには、システムへの入力に誤りがある場合でも対話が円滑に進む必要がある。
具体的には、ユーザの発話に読み間違い、言い間違い、言い澱みなどが生じた場合でも、対話が円滑に継続する応答が必要となる。例えば、ユーザが「吹田市の観光案内」を要求した発話において、地名「吹田市(すいたし)」をユーザが言い間違えて「ふきたし」と発声した場合、音声認識により「ふきたし」が「吹き出し」と認識される場合がある。この場合、「吹き出し」という地名は存在しないため、音声対話システムでは、ユーザの発話を理解することができない。このような状態において最も単純な応答方法は、「該当する情報がありませんでした」と応答することであるが、これでは対話が継続しないため、ユーザビリティが向上しない。
そこで、認識結果単語列データの長さが所定値以上の場合に、テキスト単語列データ記憶部に記憶されているテキスト単語列データと認識結果単語列データとのマッチング処理を行って類似度を算出する手法が提案されている。この手法では、算出された類似度に基づいてテキスト単語列データを認識結果単語列の修正候補として選択している。
また、音声認識結果から選択された修正対象単語と、読み・音節記憶手段の単語とのマッチングを行い、単語単位の修正候補を生成する手法が提案されている。
また、商品名などの持つ文字系列の視覚的類似性や聴覚的類似性の尺度に基づいて、個々の商品名などがユーザによって文字列として入力された場合、その商品名などに対する読み間違いや聞き間違い易い類似品名を提示する装置が提案されている。
また、入力された音声波形を解析して変換した仮名文字列データを漢字文字列データに変換し、漢字文字列データに基づき、辞書データを用いて照合検索を行う手法が提案されている。
特開2012−128188号公報 特開2012−22251号公報 特開2006−85556号公報 特開平11−282491号公報
しかし、従来技術の手法では、音声認識結果の単語と辞書や履歴内の単語との類似性を、表記や発音の類似性に基づいて判定し、音声認識結果の誤りを修正しているが、ユーザによる言い間違いには対応することができない。また、仮名文字列データを漢字文字列データに変換する手法では、カナ漢字変換で元に戻る単語のみ対応可能であるため、対応が限定的である。
開示の技術は、一つの側面として、音声認識結果にユーザの読み間違いなどによる不明瞭な単語が含まれる場合でも、ユーザの発話を適切に理解することが目的である。
開示の技術は、ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定する不明瞭単語推定部を備えている。また、開示の技術は、前記不明瞭単語推定部により推定された不明瞭単語に対する正解単語を類推する単語類推部を備えている。単語類推部は、不明瞭単語と、漢字を含む単語を1文字または形態素毎に分解した要素毎の読みを各々組み合わせた複数の前記漢字を含む単語の読み間違い単語との類似性に基づいて、正解単語を類推する。また、開示の技術は、前記認識結果及び前記不明瞭単語に対する正解単語を含む出力データを出力する出力部を備えている。
開示の技術は、一つの側面として、音声認識結果にユーザの読み間違いなどによる不明瞭な単語が含まれる場合でも、ユーザの発話を適切に理解することができる、という効果を有する。
第1実施形態に係る発話解析装置の構成の一例を示すブロック図である。 第1実施形態における読み間違い単語リストの生成を説明するための図である。 発話解析装置及び音声対話制御装置として機能するコンピュータの一例を示す概略ブロック図である。 第1実施形態における読み間違い単語リスト生成処理を示すフローチャートである。 読み間違い単語リストの生成の他の例を説明するための図である。 発話解析処理及び音声対話制御処理を示すフローチャートである。 第1実施形態における不明瞭単語推定処理を示すフローチャートである。 第1実施形態における単語類推処理を示すフローチャートである。 第1実施形態における出力処理を示すフローチャートである。 第2実施形態に係る音声対話システムの構成の一例を示すブロック図である。 音声対話システムにおけるユーザ端末の一例を示すイメージ図である。 第2実施形態に係る音声対話制御装置の構成の一例を示すブロック図である。 アクション、対応する単語、及びパラメータの属性を対応付けたテーブルの一例を示す図である。 アクション、パラメータ、及び不明瞭単語の推定を説明するための図である。 類似単漢字リストの生成を説明するための図である。 第2実施形態における読み間違い単語リストの生成を説明するための図である。 第2実施形態における読み間違い単語リスト生成処理を示すフローチャートである。 第2実施形態における意図推定処理を示すフローチャートである。 第2実施形態における単語類推処理を示すフローチャートである。 第2実施形態における出力処理を示すフローチャートである。 第3実施形態に係る音声対話制御装置の構成の一例を示すブロック図である。 補助情報リストとしての住所の木構造の一例を示す図である。 補助情報リストとしての所属の木構造の一例を示す図である。 第3実施形態における単語類推処理を示すフローチャートである。 第3実施形態における補助情報付加処理を示すフローチャートである。 第3実施形態における出力処理を示すフローチャートである。
以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。
〔第1実施形態〕
図1に、第1実施形態に係る発話解析装置10を示す。発話解析装置10は、ユーザの発話を示す音声データを入力として受け付け、ユーザの発話を解析した出力データを出力する。ここでの発話の解析とは、音声データの音声認識結果における不明瞭な単語に対して、ユーザの意図に沿った正解単語を類推することである。特に、ユーザの読み間違い、言い間違い、言い淀みなど(以下、これらをまとめて「読み間違い」という)が生じたと推定される単語を不明瞭な単語として取り扱う。
発話解析装置10は、図1に示すように、音声認識部11、不明瞭単語推定部12、単語類推部13、及び出力部14を備えている。
音声認識部11は、入力された音声データに対して音声認識処理を行い、音声認識結果を出力する。音声認識処理には、例えば、一般に知られているワードスポッティング(事前に登録された単語を抽出する方法)やディクテーション(事前に登録された単語、フレーズを抽出する方法)などを用いることができる。
不明瞭単語推定部12は、音声認識部11から出力された音声認識結果を形態素解析して単語毎に分割すると共に、読みや品詞等の必要な情報を付与する。
また、不明瞭単語推定部12は、形態素解析結果及び予め定めたルールに従って、ユーザの読み間違いにより不明瞭となっている不明瞭単語を推定する。不明瞭単語を推定するためのルールとしては、例えば、品詞や係り受け関係等に誤りがある等の文法的に誤った単語を不明瞭単語として推定する、といったルールを定めておくことができる。また、ユーザの発話の意図(テーマや目的)が予め分かっている場合には、その意図に沿ったルールを定めておいてもよい。さらに、不明瞭単語を推定するために予め大規模文書データ等を利用して学習した識別モデルを用いて、不明瞭単語を推定してもよい。
単語類推部13は、不明瞭単語推定部12で推定された不明瞭単語に対して、読み間違い単語リスト15を参照して、ユーザの意図に沿った正解単語(正しい読みをした場合の単語)を類推する。読み間違い単語リスト15は、正解単語に対して読み間違い単語を対応付けて登録したリストであり、読み間違い単語リスト生成装置50により生成される。
読み間違い単語リスト生成装置50は、図1に示すように、単漢字分解部51、読み情報取得部53、及び読み間違い単語生成部54を備えている。
単漢字分解部51は、単語リスト16に登録された単語を1つずつ入力として受け付け、形態素解析や文字解析などの公知の技術を用いて単漢字に分解する。図2に示すように、例えば、「吹田市」という単語が入力された場合には、「吹」、「田」、及び「市」という単漢字に分解される。なお、単語リスト16には、ユーザの発話内容の解析に必要な単語を予め登録しておく。ユーザの発話の意図が不明は場合には、あらゆる単語を登録しておくことができる。また、ユーザの発話の意図が分かっている場合には、その意図に沿った単語を登録しておいてもよい。
読み情報取得部53は、単漢字分解部51で分解された各単漢字について、例えば漢字辞書の読み情報を参照して、読み情報を取得する。上記の例では、単漢字「吹」について、「スイ」、「フ(ク)」、及び「フ(キ)」という読みが取得される。また、単漢字「田」について、「デン」、「タ」、及び「ダ」という読みが取得される。また、単漢字「市」について、「シ」及び「イチ」という読みが取得される。
読み間違い単語生成部54は、読み情報取得部53で取得された各単漢字の読みの各々の組み合わせを読み間違い単語として生成し、入力された単語を正解単語として対応付けて読み間違い単語リスト15に登録する。上記の例では、「スイデンシ」、「スイダシ」、「フキタシ」、「フキダシ」・・・が読み間違い単語として生成される。なお、各単漢字の読みの組み合わせにおいて正解の読みとなる組み合わせは、読み間違い単語から除外する。
また、読み間違い単語リスト生成装置50では、単漢字を一要素として読み情報を取得する場合について説明するが、単漢字分解以外の手法を用いて読み間違い単語リストを生成してもよい。例えば、形態素解析により分解された各形態素を一要素として、各要素の読み情報を取得して、単漢字毎の読み情報に追加してもよい。例えば、形態素を一要素とすると、
・伊丹市→伊丹(イタミ)/市(シ)
の「伊丹」のように複数の単漢字で固有の読み方をする場合にも対応できるようになり、単漢字の読みのみでは生成することができない読み間違い単語を生成することができる。
単語類推部13は、具体的には、音声認識部11の音声認識結果や不明瞭単語推定部12の形態素解析結果から不明瞭単語の読みを取得する。そして、上記のように生成された読み間違い単語リスト15から不明瞭単語の読みに一致する読み間違い単語を検索し、その読み間違い単語に対応付けられた正解単語を抽出する。
出力部14は、音声認識結果内の不明瞭単語に、単語類推部13で類推された正解単語の情報を付与した出力データを生成して出力する。例えば、「吹田市の観光案内」をユーザが言い間違えて「ふきたしの観光案内」と発声し、「吹き出しの観光案内」と音声認識された場合において、不明瞭単語「吹き出し」の正解単語が「吹田市」と類推されたとする。この場合、「吹き出し(正解:吹田市)の観光案内」のような出力データを生成することができる。また、類推した正解単語で不明瞭単語を置き換えた出力データを生成するようにしてもよい。
発話解析装置10は、例えば図3に示すコンピュータ40で実現することができる。コンピュータ40はCPU42、メモリ44、不揮発性の記憶部46、入出力インターフェース(I/F)47、及びネットワークI/F48を備えている。CPU42、メモリ44、記憶部46、入出力I/F47、及びネットワークI/F48は、バス49を介して互いに接続されている。
記憶部46はHDD(Hard Disk Drive)やフラッシュメモリ等によって実現できる。記録媒体としての記憶部46には、コンピュータ40を発話解析装置10として機能させるための発話解析プログラム70が記憶されている。CPU42は、発話解析プログラム70を記憶部46から読み出してメモリ44に展開し、発話解析プログラム70が有するプロセスを順次実行する。
発話解析プログラム70は、音声認識プロセス71、不明瞭単語推定プロセス72、単語類推プロセス73、及び出力プロセス74を有する。
CPU42は、音声認識プロセス71を実行することで、図1に示す音声認識部11として動作する。また、CPU42は、不明瞭単語推定プロセス72を実行することで、図1に示す不明瞭単語推定部12として動作する。また、CPU42は、単語類推プロセス73を実行することで、図1に示す単語類推部13として動作する。また、CPU42は、出力プロセス74を実行することで、図1に示す出力部14として動作する。これにより、発話解析プログラム70を実行したコンピュータ40が、発話解析装置10として機能することになる。
なお、発話解析装置10は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
次に、第1実施形態に係る発話解析装置10の作用について説明する。まず、読み間違い単語リスト生成装置50により、図4に示す読み間違い単語リスト生成処理が実行される。読み間違い単語リスト15が生成された状態で、発話解析装置10に音声データが入力されると、CPU42が、記憶部46に記憶された発話解析プログラム70をメモリ44に展開して、図6に示す発話解析処理を実行する。以下、各処理について詳述する。
図4に示す読み間違い単語リスト生成処理のステップ501で、単漢字分解部51が、単語リスト16に登録された単語を1つずつ入力として受け付ける。次に、ステップ502で、単漢字分解部51が、上記ステップ501で受け付けた単語を、形態素解析や文字解析などの公知の技術を用いて単漢字に分解する。
次に、ステップ503で、読み情報取得部53が、単漢字分解部51で分解された各単漢字について、ステップ504のループ処理を実行する。ステップ504では、読み情報取得部53が、例えば漢字辞書の読み情報を参照して、単漢字毎に読み情報を取得する。 次に、ステップ505で、読み間違い単語生成部54が、上記ステップ504で取得された各単漢字の読みの各々の組み合わせを読み間違い単語として生成する。そして、入力された単語を正解単語として対応付けて読み間違い単語リスト15に登録して、読み間違い単語リスト生成処理を終了する。
上記の読み間違い単語リスト生成処理を、単語リスト16に登録されている単語の全てについて実行する。なお、単漢字の読みがそれぞれ1種類しか存在しない場合、すなわち読みの組み合わせが1種類しか存在しない場合には、上記処理を途中で終了してもよい。
また、読みの組み合わせを他の正解単語の結果で流用できる場合は、流用してもよい。例えば、図5に、単漢字の読みが共通する部分を統合した木構造で読み間違いリストを生成した例を示す。図5の例では、「津市」の読みに「大」の読みである「オオ、ダイ」を組み合わせることにより、「大津市」の読み間違い単語が生成されている。この場合、読み間違い単語リストが統合されているため、読み間違い単語リストのサイズを小さくすることができる。
また、上記の読み間違い単語リスト生成処理では、読み間違い単語リストに登録する読み間違い単語が「読み」である場合について説明したが、読みの組み合わせから生成された単語を、一般的なカナ漢字変換技術などを用いて漢字に変換して登録してもよい。この場合、単語類推部13で読み間違い単語リストを参照する際、不明瞭単語の読みを取得する必要がない。
次に、図6に示す発話解析処理のステップ100で、音声認識部11が、入力された音声データに対して音声認識処理を行い、音声認識結果を出力する。次に、ステップ200で、不明瞭単語推定部12が、後述する不明瞭単語推定処理を実行して不明瞭単語を推定する。次に、ステップ300で、単語類推部13が、後述する単語類推処理を実行して、不明瞭単語に対する正解単語を類推する。次に、ステップ400で、出力部14が、後述する出力処理を実行して、ユーザの発話を解析した出力データを出力する。
ここで、図7を参照して、不明瞭単語推定部12により実行される不明瞭単語推定処理について説明する。ステップ201で、上記ステップ100で出力された音声認識結果を受け付け、次に、ステップ202で、受け付けた音声認識結果を形態素解析して、単語毎に分割すると共に、読みや品詞等の必要な情報を付与する。次に、ステップ203で、上記ステップ202の形態素解析結果及び予め定めたルールに従って、ユーザの言い間違いにより不明瞭となっている不明瞭単語を推定して、発話解析処理にリターンする。
次に、図8を参照して、単語類推部13により実行される単語類推処理について説明する。ステップ301で、上記ステップ203で推定された不明瞭単語を受け付けて、音声認識結果や形態素解析結果から不明瞭単語の読みを取得する。次に、ステップ302で、読み間違い単語リスト生成装置50により生成された読み間違い単語リスト15から不明瞭単語の読みに一致する読み間違い単語を検索し、その読み間違い単語に対応付けられた正解単語を抽出して、発話解析処理にリターンする。
次に、図9を参照して、出力部14により実行される出力処理について説明する。ステップ401で、上記ステップ100の音声認識結果、及び上記ステップ302で類推された正解単語を受け付け、音声認識結果内の不明瞭単語に、正解単語の情報を付与した出力データを生成して出力し、発話解析処理にリターンする。
以上説明したように、第1実施形態に係る発話解析装置10によれば、予め生成した読み間違い単語リストを参照して、音声認識結果内の不明瞭単語と読み間違い単語との類似性から正解単語を類推する。このため、音声認識結果にユーザの読み間違いなどによる不明瞭な単語が含まれる場合でも、ユーザの発話を適切に理解することができる。
開示の技術の発話解析装置により解析されたユーザの発話は、後述する第2及び第3実施形態に係る音声対話制御装置のような音声対話システムに適用することができる。また、ユーザの発話をログとして記録しておくような記録制御装置にも適用することができる。
〔第2実施形態〕
次に、第2実施形態について説明する。第2実施形態では、図10に示すような音声対話システム2で用いられる音声対話制御装置20について説明する。
音声対話システム2は、図10に示すように、音声対話制御装置20と、携帯電話等のユーザ端末90とを備えている。音声対話制御装置20とユーザ端末90とはネットワーク等で接続されている。
ユーザ端末90は、マイクなどの入力装置、及びスピーカや表示装置等の出力装置を備えている。ユーザがマイクに向かって発声すると、ユーザ端末90では、発話を音声データ化し、音声対話制御装置20に送信する。音声対話制御装置20では、音声認識技術を用いて発話を認識し、対話制御により発話を解析し、必要に応じて外部サービスやWeb情報へアクセスし、ユーザの発話に対する応答文を作成する。応答文はテキストデータまたは音声合成技術を用いて音声データ化した出力データとしてユーザ端末90へ送信する。ユーザ端末90では、送信された出力データを受信して、テキストデータを表示装置へ表示したり、スピーカから音声データに基づく音声を再生したりする。
例えば、ユーザが「今日のニュースを教えて」と発声すると、ユーザ端末90から音声対話制御装置20へ、ユーザの発話を示す音声データが送信される。音声対話制御装置20は、受信した音声データを音声認識し、ユーザの発話を解析し、ユーザが「知りたい情報:ニュース」、「日時:今日」を要求していることを理解する。音声対話制御装置20は、理解したユーザの発話に応答するために、外部サービスやWeb情報を検索して、検索結果として今日のニュースを取得する。音声対話制御装置20では、取得した情報に基づいて出力データ(テキストデータまたは音声データ)を生成し、ユーザ端末90へ送信する。ユーザ端末90では、受信した出力データに基づいて、今日のニュースを出力装置から出力する。なお、ユーザ端末90には、図11に示すように、出力データの表示領域91や、音声入力、音声巻き戻し、音声停止、音声早送りなどのメニュー92を追加することで、音声によるWebブラウザのような機能も利用可能となる。
音声対話制御装置20は、図12に示すように、音声認識部11、意図推定部22、単語類推部23、及び出力部24を備えている。意図推定部22は、開示の技術の不明瞭単語推定部の一例である。なお、第1実施形態に係る発話解析装置10と同一の部分については、同一符号を付して詳細な説明を省略する。
意図推定部22は、音声認識部11から出力された音声認識結果から対話の応答に必要な情報を抽出する。具体的には、意図推定部22は、音声認識部11から出力された音声認識結果を形態素解析して単語毎に分割すると共に、読みや品詞等の必要な情報を付与する。
また、意図推定部22は、分割した各単語から対話の応答に必要なアクション及びパラメータを推定する。アクションとは、ユーザの発話に対して、音声対話制御装置20がどのような応答を行うかを定義したものである。例えば、「最新ニュースを取得」、「観光案内情報を取得」等がアクションである。また、パラメータとは、アクションの詳細情報を限定する情報であり、例えば、場所や日時等の情報である。
アクション及びパラメータの推定には、例えば、図13に示すようなアクション、対応する単語、及びパラメータの属性を定めたテーブルを参照して行う。より具体的には、図13に示すテーブルの「対応する単語」列の単語または単語列と、音声認識結果に含まれる単語または単語列とが一致する行の「アクション」を、本対話のアクションとして推定する。また、音声認識結果において、アクションを推定する際に用いられた単語または単語列との係り受け関係や単語間距離から、パラメータとなる単語を推定する。
例えば、図14に示すように、音声認識結果が「吹き出しの観光案内」であった場合、意図推定部22は、音声認識結果を「吹き出し/の/観光/案内」のように形態素解析し、単語毎に分割する。この場合、音声認識結果に「観光案内」という単語列が含まれているため、「観光案内」に対応するアクションとして、「観光案内情報を取得する」が推定される。また、音声認識結果内の「観光案内」との関係から「吹き出し」がパラメータとして推定される。
さらに、意図推定部22は、推定したアクション及びパラメータに基づいて、不明瞭単語を推定する。具体的には、例えば図13に示すように、アクションに対して取り得るパラメータの属性を定めておき、推定したパラメータが、予め定められたパラメータの属性に該当するか否かを判定する。推定したパラメータがアクションに対するパラメータの属性に該当しない場合には、そのパラメータとして推定された単語を不明瞭単語として推定する。例えば、図14の例では、アクション「観光案内情報を取得する」のパラメータの属性は「地名、駅名など」であるが、推定したパラメータ「吹き出し」は、地名や駅名に該当しないため、「吹き出し」が不明瞭単語として推定される。
単語類推部23は、さらに、表記の類似性判定部23a、発音の類似性判定部23b、読み間違い類似性判定部23c、及び統合判定部23dを備えている。
表記の類似性判定部23aは、意図推定部22で推定された不明瞭単語に対して、単語リスト16に登録された単語との表記の類似性から、正解単語を類推するためのスコアを算出する。表記の類似性の判定は、一般的な文字解析技術を用いた表記のマッチング処理により行うことができる。なお、マッチング処理において、比較する文字列長が異なる場合、文字長を伸縮させて比較を行う動的計画法マッチング(DPマッチング法)を利用してもよい。このマッチング処理結果に基づくスコアを、単語リスト16に登録された単語毎に算出する。ここで言うスコアとは、「表記的にどこまで似ているか」の信頼度を示す値であり、例えば「一致した表記文字数/不明瞭単語の表記文字数」として算出することができる。例えば、不明瞭単語「吹き出し」と単語リスト16内の単語「吹田市」とのマッチング処理を行うと、「吹」の文字が一致するため、一致した表記文字数は1、不明瞭単語の表記文字数は「吹き出し」の4となり、スコアは1/4=0.25と算出することができる。また、表記の類似性判定部23aは、算出したスコアが所定の閾値TH1(例えば、TH1=0)以上となる単語を候補単語とし、その候補単語のスコアとペアにして出力する。
発音の類似性判定部23bは、意図推定部22で推定された不明瞭単語に対して、単語/発音リスト17に登録された単語との発音の類似性から、正解単語を類推するためのスコアを算出する。単語/発音リスト17は、単語とその単語の発音を示す発音記号(例えば読み仮名)とを対応付けて登録したものである。
具体的には、発音の類似性判定部23bは、音声認識部11による音声認識結果や意図推定部22による形態素解析結果から、不明瞭単語の発音を示す発音記号を取得する。発音の類似性の判定は、単語/発音リスト17を参照する点、及び表記ではなく発音記号を用いる点を除いて、表記の類似性の判定と同様である。マッチング処理結果に基づくスコアを、単語/発音リスト17に登録された単語毎に算出する。ここで言うスコアとは、「発音的にどこまで似ているか」の信頼度を示す値であり、例えば「一致した発音数/不明瞭単語の発音数」として算出することができる。発音の場合、清音と濁音及び半濁音との相違は微小であるため、清音か濁音または半濁音かの相違の場合には、一致数を0.5としてカウントしてもよい。例えば、不明瞭単語の発音「フキダシ」と単語「秋田市」の発音「アキタシ」とを比較すると、一致または一致とみなせる発音は「ダ」と「タ」、「シ」と「シ」なので一致した発音数は1.5となる。また、不明瞭単語の発音数は「フキダシ」の4であり、スコアは1.5/4=0.375と算出することができる。また、発音の類似性判定部23bは、算出したスコアが所定の閾値TH2(例えば、TH2=0)以上となる単語を候補単語とし、その候補単語のスコアとペアにして出力する。
読み間違い類似性判定部23cは、意図推定部22で推定された不明瞭単語に対して、読み間違い単語リスト15に登録された単語との読み間違いに基づく類似性から、正解単語を類推するためのスコアを算出する。読み間違いに基づく類似性の判定は、第1実施形態の単語類推部13における正解単語の類推方法と同様である。ここで言うスコアとは、「不明瞭単語が読み間違い単語とどこまで似ているか」を示す値であり、表記の類似性のスコア及び発音の類似性のスコアと揃えるため、スコアは0または1とする。例えば、「吹田市」の読み間違い単語として「吹き出し」が読み間違い単語リスト15に登録されている場合、不明瞭単語「吹き出し」に対する「吹田市」のスコアは1となる。また、読み間違い類似性判定部23cは、算出したスコアが1となる単語を候補単語とし、その候補単語のスコアとペアにして出力する。
なお、第2実施形態で用いる読み間違い単語リスト15は、図12に示す読み間違い単語リスト生成装置60により生成される。読み間違い単語リスト生成装置60は、第1実施形態で説明した読み間違い単語リスト生成装置50に表記類似単語取得部62を加えて構成されている。読み間違い単語リスト生成装置60について、読み間違い単語リスト生成装置50と異なる部分について説明する。
表記類似単語取得部62は、単漢字分解部51で分解された各単漢字について、表記が類似する単語を取得する。例えば、単語リスト16から読み間違い単語リスト生成装置60に単語「萩市」が入力されると、単漢字分解により「萩」及び「市」に分解される。表記類似単語取得部62では、「萩」に表記が類似している「荻」を取得する。
表記が類似している単語の取得は、例えば図15に示すように、事前に2つの同サイズの単漢字間の文字画像を示す基本画像と比較画像とのテンプレートマッチングによりマッチングスコアを算出しておく。このマッチングスコアが閾値TH3以上となる場合に、比較画像が示す単漢字を基本画像が示す単漢字の類似単漢字として類似単漢字リストに定めておく。この類似単漢字リストに定められた類似単漢字を表示が類似している単語として取得する。マッチングスコアRは、例えば、下記(1)式により算出することができる。
ここで、Aは基本画像の画像ベクトル、Bは比較画像の画像ベクトルとする。例えば、基本画像と比較画像とが同じサイズ(横xピクセル、縦yピクセル)であれば画像ベクトルはxy次元のベクトルとなる。黒画素の値を1、白画素の値を0と設定すれば、マッチングスコアRは0から1の値(高い値ほど類似している)となる。
読み情報取得部63は、単漢字及び表記類似単語取得部62で取得された類似単漢字の各々の読み情報を取得する。読み情報の取得方法は、第1実施形態における読み情報取得部53と同様である。
読み間違い単語生成部64は、第1実施形態における読み間違い単語生成部54と同様に、各単漢字の読みの組み合わせから読み間違い単語を生成する。この際、図16に示すように、各単漢字の類似単漢字の読みも含めた全ての組み合わせについて読み間違い単語を生成する。例えば、図16に示すように、「萩」の類似単漢字である「荻」の読みを用いた「オギシ」も、「萩市」の読み間違い単語として生成されることになる。
統合判定部23dは、表記の類似性判定部23a、発音の類似性判定部23b、及び読み間違い類似性判定部23cで算出されたスコアに基づいて、正解単語を類推する。具体的には、同一の候補単語についての各スコアから、統合スコアを算出する。統合スコアは、各スコアの合計でもよいし、乗算や対数和であってもよい。さらには、下記(2)式に示すように、各スコアに重みをつけて求めてもよい。
S=w0*A+w1*B+w2*C (2)
ここで、A、B、及びCは、表記の類似性のスコア、発音の類似性のスコア、及び読み間違い類似性のスコアであり、w0、w1、w2は、各スコアに対する重みである。一般的に、ユーザが単語を読み間違えた場合、音声認識結果は読み間違えを元に認識結果を出力するため、表記が大きく異なる場合がある。したがって、w0=0.2、w1=0.3、w2=0.5のように各類似性に合わせて各スコアの重みを設定してもよい。
統合判定部23dは、算出した統合スコアの高い順に候補単語をソートして、正解単語として出力する。大量の正解単語を出力しないように、統合スコアが閾値TH4(例えば、TH4=0.5)以上の候補単語を正解単語として出力したり、統合スコアの上位最大N件(例えばN=5)の候補単語を正解単語として出力したりしてもよい。
出力部24は、意図推定部22で推定されたアクション及びパラメータに基づいて、アクションを実行する。この際、推定されたパラメータが不明瞭単語であった場合には、不明瞭単語を単語類推部23で類推された正解単語に置き換えた上で、アクションを実行する。アクション及びパラメータが複数存在する場合、一つのアクションを選択して実行してもよいし、複数のアクションを選択して実行してもよい。出力部24は、アクションの実行により得られた情報に基づいて、応答文(テキストデータ)を生成する。なお、アクション及びパラメータが複数存在する場合には、アクションを実行する前に、「実行するアクションを次の中から選択してください」のような応答文を生成してもよい。
また、出力部24は、生成した応答文の出力形態が表示装置への表示か、スピーカからの音声再生かを設定に基づいて判定する。表示装置への表示の場合には、生成した応答文を表示形式に対応した形式の出力データに変換して、ユーザ端末90へ送信する。音声再生の場合には、一般的な音声合成処理により、テキストデータを音声データに変換して、ユーザ端末90へ送信する。
音声対話制御装置20は、第1実施形態の発話解析装置10と同様に、例えば図3に示すコンピュータ40で実現することができる。コンピュータ40の記憶部46には、コンピュータ40を音声対話制御装置20として機能させるための音声対話制御プログラム80が記憶されている。CPU42は、音声対話制御プログラム80を記憶部46から読み出してメモリ44に展開し、音声対話制御プログラム80が有するプロセスを順次実行する。
音声対話制御プログラム80は、音声認識プロセス71、意図推定プロセス82、単語類推プロセス83、及び出力プロセス84を有する。
CPU42は、音声認識プロセス71を実行することで、図12に示す音声認識部11として動作する。また、CPU42は、意図推定プロセス82を実行することで、図12に示す意図推定部22として動作する。また、CPU42は、単語類推プロセス83を実行することで、図12に示す単語類推部23として動作する。また、CPU42は、出力プロセス84を実行することで、図12に示す出力部24として動作する。これにより、音声対話制御プログラム80を実行したコンピュータ40が、音声対話制御装置20として機能することになる。
なお、音声対話制御装置20は、例えば半導体集積回路、より詳しくはASIC等で実現することも可能である。
次に、第2実施形態に係る音声対話制御装置20の作用について説明する。まず、読み間違い単語リスト生成装置60により、図17に示す読み間違い単語リスト生成処理が実行される。読み間違い単語リスト15が生成された状態で、音声対話制御装置20に音声データが入力されると、CPU42が、記憶部46に記憶された音声対話制御プログラム80をメモリ44に展開して、図6に示す音声対話制御処理を実行する。以下、各処理について詳述する。なお、各処理において、第1実施形態における読み間違い単語リスト生成処理及び発話解析処理と同様のステップについては、同一符号を付して詳細な説明を省略する。
図17に示す読み間違い単語リスト生成処理は、第1実施形態における読み間違い単語リスト生成処理のステップ503のループ処理内に、ステップ524が追加されている。ステップ524では、表記類似単語取得部62が、事前に単漢字の文字画像間のテンプレートマッチングに基づくマッチングスコアにより定められた類似単漢字リストを参照して、ステップ503のループ処理の対象の単漢字と表記が類似する類似単漢字を取得する。次に、ステップ504では、単漢字の読み情報、及び類似単漢字の読み情報を取得し、以下、第1実施形態における読み間違い単語リスト生成処理と同様に処理して、読み間違い単語リスト15を生成する。
次に、図6に示す音声対話制御処理のステップ100で、音声認識部11が、入力された音声データに対して音声認識処理を行い、音声認識結果を出力する。次に、ステップ200で、意図推定部22が、後述する意図推定処理を実行してアクション及びパラメータを推定すると共に、不明瞭単語を推定する。次に、ステップ300で、単語類推部23が、後述する単語類推処理を実行して、不明瞭単語に対する正解単語を類推する。次に、ステップ400で、出力部24が、後述する出力処理を実行して、ユーザの発話に対する応答を示す出力データを出力する。
ここで、図18を参照して、意図推定部22により実行される意図推定処理について説明する。ステップ201で、上記ステップ100で出力された音声認識結果を受け付け、次に、ステップ202で、受け付けた音声認識結果を形態素解析する。次に、ステップ223で、上記ステップ202の形態素解析により分割された各単語から対話の応答に必要なアクション及びパラメータを推定する。次に、ステップ224で、上記ステップ223で推定したアクション及びパラメータに基づいて、不明瞭単語を推定して、音声対話制御処理にリターンする。
次に、図19を参照して、単語類推部23により実行される単語類推処理について説明する。ステップ321で、上記ステップ224で推定された不明瞭単語を受け付ける。次に、ステップ322で、表記の類似性判定部23aが、単語リスト16に登録されている全ての単語についてチェックが終了したか否かを判定する。未チェックの単語が存在する場合には、ステップ323へ移行し、単語リスト16から新たな単語を取得して、不明瞭単語とのマッチング処理により、表記の類似性のスコアを算出する。次に、ステップ324で、表記の類似性のスコアが閾値TH1以上であれば、その単語を候補単語に追加して、ステップ322へ戻る。単語リスト16に登録された全ての単語のチェックが終了すると、ステップ325へ移行する。
ステップ325では、発音の類似性判定部23bが、単語/発音リスト17に登録されている全ての単語についてチェックが終了したか否かを判定する。未チェックの単語が存在する場合には、ステップ326へ移行し、単語/発音リスト17から新たな単語の発音記号を取得する。また、音声認識結果や形態素解析結果から不明瞭単語の発音記号を取得して、単語/発音リスト17の単語の発音記号とのマッチング処理により、発音の類似性のスコアを算出する。次に、ステップ327で、発音の類似性のスコアが閾値TH2以上であれば、その単語を候補単語に追加して、ステップ325へ戻る。単語/発音リスト17に登録された全ての単語のチェックが終了すると、ステップ328へ移行する。
ステップ328では、読み間違い類似性判定部23cが、読み間違い単語リスト15に登録されている全ての単語についてチェックが終了したか否かを判定する。未チェックの単語が存在する場合には、ステップ329へ移行し、読み間違い単語リスト15から新たな単語を取得し、不明瞭単語と一致するか否かを示す読み間違いのスコア(一致:1、不一致:0)を算出する。次に、ステップ330で、読み間違い類似性のスコアが1であれば、その単語を候補単語に追加して、ステップ328へ戻る。読み間違い単語リスト15に登録された全ての単語のチェックが終了すると、ステップ331へ移行する。
ステップ331では、統合判定部23dが、同一の候補単語についての各スコアから、統合スコアを算出する。次に、ステップ332で、統合判定部23dが、上記ステップ331で算出した統合スコアの高い順に候補単語をソートして出力して、音声対話制御処理にリターンする。
次に、図20を参照して、出力部24により実行される出力処理について説明する。ステップ421で、上記ステップ223で推定されたアクション及びパラメータ、並びに上記ステップ332で出力された正解単語を受け付ける。次に、ステップ422で、推定されたパラメータが不明瞭単語であった場合には、不明瞭単語を正解単語に置き換えた上で、アクションを実行する。次に、ステップ423で、アクションの実行により得られた情報に基づいて、応答文(テキストデータ)を生成する。
次に、ステップ424で、ユーザ端末90への出力形態が表示形式か音声再生かを判定する。表示装置への表示の場合には、ステップ425へ移行し、生成した応答文を表示形式に対応した形式の出力データに変換する。音声再生の場合には、ステップ426へ移行し、一般的な音声合成処理により、テキストデータを音声データである出力データに変換する。次に、ステップ427で、上記ステップ425または426で変換された出力データを、ユーザ端末90へ送信する。
以上説明したように、第2実施形態に係る音声対話制御装置20によれば、表記の類似性及び発音の類似性も用いて正解単語を類推する。また、表記が類似する単漢字の読みも含めて生成した読み間違い単語リストを用いる。これにより、第1実施形態の場合と比較して、不明瞭単語に対する正解単語をより広い範囲で類推することができる。
なお、第2実施形態では、表記の類似性、発音の類似性、及び読み間違い類似性の全てを統合して正解単語を類推する場合について説明したが、少なくとも読み間違い類似性を用いればよく、表記の類似性及び発音の類似性はいずれか一方のみを用いてもよい。
〔第3実施形態〕
次に、第3実施形態について説明する。第3実施形態では、第2実施形態と同様に、図10に示すような音声対話システム2で用いられる音声対話制御装置30について説明する。
音声対話制御装置30は、図21に示すように、音声認識部11、意図推定部22、単語類推部33、及び出力部34を備えている。なお、第1実施形態に係る発話解析装置10、及び第2実施形態に係る音声対話制御装置20と同一の部分については、同一符号を付して詳細な説明を省略する。
単語類推部33は、さらに、表記の類似性判定部23a、発音の類似性判定部23b、読み間違い類似性判定部23c、統合判定部23d、及び補助情報付加部33eを備えている。
補助情報付加部33eは、統合判定部23dから出力された正解単語の候補をユーザに提示する際に、補助情報リスト18を参照して抽出した補助情報を正解単語の候補に付加する。
補助情報とは、単語が示す内容の理解を補助するための情報であり、予め単語と補助情報とを対応付けて補助情報リスト18として記憶しておく。補助情報は、例えば、単語が示す内容の属性に従って単語を体系付けた木構造を利用して抽出することができる。この場合、この木構造が補助情報リスト18となる。具体的には、利用する木構造に含まれる単語が正解単語の候補として類推された場合には、木構造におけるその単語の親要素を補助情報とすることができる。
より具体的に、住所の木構造を利用する場合について説明する。図22に、住所の木構造の一部を示す。この住所の木構造は、上位階層から順に、「都道府県名」、「市区名」、及び「町名」に対応する単語が体系付けられている。例えば、「川崎市」が正解単語の候補として類推された場合には、「市区名」である「川崎市」の親要素は、「都道府県名」である「神奈川県」であるため、「川崎市」の補助情報は「神奈川県」となる。同様に、「吹田市」の補助情報は「大阪府」となる。また、図23に、所属の木構造の一部を示す。この所属の木構造は、上位階層から順に、「会社名」、「部署名」、及び「社員名」に対応する単語が体系付けられている。例えば、「山田太郎」が正解単語の候補として類推された場合には、「社員名」である「山田太郎」の親要素は、「部署名」である「総務部」であるため、「山田太郎」の補助情報は「総務部」となる。同様に、「山田次郎」の補助情報は「営業部」となる。
このような補助情報を正解単語の候補に付加することにより、ユーザはシステムからの応答を理解し易くなるが、補助情報を付加し過ぎてしまうと、応答が冗長になってしまう。そこで、補助情報付加部33eは、補助情報を付加するか否かを判定した上で、付加すると判定した場合に、補助情報を付加する。
例えば、補助情報付加部33eは、統合判定部23dで算出された統合スコアが所定範囲内の正解単語の候補が所定個以上存在する場合に、補助情報を付加すると判定することができる。これは、出力部34で複数の候補が選択される場合を想定した処理である。
また、補助情報付加部33eは、統合判定部23dで算出された統合スコアが所定の閾値TH5より低い場合に、補助情報を付加すると判定することができる。統合スコアが低い場合、そもそも類推した正解単語の信頼性が低いため、補助情報を付加する必要がある。
また、補助情報付加部33eは、表記の類似性のスコア及び発音の類似性のスコアが高い場合には、補助情報を付加せず、低い場合に補助情報を付加すると判定することができる。この場合の判定には、例えば、表記の類似性のスコアA、発音の類似性のスコアB、読み間違い類似性のスコアC、及び所定の閾値TH6を用いた下記(3)式の条件式を用いることができる。
A+B>TH6*C (3)
表記の類似性のスコア及び発音の類似性のスコアを算出する際のマッチング方法によれば、表記の類似性のスコア及び発音の類似性のスコアが高い場合には、不明瞭単語と推定された単語の間違いは軽微なものである可能性が高い。このため、補助情報を付加する必要はないと判定することができる。
補助情報付加部33eは、上記のような判定基準を各々用いたり、組み合わせて用いたりして、補助情報を付加するか否かを判定する。
出力部34は、実行するアクションを確認する応答文、すなわち、実行するアクションに対するパラメータが、単語類推部33で類推された正解単語の候補か否かを問う応答文を生成する。この際、補助情報付加部33eにより補助情報が付加されている場合には、補助情報を付加した応答文を生成する。例えば、「実行するアクションは大阪府吹田市の観光案内ですか?」のような応答文を生成する。また、出力部34は、第2実施形態の出力部24と同様に、ユーザ端末90における出力データの出力形態が表示形式か音声再生かに基づいて応答文を変換した出力データを、ユーザ端末90へ送信する。
さらに、出力部34は、実行するアクションを確認する応答文に対するユーザの回答を受信する。受信した回答に基づいてアクションを実行し、アクションの実行結果に基づく応答文を生成し、第2実施形態の出力部24と同様に、ユーザ端末90に送信する。
音声対話制御装置30は、第2実施形態に係る音声対話制御装置20と同様に、例えば図3に示すコンピュータ40で実現することができる。コンピュータ40の記憶部46には、コンピュータ40を音声対話制御装置30として機能させるための音声対話制御プログラム80が記憶されている。CPU42は、音声対話制御プログラム80を記憶部46から読み出してメモリ44に展開し、音声対話制御プログラム80が有するプロセスを順次実行する。これにより、音声対話制御プログラム80を実行したコンピュータ40が、音声対話制御装置30として機能することになる。
なお、音声対話制御装置30は、例えば半導体集積回路、より詳しくはASIC等で実現することも可能である。
次に、第3実施形態に係る音声対話制御装置30の作用について説明する。まず、読み間違い単語リスト生成装置60により、図17に示す読み間違い単語リスト生成処理が実行される。読み間違い単語リスト15が生成された状態で、音声対話制御装置30に音声データが入力されると、CPU42が、記憶部46に記憶された音声対話制御プログラム80をメモリ44に展開して、図6に示す音声対話制御処理を実行する。以下、各処理について詳述する。なお、各処理において、第1実施形態における読み間違い単語リスト生成処理及び発話解析処理、並びに第2実施形態における読み間違い単語リスト生成処理及び音声対話制御処理と同様のステップについては、同一符号を付して詳細な説明を省略する。
図24に示す単語類推処理では、第2実施形態における単語類推処理のステップ332の後に、ステップ336が追加されている。ステップ336では、補助情報付加部33eにより、図25に示す補助情報付加処理が実行される。
図25に示す補助情報付加処理のステップ3361で、上記ステップ335で出力された正解単語の候補のうち、未チェックの候補が存在するか否かを判定する。未チェックの候補が存在する場合には、ステップ3362へ移行し、未チェックの候補から新たな候補を取得する。次に、ステップ3363で、統合スコアが所定範囲内の正解単語の候補が所定個以上存在するか否か、すなわち統合スコアが近い候補が複数存在するか否かを判定する。存在する場合には、ステップ3366へ移行し、存在しない場合には、ステップ3364へ移行する。
ステップ3364では、統合スコアが所定の閾値TH5より低いか否かを判定する。統合スコア<TH5の場合には、ステップ3366へ移行し、統合スコア≧TH5の場合には、ステップ3365へ移行する。ステップ3365では、表記の類似性のスコア及び発音の類似性のスコアが高いか否かを、例えば(3)式に示す条件式により判定する。表記の類似性のスコア及び発音の類似性のスコアが高い場合には、ステップ3366へ移行し、低い場合には、処理中の候補に補助情報を付加することなく、ステップ3361へ戻る。
一方、ステップ3366では、補助情報リスト18を参照して補助情報を抽出し、処理中の候補に付加する。全ての候補についてチェックが終了した場合には、単語類推処理へリターンする。
次に、図26を参照して、出力部34により実行される出力処理について説明する。ステップ431で、上記ステップ223で推定されたアクション及びパラメータ、並びに上記ステップ336で補助情報付加処理が施された正解単語の候補を受け付ける。
次に、ステップ432で、上記ステップ431で受け付けた正解単語の候補を用いて、実行するアクションを確認する応答文を生成し、ユーザ端末90に送信する。
次に、ステップ434で、上記ステップ432で送信した応答文に対するユーザの回答を受信したか否かを判定する。受信していない場合には受信するまで本ステップの判定を繰り返し、受信した場合には、ステップ435へ移行し、受信した回答に基づいてアクションを実行する。以降、第2実施形態の出力処理と同様に、アクションの実行結果に基づく応答文を生成して、ユーザ端末90に送信する。
以上説明したように、第3実施形態に係る音声対話制御装置30によれば、正解単語の各候補について、統合スコア及び各類似性のスコアに基づいて補助情報を付加するか否かを判定する。これにより、必要に応じて補助情報が付加された候補をユーザに提示することができるため、ユーザが対話をより理解し易くなる。
なお、第2及び第3実施形態では、音声対話システムにおいて、ユーザ端末との間で音声対話制御を行う音声対話制御装置について説明したが、ユーザ端末及び音声対話制御装置双方の機能を備えた単体の装置として音声対話制御装置を構成してもよい。
また、一般的な音声認識を行う音声認識装置を別途設け、開示の技術の発話解析装置または音声対話制御装置において、音声認識装置により音声認識された認識結果を入力として受け付けるようにしてもよい。この場合、発話解析装置及び音声対話制御装置の音声認識部11を省略することができる。
また、開示の技術の発話解析装置及び音声対話制御装置は、読み間違い単語リスト生成装置の各機能部を含んで構成してもよい。
なお、上記では開示の技術における発話解析プログラムの一例である発話解析プログラム70、及び開示の技術の音声対話制御プログラムの一例である音声対話制御プログラム80が記憶部46に予め記憶(インストール)されている態様を説明した。しかし、開示の技術における発話解析プログラム及び音声対話制御プログラムは、CD−ROMやDVD−ROM等の記録媒体に記録されている形態で提供することも可能である。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定する不明瞭単語推定部と、前記不明瞭単語推定部により推定された不明瞭単語と、漢字を含む単語を1文字毎または形態素毎に分解した要素を含む要素群に含まれる要素毎の読みを各々組み合わせて生成した前記漢字を含む単語に対する読み間違い単語との類似性に基づいて、前記不明瞭単語に類似する読み間違い単語に対する前記漢字を含む単語を、前記ユーザの意図に沿った正解単語として類推する単語類推部と、前記認識結果及び前記不明瞭単語に対する正解単語に基づいた出力データを出力する出力部と、を含む発話解析装置。
(付記2)
前記単語類推部は、複数の前記漢字を含む単語の各々について少なくとも1つの読み間違い単語を対応付けた読み間違い単語リストに登録された複数の読み間違い単語のうち、前記不明瞭単語とのマッチング度が所定のマッチング閾値以上となる読み間違い単語を、前記不明瞭単語に類似する読み間違い単語とする付記1記載の発話解析装置。
(付記3)
前記要素群は、前記漢字を含む単語を分解した要素、及び前記漢字を含む単語を分解した要素と表記が類似する要素を含む付記1または付記2記載の発話解析装置。
(付記4)
前記単語類推部は、前記不明瞭単語の読みと前記読み間違い単語の読みとのマッチング度を求めるか、または前記不明瞭単語と前記読み間違い単語をカナ漢字変換した単語とのマッチング度を求める付記2または付記3記載の発話解析装置。
(付記5)
前記単語類推部は、前記読み間違い単語との類似性と、前記不明瞭単語と複数の単語の各々との表記の類似性、及び前記不明瞭単語と複数の単語の各々との発音の類似性の少なくとも一方とに基づいて、前記正解単語を類推する付記1〜付記4のいずれかに1つに記載の発話解析装置。
(付記6)
前記出力部は、前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記認識結果内の前記不明瞭単語に前記正解単語の情報を付与した出力データ、または、前記認識結果内の前記不明瞭単語を前記正解単語に置き換えた出力データを出力する付記1〜付記5のいずれか1つに記載の発話解析装置。
(付記7)
付記1〜付記5のいずれか1つに記載の発話解析装置を含み、前記出力部は、前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記ユーザの発話の意図に応じた応答を示す出力データを生成して出力する音声対話制御装置。
(付記8)
前記単語類推部は、前記不明瞭単語と前記読み間違い単語との類似性に基づいて、前記不明瞭単語に対する正解単語の候補を類推し、前記正解単語の候補が示す内容の理解を補助するための補助情報を、前記正解単語の候補に付加し、前記出力部は、前記補助情報が付加された前記正解単語の候補に基づいて、前記ユーザの発話の意図を確認するための出力データを生成して出力する付記7載の音声対話制御装置。
(付記9)
前記単語類推部は、前記読み間違い単語との類似性を示すスコアと、前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方とに基づいて、前記正解単語の候補毎の統合スコアを算出し、前記統合スコアが所定範囲内となる候補が所定個以上存在する場合、前記統合スコアが所定の統合スコア閾値以下となる場合、並びに前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方、または前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの合計より前記読み間違い単語との類似性を示すスコアの方が高い場合の少なくとも1つの場合に、前記正解単語の候補に前記補助情報を付加する付記8記載の音声対話制御装置。
(付記10)
ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定し、推定された不明瞭単語と、漢字を含む単語を1文字毎または形態素毎に分解した要素を含む要素群に含まれる要素毎の読みを各々組み合わせて生成した前記漢字を含む単語に対する読み間違い単語との類似性に基づいて、前記不明瞭単語に類似する読み間違い単語に対する前記漢字を含む単語を、前記ユーザの意図に沿った正解単語として類推し、前記認識結果及び前記不明瞭単語に対する正解単語に基づいた出力データを出力することを含む発話解析方法。
(付記11)
複数の前記漢字を含む単語の各々について少なくとも1つの読み間違い単語を対応付けた読み間違い単語リストに登録された複数の読み間違い単語のうち、前記不明瞭単語とのマッチング度が所定のマッチング閾値以上となる読み間違い単語を、前記不明瞭単語に類似する読み間違い単語とする付記10記載の発話解析方法。
(付記12)
前記要素群は、前記漢字を含む単語を分解した要素、及び前記漢字を含む単語を分解した要素と表記が類似する要素を含む付記10または付記11記載の発話解析方法。
(付記13)
前記不明瞭単語と前記読み間違い単語との類似性として、前記不明瞭単語の読みと前記読み間違い単語の読みとのマッチング度を求めるか、または前記不明瞭単語と前記読み間違い単語をカナ漢字変換した単語とのマッチング度を求める付記11または付記12記載の発話解析方法。
(付記14)
前記読み間違い単語との類似性と、前記不明瞭単語と複数の単語の各々との表記の類似性、及び前記不明瞭単語と複数の単語の各々との発音の類似性の少なくとも一方とに基づいて、前記正解単語を類推する付記10〜付記13のいずれかに1つに記載の発話解析方法。
(付記15)
前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記認識結果内の前記不明瞭単語に前記正解単語の情報を付与した出力データ、または、前記認識結果内の前記不明瞭単語を前記正解単語に置き換えた出力データを出力する付記10〜付記14のいずれか1つに記載の発話解析方法。
(付記16)
付記10〜付記15のいずれか1つに記載の発話解析方法の各処理を含み、前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記ユーザの発話の意図に応じた応答を示す出力データを生成して出力することを含む音声対話制御方法。
(付記17)
前記不明瞭単語と前記読み間違い単語との類似性に基づいて、前記不明瞭単語に対する正解単語の候補を類推し、前記正解単語の候補が示す内容の理解を補助するための補助情報を、前記正解単語の候補に付加し、前記補助情報が付加された前記正解単語の候補に基づいて、前記ユーザの発話の意図を確認するための出力データを生成して出力する付記16記載の音声対話制御方法。
(付記18)
前記読み間違い単語との類似性を示すスコアと、前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方とに基づいて、前記正解単語の候補毎の統合スコアを算出し、前記統合スコアが所定範囲内となる候補が所定個以上存在する場合、前記統合スコアが所定の統合スコア閾値以下となる場合、並びに前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方、または前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの合計より前記読み間違い単語との類似性を示すスコアの方が高い場合の少なくとも1つの場合に、前記正解単語の候補に前記補助情報を付加する付記17記載の音声対話制御方法。
(付記19)
コンピュータに、ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定し、推定された不明瞭単語と、漢字を含む単語を1文字毎または形態素毎に分解した要素を含む要素群に含まれる要素毎の読みを各々組み合わせて生成した前記漢字を含む単語に対する読み間違い単語との類似性に基づいて、前記不明瞭単語に類似する読み間違い単語に対する前記漢字を含む単語を、前記ユーザの意図に沿った正解単語として類推し、前記認識結果及び前記不明瞭単語に対する正解単語に基づいた出力データを出力することを含む処理を実行するための発話解析プログラム。
(付記20)
複数の前記漢字を含む単語の各々について少なくとも1つの読み間違い単語を対応付けた読み間違い単語リストに登録された複数の読み間違い単語のうち、前記不明瞭単語とのマッチング度が所定のマッチング閾値以上となる読み間違い単語を、前記不明瞭単語に類似する読み間違い単語とする付記19記載の発話解析プログラム。
(付記21)
前記要素群は、前記漢字を含む単語を分解した要素、及び前記漢字を含む単語を分解した要素と表記が類似する要素を含む付記19または付記20記載の発話解析プログラム。
(付記22)
前記不明瞭単語と前記読み間違い単語との類似性として、前記不明瞭単語の読みと前記読み間違い単語の読みとのマッチング度を求めるか、または前記不明瞭単語と前記読み間違い単語をカナ漢字変換した単語とのマッチング度を求める付記20または付記21記載の発話解析方法。
(付記23)
前記読み間違い単語との類似性と、前記不明瞭単語と複数の単語の各々との表記の類似性、及び前記不明瞭単語と複数の単語の各々との発音の類似性の少なくとも一方とに基づいて、前記正解単語を類推する付記19〜付記22のいずれかに1つに記載の発話解析プログラム。
(付記24)
前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記認識結果内の前記不明瞭単語に前記正解単語の情報を付与した出力データ、または、前記認識結果内の前記不明瞭単語を前記正解単語に置き換えた出力データを出力する付記19〜付記23のいずれか1つに記載の発話解析プログラム。
(付記25)
コンピュータに、付記19〜付記23のいずれか1つに記載の発話解析プログラムの各処理を含み、前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記ユーザの発話の意図に応じた応答を示す出力データを生成して出力することを含む処理を実行するための音声対話制御プログラム。
(付記26)
前記不明瞭単語と前記読み間違い単語との類似性に基づいて、前記不明瞭単語に対する正解単語の候補を類推し、前記正解単語の候補が示す内容の理解を補助するための補助情報を、前記正解単語の候補に付加し、前記補助情報が付加された前記正解単語の候補に基づいて、前記ユーザの発話の意図を確認するための出力データを生成して出力する付記25記載の音声対話制御プログラム。
(付記27)
前記読み間違い単語との類似性を示すスコアと、前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方とに基づいて、前記正解単語の候補毎の統合スコアを算出し、前記統合スコアが所定範囲内となる候補が所定個以上存在する場合、前記統合スコアが所定の統合スコア閾値以下となる場合、並びに前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方、または前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの合計より前記読み間違い単語との類似性を示すスコアの方が高い場合の少なくとも1つの場合に、前記正解単語の候補に前記補助情報を付加する付記26記載の音声対話制御プログラム。
2 音声対話システム
10 発話解析装置
11 音声認識部
12 不明瞭単語推定部
13、23、33 単語類推部
23a 表記の類似性判定部
23b 発音の類似性判定部
23c 読み間違い類似性判定部
23d 統合判定部
33e 補助情報付加部
14、24、34 出力部
15 読み間違い単語リスト
16 単語リスト
17 単語/発音リスト
18 補助情報リスト
20、30 音声対話制御装置
22 意図推定部
40 コンピュータ

Claims (10)

  1. ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定する不明瞭単語推定部と、
    前記不明瞭単語推定部により推定された不明瞭単語と、漢字を含む単語を1文字毎または形態素毎に分解した要素を含む要素群に含まれる要素毎の読みを各々組み合わせて生成した前記漢字を含む単語に対する読み間違い単語との類似性に基づいて、前記不明瞭単語に類似する読み間違い単語に対する前記漢字を含む単語を、前記ユーザの意図に沿った正解単語として類推する単語類推部と、
    前記認識結果及び前記不明瞭単語に対する正解単語に基づいた出力データを出力する出力部と、
    を含む発話解析装置。
  2. 前記単語類推部は、複数の前記漢字を含む単語の各々について少なくとも1つの読み間違い単語を対応付けた読み間違い単語リストに登録された複数の読み間違い単語のうち、前記不明瞭単語とのマッチング度が所定のマッチング閾値以上となる読み間違い単語を、前記不明瞭単語に類似する読み間違い単語とする請求項1記載の発話解析装置。
  3. 前記要素群は、前記漢字を含む単語を分解した要素、及び前記漢字を含む単語を分解した要素と表記が類似する要素を含む請求項1または請求項2記載の発話解析装置。
  4. 前記単語類推部は、前記不明瞭単語の読みと前記読み間違い単語の読みとのマッチング度を求めるか、または前記不明瞭単語と前記読み間違い単語をカナ漢字変換した単語とのマッチング度を求める請求項2または請求項3記載の発話解析装置。
  5. 前記単語類推部は、前記読み間違い単語との類似性と、前記不明瞭単語と複数の単語の各々との表記の類似性、及び前記不明瞭単語と複数の単語の各々との発音の類似性の少なくとも一方とに基づいて、前記正解単語を類推する請求項1〜請求項4のいずれか1項記載の発話解析装置。
  6. 前記出力部は、前記認識結果及び前記不明瞭単語に対する正解単語に基づいて、前記認識結果内の前記不明瞭単語に前記正解単語の情報を付与した出力データ、または、前記認識結果内の前記不明瞭単語を前記正解単語に置き換えた出力データを出力する請求項1〜請求項5のいずれか1項記載の発話解析装置。
  7. 請求項1〜請求項5のいずれか1項記載の発話解析装置を含み、
    前記単語類推部は、前記不明瞭単語と前記読み間違い単語との類似性に基づいて、前記不明瞭単語に対する正解単語の候補を類推し、前記正解単語の候補が示す内容の理解を補助するための補助情報を、前記正解単語の候補に付加し、
    前記出力部は、前記補助情報が付加された前記正解単語の候補に基づいて、前記ユーザの発話の意図を確認するための出力データを生成して出力する
    音声対話制御装置。
  8. 請求項5記載の発話解析装置を含み、
    前記単語類推部は、前記読み間違い単語との類似性を示すスコアと、前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方とに基づいて、前記不明瞭単語に対する正解単語の候補毎の統合スコアを算出し、前記統合スコアが所定範囲内となる候補が所定個以上存在する場合、前記統合スコアが所定の統合スコア閾値以下となる場合、並びに前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの少なくとも一方、または前記表記の類似性を示すスコア及び前記発音の類似性を示すスコアの合計より前記読み間違い単語との類似性を示すスコアの方が高い場合の少なくとも1つの場合に、前記正解単語の候補に該候補が示す内容の理解を補助するための補助情報を付加し、
    前記出力部は、前記補助情報が付加された前記正解単語の候補に基づいて、前記ユーザの発話の意図を確認するための出力データを生成して出力する
    声対話制御装置。
  9. ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定し、
    推定された不明瞭単語と、漢字を含む単語を1文字毎または形態素毎に分解した要素を含む要素群に含まれる要素毎の読みを各々組み合わせて生成した前記漢字を含む単語に対する読み間違い単語との類似性に基づいて、前記不明瞭単語に類似する読み間違い単語に対する前記漢字を含む単語を、前記ユーザの意図に沿った正解単語として類推し、
    前記認識結果及び前記不明瞭単語に対する正解単語に基づいた出力データを出力する
    ことを含む発話解析方法。
  10. コンピュータに、
    ユーザの発話を示す音声データを音声認識した認識結果から、予め定めたルールに従って、前記ユーザの発話の意図に沿わない不明瞭な単語を推定し、
    推定された不明瞭単語と、漢字を含む単語を1文字毎または形態素毎に分解した要素を含む要素群に含まれる要素毎の読みを各々組み合わせて生成した前記漢字を含む単語に対する読み間違い単語との類似性に基づいて、前記不明瞭単語に類似する読み間違い単語に対する前記漢字を含む単語を、前記ユーザの意図に沿った正解単語として類推し、
    前記認識結果及び前記不明瞭単語に対する正解単語に基づいた出力データを出力する
    ことを含む処理を実行するための発話解析プログラム。
JP2013013282A 2013-01-28 2013-01-28 発話解析装置、音声対話制御装置、方法、及びプログラム Expired - Fee Related JP6251958B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013013282A JP6251958B2 (ja) 2013-01-28 2013-01-28 発話解析装置、音声対話制御装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013013282A JP6251958B2 (ja) 2013-01-28 2013-01-28 発話解析装置、音声対話制御装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014145842A JP2014145842A (ja) 2014-08-14
JP6251958B2 true JP6251958B2 (ja) 2017-12-27

Family

ID=51426158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013013282A Expired - Fee Related JP6251958B2 (ja) 2013-01-28 2013-01-28 発話解析装置、音声対話制御装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6251958B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992001A (zh) * 2017-03-29 2017-07-28 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和系统

Families Citing this family (131)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6366179B2 (ja) * 2014-08-26 2018-08-01 日本放送協会 発話評価装置、発話評価方法、及びプログラム
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
WO2016067418A1 (ja) * 2014-10-30 2016-05-06 三菱電機株式会社 対話制御装置および対話制御方法
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
JP6334815B2 (ja) 2015-03-20 2018-05-30 株式会社東芝 学習装置、方法、プログラムおよび音声対話システム
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN107301866B (zh) * 2017-06-23 2021-01-05 北京百度网讯科技有限公司 信息输入方法
EP3657361A4 (en) 2017-07-20 2020-07-22 Panasonic Intellectual Property Management Co., Ltd. TRANSLATION DEVICE, TRANSLATION METHOD AND PROGRAM
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
EP3564948A4 (en) * 2017-11-02 2019-11-13 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US11328716B2 (en) * 2017-12-22 2022-05-10 Sony Corporation Information processing device, information processing system, and information processing method, and program
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
JP6927905B2 (ja) * 2018-02-19 2021-09-01 ヤフー株式会社 決定装置、決定方法、決定プログラム及びプログラム
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
JP2022021349A (ja) * 2018-11-28 2022-02-03 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
JP7114526B2 (ja) * 2019-05-30 2022-08-08 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112287108B (zh) * 2020-10-29 2022-08-16 四川长虹电器股份有限公司 一种物联领域的意图识别优化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09230889A (ja) * 1996-02-23 1997-09-05 Hitachi Ltd 音声認識応答装置
JP2004294542A (ja) * 2003-03-25 2004-10-21 Mitsubishi Electric Corp 音声認識装置及びそのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992001A (zh) * 2017-03-29 2017-07-28 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和系统
CN106992001B (zh) * 2017-03-29 2020-05-22 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和系统

Also Published As

Publication number Publication date
JP2014145842A (ja) 2014-08-14

Similar Documents

Publication Publication Date Title
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
US20170206897A1 (en) Analyzing textual data
US9594744B2 (en) Speech transcription including written text
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
US11043213B2 (en) System and method for detection and correction of incorrectly pronounced words
US8401852B2 (en) Utilizing features generated from phonic units in speech recognition
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
US20150179173A1 (en) Communication support apparatus, communication support method, and computer program product
JP2018159788A (ja) 情報処理装置、方法及びプログラム
EP2595144A1 (en) Voice data retrieval system and program product therefor
JP7400112B2 (ja) 自動音声認識のための英数字列のバイアス付加
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JPWO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5160594B2 (ja) 音声認識装置および音声認識方法
US11694028B2 (en) Data generation apparatus and data generation method that generate recognition text from speech data
JP6366179B2 (ja) 発話評価装置、発話評価方法、及びプログラム
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
JP2012255867A (ja) 音声認識装置
CN113924573A (zh) 翻译装置
JP2003162524A (ja) 言語処理装置
JP2010197709A (ja) 音声認識応答方法、音声認識応答システム、及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170425

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171113

R150 Certificate of patent or registration of utility model

Ref document number: 6251958

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees