JP3949356B2 - Spoken dialogue system - Google Patents
Spoken dialogue system Download PDFInfo
- Publication number
- JP3949356B2 JP3949356B2 JP2000211551A JP2000211551A JP3949356B2 JP 3949356 B2 JP3949356 B2 JP 3949356B2 JP 2000211551 A JP2000211551 A JP 2000211551A JP 2000211551 A JP2000211551 A JP 2000211551A JP 3949356 B2 JP3949356 B2 JP 3949356B2
- Authority
- JP
- Japan
- Prior art keywords
- ambiguous word
- estimated value
- command
- item
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
この発明は、利用者の自然言語入力を理解して情報提供サービスの自動応答を行なう音声対話システムに関するものである。
【0002】
【従来の技術】
情報システムにおけるマンマシンインタフェース技術として、従来から、利用者と自然言語による対話を行なって自動応答システムを実現する対話技術があり、特に、利用者と音声による対話を行なって実現する音声対話技術への要求が高まっている。音声対話技術の応用システムとして、例えば、受付、注文、予約などの各種サービス代行や、利用者が要求する情報の提供を行なう電話音声自動応答装置が知られており、24時間サービス化、業務の効率化、省力化などの点で有用性が高い。
【0003】
このような電話系サービスの分野では、CTI(Computer Telephony Integration)システムの導入が最近急速に進んでいる。この分野では、顧客の満足度を向上させるために、発信呼通知によって顧客を特定し、過去の顧客情報を利用して、顧客個人にあった情報提供や応対のサービスが試みられている。特に、音声自動応答装置を用いて業務の自動化を図るCTIシステムでは、人間のオペレータ代行に伴うサービスの質の低下に対し、いかにして顧客の満足度を向上させるかが大きな課題となっており、顧客個人に適応した応対を実現する音声対話技術が必要となる。
【0004】
音声対話技術により構築される音声対話システムでは、一般的な構成として、利用者の発話を認識する音声認識部、認識された発話文をシステムへのコマンドへ翻訳する音声理解部、コマンドで表現された利用者の要求に応じて、データベース検索や予約などを行なうアプリケーションを制御し、利用者とシステムとの対話を管理して、システムの応答を決定する対話管理部、システムの応答を音声で通知する音声合成部を備えている。
【0005】
個人性を考慮した応対を実現する音声対話技術としては、従来から、音声合成部からのシステムの応答に対する利用者の入力のタイミングにより、システムに対する利用者の習熟度を推定し、音声ガイダンスの内容を習熟度に合わせて変更する技術(特開平4−344930号)、利用者の発話に対する音声認識部での音響尤度と、対話管理部による認識結果の確認対話で判明する認識失敗回数とを用いて、利用者の音声が認識しやすいか否かを推定し、認識のしやすさに応じて確認対話の制御方法を変更する技術(特開平7−181994号)、発信呼の電話番号により利用者を特定した後に、利用者の年齢(大人、子供)や国籍(言語)に合わせて、ガイダンスの文体や言語を変更する技術(特開平8−116572号)などがある。
【0006】
【発明が解決しようとする課題】
しかし、上記のような音声対話システムでは、利用者の発話文をシステムへのコマンドへ翻訳する音声理解技術において、個人性が考慮された翻訳がなされてなく、利用者から入力された発話文の翻訳結果は、全ての利用者に関して差異のない翻訳結果となっていた。
【0007】
例えば、ホテルの検索のような情報検索型のサービスにおける対話では、利用者が希望条件に合うホテルを探すときに、「横浜で安いホテルを教えて下さい」といった、漠然と料金の希望を指定する発話が頻繁に生じる。このような「安い」という曖昧な単語に対しては、一般的に、設計者が予め想定した固定の値、例えば6000円以下という値を一律に用いてコマンドへ翻訳する。
【0008】
このために、10000円程度が安くて手頃だと思って探している利用者に対して、システムは「横浜の安いホテルは、Aホテル4500円、Bホテル5500円、Cホテル6000円、があります」のような応答を行ない、利用者は再度、「もう少し高めのホテルが良いのですが」といった発話が必要になるため、検索が効率的でないという課題があった。また、利用者の料金に対する感覚に一致していないために、利用者に違和感を生じさせるという課題があった。
【0009】
この発明は、上記課題を解決するためになされたもので、利用者の曖昧語を含む自然言語の入力に対して、効率的な検索ができる音声対話システムを提供することを目的とする。
また、この発明は、利用者から入力される自然言語に含まれている曖昧語に対応する意味を推定して、効率的かつ柔軟な検索ができる音声対話システムを提供することを目的とする。
また、この発明は、利用者が対話システムを利用した回数が少ない場合でも、利用者の感覚に合致した自然な情報提示を行なうことができ、情報検索の効率化、及び利用者の利便性を向上させることができる音声対話システムを提供することを目的とする。
また、この発明は、曖昧な語が表わす値を利用者の発話履歴から学習して、利用者に応じて自動的に設定して翻訳できるようにし、情報検索の効率化、及び利用者の感覚に合致した自然な情報提示を行なうことで、利用者の利便性を向上させる音声対話システムを提供することを目的とする。
【0010】
【課題を解決するための手段】
この発明に係る音声対話システムは、対話システム動作に対応して定義されたコマンド意図、対話システム動作のパラメータの種類を定義した項目、及び項目に対応する値である項目値からなる表現を対話システムのコマンドとし、自然言語をコマンドへ変換するための変換知識をコマンド知識として記憶するコマンド知識記憶手段と、自然言語において項目値へ一意に変換できない語を曖昧語とし、曖昧語、曖昧語の項目、及び曖昧語に対応する意味標識を曖昧語辞書として記憶する曖昧語辞書記憶手段と、曖昧語辞書記憶手段に記憶された曖昧語辞書を参照して、利用者が入力した自然言語に含まれる曖昧語を曖昧語に対応する意味標識に置換して、曖昧語の項目と意味標識の対を作成し、コマンド知識記憶手段に記憶されたコマンド知識を参照して、入力された自然言語を、曖昧語の項目と意味標識の対を含んだコマンドに変換するコマンド変換手段と、曖昧語に対応する意味標識の値を推定するための推定値情報を利用者を特定する利用者識別子とともに記憶する推定値情報記憶手段と、コマンド変換手段から入力される曖昧語の項目と意味標識の対を含んだコマンドに対し、推定値情報記憶手段に記憶された利用者識別子に対応した推定値情報を参照して、曖昧語に対応する意味標識の推定値を決定してコマンドとともに出力する曖昧語翻訳手段と、前記意味標識に対応する推定値同士の関係を関数として規定し、補間モデルとして記憶した補間モデル記憶手段と、曖昧語翻訳手段からの利用者識別子及び曖昧語の意味標識を入力とし、利用者識別子に対応した推定値情報における曖昧語のうち、入力された意味標識の推定値情報が未学習である曖昧語に対して、上記補間モデル記憶手段の補間モデルを用いて、学習済の曖昧語の意味標識に対する推定値情報から、未学習の意味標識の推定値を算出して曖昧語翻訳手段へ出力する推定値補間手段とを備えたものである。
【0012】
この発明に係る音声対話システムは、対話システム動作に対応して定義されたコマンド意図、対話システム動作のパラメータの種類を定義した項目、及び項目に対応する値である項目値からなる表現を対話システムのコマンドとし、自然言語をコマンドへ変換するための変換知識をコマンド知識として記憶するコマンド知識記憶手段と、自然言語において項目値へ一意に変換できない語を曖昧語とし、曖昧語、曖昧語の項目、及び曖昧語に対応する意味標識を曖昧語辞書として記憶する曖昧語辞書記憶手段と、上記曖昧語辞書記憶手段に記憶された曖昧語辞書を参照して、利用者が入力した自然言語に含まれる曖昧語を曖昧語に対応する意味標識に置換して、曖昧語の項目と意味標識の対を作成し、上記コマンド知識記憶手段に記憶されたコマンド知識を参照して、入力された自然言語を、上記曖昧語の項目と意味標識の対を含んだコマンドに変換するコマンド変換手段と、曖昧語に対応する意味標識の値を推定するための推定値情報を利用者を特定する利用者識別子とともに記憶する推定値情報記憶手段と、上記コマンド変換手段から入力される曖昧語の項目と意味標識の対を含んだコマンドに対し、上記推定値情報記憶手段に記憶された利用者識別子に対応した推定値情報を参照して、曖昧語に対応する意味標識の推定値を決定してコマンドとともに出力する曖昧語翻訳手段と、全ての利用者に対する推定値情報を記憶する全利用者推定値情報記憶手段と、曖昧語翻訳手段からの利用者識別子及び曖昧語の意味標識を入力とし、利用者識別子に対応した推定値情報における曖昧語のうち、入力された意味標識の推定値情報が未学習である曖昧語に対して、上記全利用者推定値情報記憶手段に記憶された全ての利用者に対する推定値情報を参照して、学習済の曖昧語の意味標識に対する推定値情報との一致度が高い他の利用者の推定値情報を利用し、未学習の意味標識の推定値を選択して曖昧語翻訳手段へ出力する推定値選択手段とを備えたものである。
【0013】
この発明に係る音声対話システムにおいて、項目及び項目値が付与された検索対象データの集合を記憶するデータベースと、入力されたコマンドに対応して、所定の対話システム動作を実行してシステムと利用者との対話を管理するとともにデータベースを検索し、利用者へ通知する応答文の意味内容を表わす応答意味表現を生成する対話管理手段とを備えたものである。
【0015】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1は、この発明の実施の形態1における音声対話システムの機能ブロック構成図であり、図において、1はコマンド知識記憶部(コマンド知識記憶手段)、2はコマンド変換部(コマンド変換手段)、3はデータベース、4は応答履歴記憶部(応答履歴記憶手段)、5は対話管理部(対話管理手段)、6は曖昧語辞書記憶部(曖昧語辞書記憶手段)、7は推定値情報記憶部(推定値情報記憶手段)、8は曖昧語翻訳部(曖昧語翻訳手段)、9は曖昧語記憶部(曖昧語記憶手段)、10は推定知識記憶部(推定知識記憶手段)、11は推定値適応部(推定値適応手段)である。
【0016】
次に動作について説明する。
まず、利用者からの自然言語がコマンド変換部2へ入力される。入力される自然言語は、利用者の発話を音声認識した結果のテキストである。ただし入力可能なものとしては利用者からの自然言語に限定するものではない。キーボードやGUIなどの別の手段から入力されたテキストであっても構わない。さらに、入力された自然言語に対し、コマンド変換の前段階として、形態素解析や構文解析、意味解析などの言語処理が施された結果の、意味的な構造を持った表現形式である意味表現であってもよい。
【0017】
次に、コマンド変換部2は、コマンド知識記憶部1に記憶されたコマンド知識に従って、入力された自然言語を対話システムへのコマンドに変換する。コマンド知識記憶部1には、自然言語とコマンドとの対応を記述したコマンド知識が記憶されている。コマンドの定義の一例としては、コマンド=意図:(項目1、項目値1)、(項目2、項目値2)、…、(項目n、項目値n)、のように表現し、コマンドを、意図と、そのパラメータとなる項目及び項目値の対の組み合わせで表現する。ここで、意図は対話システムの動作に対応して定義し、項目は検索対象データに関する検索条件の種類に対応して定義する。項目値は項目に属する具体的な値である。例えば、ホテル予約の場合、意図としては、<意図:検索要求>、<意図:予約要求>、<意図:項目質問>、<意図:項目値確認>、<意図:項目値表明>、<意図:肯定>、<意図:否定>、などであり、項目及び項目値の対としては、(<場所>、横浜)、(<料金>、6000≧)、(<部屋タイプ>、シングル)、(<人数>、2)、(<対象>、ホテル)、などである。
【0018】
コマンド知識記憶部1に記憶されているコマンド知識は、上記のコマンド表現と、自然言語との対応関係を規定するための知識である。例えば、「教えて下さい」、「ありますか」、「探しているのですが」、などの自然言語に対しては、<意図:検索要求>が対応し、「どこですか」、「いくらですか」、に対しては、<意図:項目質問>が対応する。また、例えば、「横浜で」に対しては、項目及び項目値の対として、(<場所>、横浜)が対応し、「6000円以下の」に対しては、(<料金>、6000≧)が対応する。コマンド知識は、これらの対応関係について、自然言語に関する形態素情報や助詞、助動詞などの意味的な情報を用いて、対応表や変換規則などの形式で表現する。
【0019】
さらに、コマンド変換部2は、「安い」、「近い」などのような項目値が一意に決定できない曖昧語に対して、曖昧語辞書記憶部6に記憶された、曖昧語と、曖昧語の項目と、曖昧語に対応する意味標識の対応関係を参照し、入力に含まれる曖昧語を、曖昧語に対応する意味標識に置換して、曖昧語の項目と意味標識の対を作成する。さらに、コマンド知識を参照して、入力された自然言語を、上記曖昧語の項目と意味標識の対を含んだコマンドの表現に変換する。
【0020】
図2に曖昧語辞書記憶部6に記憶する対応関係の例を示す。例えば、項目<料金>に関しては、曖昧語「自立語(安い)」に対して意味標識「$cheap1」が対応している。コマンド変換部2は、入力された自然言語に曖昧語「安い」が含まれていれば、上記の対応関係を参照して、(<料金>、$cheap1)に変換する。以上より、例えば、「横浜で安いホテルを教えて下さい」という自然言語は、コマンド変換部2により、「<意図:検索要求>:(<場所>、横浜)、(<料金>、$cheap1)、(<対象>、ホテル)」というコマンドに変換される。
【0021】
曖昧語翻訳部8は、コマンド変換部2から入力されたコマンド中に曖昧語の意味標識が含まれている場合には、推定値情報記憶部7で記憶されている利用者毎の推定値情報から、現在システムを対話している利用者の利用者識別子に対応する推定値情報を参照し、曖昧語の推定値を決定してコマンド中の曖昧語の意味標識を決定された推定値に置き換え、対話管理部5へ出力する。
【0022】
推定値情報記憶部7は、曖昧語と曖昧語に対応する意味標識の推定値情報を利用者毎に記憶する。推定値情報は、利用者が過去の対話で曖昧語をどんな値として用いたかの情報を記録したものであり、利用者とシステムとの対話の履歴を利用して、後述する推定値適応部11により学習される。なお、利用者が初めてシステムと対話する場合には、曖昧語の意味標識に対して初期に設定された値が推定値情報として用いられる。
【0023】
対話管理部5は、コマンドが入力されると、設定された所定の対話手順に基づいて、コマンドに対応したシステムの動作を実行し、システムと利用者との対話を管理する。所定の対話手順の一例としては、例えば、コマンドの意図が検索要求であれば、対話管理部5は、コマンドのパラメータである項目及び項目値の対を用いて検索式を作成してデータベース3の検索を行ない、検索結果を利用者へ通知するための応答の意味表現を出力する。データベース3は、項目及び項目値が付与された検索対象データの集合を記憶する。図3はデータベース3に記憶される検索対象データの例であり、各対象名に対し、項目と項目値のデータが与えられている。
【0024】
あるいは、所定の対話手順についての他の例としては、コマンドの意図が予約要求である場合、予約に必須の項目、例えば、<対象名>、<予約日>、<人数>、<部屋タイプ>、などに対する項目値が全て得られていれば、予約動作の確認を利用者に行なって、確認後に予約動作の実行を行ない、全て得られていない場合には、不足している項目の項目値を利用者に質問するための応答の意味表現を出力する。
【0025】
応答の意味表現は、システムが利用者へ通知する応答文を生成するための表現形式である。一般的な音声自動応答装置では、応答の意味表現から応答文を生成する文生成手段と、文生成手段から受け取った応答文を合成音声へ変換する音声合成手段とを備えており、対話管理部5から出力される応答の意味表現は音声として利用者に通知される。
【0026】
例えば、この応答の意味表現としては、利用者の「横浜駅で6000円以下のホテルを教えて下さい」という入力に対してシステムがデータベース検索を行なった結果が、Aホテル4500円、Bホテル5500円、Cホテル6000円、の3件である場合、その応答の意味表現は、「<検索結果提示>:(対象名 Aホテル(<料金> 4500円))、(対象名 Bホテル(<料金> 5500円))、(対象名 Cホテル(<料金> 6000円))」のような形式となる。
【0027】
さらに、対話管理部5は、利用者が対話を開始してからの応答の意味表現を、対話の開始から応答順に付与される応答識別番号とともに応答履歴記憶部4に記録する。
以上が、推定値情報記憶部7に記憶された利用者個人に対応した推定値情報を利用して、曖昧語の推定値を決定する場合の動作例である。
【0028】
次に、推定値情報記憶部7に記憶される推定値情報を学習する場合の動作例について説明する。
曖昧語記憶部9は、曖昧語の意味標識を曖昧語の項目とともに記憶するものであり、対話の開始時からの入力識別番号が付与された形式で記憶する。例えば、対話の3番目の発話で入力されたコマンドが、「<意図:検索要求>:(<場所>、横浜)、(<料金>、$cheap1)、(<対象>、ホテル)」の場合、(3:<料金>、$cheap1)という形式のデータが、曖昧語記憶部9に登録される。推定値適応部11は、コマンド変換部2から入力されたコマンドに曖昧語の意味標識が含まれる場合に、まず、曖昧語記憶部9へ曖昧語の意味標識を上記の形式で登録する。
【0029】
次に、推定値適応部11は、上記コマンドに対する対話管理部5の応答が利用者に対して通知された後に、この応答に対する利用者の発話内容から、曖昧語記憶部9に登録された曖昧語の意味標識に対する推定値を推定する。次に推定の方法を具体例とともに説明する。例えば、利用者の発話が「横浜で安いホテルを教えて下さい」であって、これに対する対話管理部5の応答が、「横浜の安いホテルは、Aホテル4500円、Bホテル5500円、Cホテル6000円、があります」であったとする。この応答に対する利用者の発話は、例えば、以下の3通りが考えられる。
(1)「10000円くらいが良いのですが」
(2)「もう少し高くても構いません」
(3)「Cホテルの最寄駅はどこですか」
【0030】
(1)は、応答中に示された金額を受け入れられず、利用者が明示的に自分が想定している金額を表明している場合である。このときは、「安い」という曖昧語の推定値は、入力されたコマンド中の10000円程度であると推定できる。
(2)は、応答中に示された金額を受け入れられず、利用者がシステムに対し再度、検索要求の意図の発話をしている場合である。このときは、入力されたコマンド中の「高い」という別の曖昧語により、「安い」という曖昧語の推定値は、提示した金額の最高値である6000円より高い金額であると推定できる。
(3)は、発話の意図が、項目<料金>以外の項目<最寄駅>を尋ねる<項目質問>の意図であることから、応答中に示された金額のうち、Cホテルの金額を受け入れたと考えられる。そこで、「安い」という曖昧語の推定値は、6000円程度であると推定できる。
【0031】
以上のような推定を行なうために、推定知識記憶部10は、応答履歴記憶部4に記憶された応答意味表現と、コマンド変換部2から入力されたコマンドとの関係から判定するための推定知識を曖昧語の推定値として記憶する。推定値適応部11は、入力されたコマンド及び応答履歴記憶部4の応答の意味表現を参照して、推定知識記憶部10の推定知識に基づいて、曖昧語の推定値を決定する。これより、利用者識別子に対応した推定値情報記憶部7の推定値情報を更新して学習し、学習の対象とした曖昧語の意味標識を曖昧語記憶部9から削除する。図4に推定値情報記憶部7に記憶されたデータ構造を示す。
【0032】
推定知識記憶部10に記憶された推定知識は、例えば、上記(1)〜(3)の場合分けができるような条件判定部を持つ知識として、if〜then〜形式のルールで以下のように記述する。
(1)if(応答履歴記憶部4の応答中に<検索結果提示>の項目値Aが存在する and 現在のコマンド中に<意図:項目値表明>とともに項目値Bが存在する)then(推定値を項目値Bとする)
(2)if(応答履歴記憶部4の応答中に<検索結果提示>の項目値Aが存在する and 現在のコマンド中に<意図:検索要求>とともに項目値Aに対応する項目に関する曖昧語の意味標識が存在する)then(次のコマンド入力を待つ)
(3)if(応答履歴記憶部4の応答中に<検索結果提示>の項目値Aが存在する and 現在のコマンド中に項目値Aと対応しない項目に関する<意図:項目質問>とともに直前の応答中の対象名が存在する)then(推定値を直前の応答中の対象名に対応する項目値Aとする)
【0033】
推定値適応部11は、上記のようにして求めた推定値を推定値情報記憶部7における推定値情報として記録する。推定値情報は、例えば、各項目の各曖昧語の意味標識に関して、各推定値の頻度情報を記録しておけばよい。
【0034】
以上のように上記実施の形態1によれば、利用者の曖昧語を含む自然言語の入力に対して、意図、項目、及び項目値からなる表現でコマンドに変換し、曖昧語に対応する意味標識の推定値を決定してコマンドとともに出力することにより、効率的かつ柔軟な検索ができるという効果が得られる。
また、曖昧な語が表わす値を利用者の発話履歴から学習して、利用者に応じて自動的に設定して翻訳することにより、情報検索の効率化、及び利用者の感覚に合致した自然な情報提示を行なうことができ、利用者の利便性を向上させることができるという効果が得られる。
【0035】
なお、上記実施の形態1において、複数の検索対象がある場合には、項目<料金>をそれぞれ別な項目として定義する。例えば、検索項目がホテル及びレストランである場合には、ホテルは、Search[hotel]:<料金(ホテル)>=$cheap hotelとなり、レストランは、Search[restaurant]:<料金(レストラン)>=$cheap restaurantとなる。
【0036】
実施の形態2.
図5はこの発明の実施の形態2における音声対話システムの機能ブロック構成図であり、図において、12は補間モデル記憶部(補間モデル記憶手段)、13は推定値補間部(推定値補間手段)である。他の構成は図1に示した実施の形態1の構成と同じであり、同一の符号で表されている。
次に動作について説明する。
この実施の形態2は、利用者が対話システムを利用した回数が少ない場合に、推定値情報記憶部7に記憶される推定値情報の学習において、推定値情報が未学習である曖昧語の意味標識に対して、他の学習済の曖昧語の推定値情報を用いて、未学習の曖昧語の意味標識の推定値を補間して算出するものである。
【0037】
補間モデル記憶部12は、曖昧語の意味標識と、該意味標識に対応する推定値との関係を関数として規定し、補間モデルとして記憶する。補間モデルとして用いる上記関数は、曖昧語の意味標識が与えられたときにその推定値を補間して算出できるものであればよい。例えば、図2に示すように、<料金>という同一項目に対する複数の曖昧語の意味標識として、$cheapest(曖昧語:できるだけ安い)、$cheap1(曖昧語:安い)、$cheap2(曖昧語:できれば安い)、$not_so_exp(曖昧語:あまり高くない)、$exp(曖昧語:少し高くても良い)、などが定義されている場合、これらの推定値を順に、v1、v2、v3、v4、v5、とすれば、v1=v2−1000、v1=v3−2000、v1=v4−3000、v1=v5−4000、などのように、推定値同士の差分を規定する関数を記憶しておく。
【0038】
推定値補間部13は、曖昧語翻訳部8からの利用者識別子及び曖昧語の意味標識を入力とし、推定値情報記憶部7に記憶されている利用者識別子に対応した推定値情報を参照して、入力された曖昧語の意味標識に対する推定値情報が未学習の場合に、補間モデル記憶部12の補間モデルを用いて、学習済の曖昧語の意味標識に対する推定値情報から、未学習の該意味標識の推定値を算出して曖昧語翻訳部8へ出力する。例えば、曖昧語の意味標識$cheapest(曖昧語:できるだけ安い)の推定値v1が未学習であり、$cheap1(曖昧語:安い)の推定値v2が学習済であって、v2=6000であるとする。このとき、推定値補間部13は、補間モデル記憶部12に記憶された上記推定値同士の差分を規定する関数を参照して、v1=v2−1000=5000、のように、未学習の推定値v1を算出する。
【0039】
以上のように、上記実施の形態2によれば、未学習の曖昧語の推定値を学習済の曖昧語の推定値情報から補間して算出できるようにしたので、利用者が対話システムを利用した回数が少ない場合でも、曖昧語の項目値を推定して、情報検索の効率化、及び利用者の感覚に合致した自然な情報提示を行なうことができ、利用者の利便性を向上させることができるという効果が得られる。
【0040】
実施の形態3.
図6はこの発明の実施の形態3における音声対話システムの機能ブロック構成図であり、図において、14は全利用者推定値情報記憶部(全利用者推定値情報記憶手段)、15は推定値選択部(推定値選択手段)である。他の構成については図1に示した実施の形態1の構成と同じであり、同一の符号で表されている。
【0041】
次に動作について説明する。
この実施の形態3は、利用者が対話システムを利用した回数が少ない場合に、推定値情報記憶部7に記憶される推定値情報が未学習である曖昧語の意味標識に対して、推定値情報の一致度が高い他の利用者の学習済の曖昧語の推定値情報を用いて、未学習の曖昧語の意味標識を推定して算出するものである。
【0042】
全利用者推定値情報記憶部14は、全ての利用者に対する推定値情報を利用者識別子に対応して記憶する。全利用者推定値情報記憶部14におけるデータ構造は、図4に示したデータ構造にさらに利用者識別子を付加したものになる。推定値選択部15は、曖昧語翻訳部8からの利用者識別子及び曖昧語の意味標識を入力とし、推定値情報記憶部7に記憶されている利用者識別子に対応した推定値情報を参照して、入力された曖昧語の意味標識に対する推定値情報が未学習の場合に、全利用者推定値情報記憶部14を参照する。そして、現在システムを利用している利用者Aの推定値情報と、他の利用者Bの推定値情報との、推定値情報の一致度を算出する。一致度は、例えば、利用者A、利用者Bともに学習済の曖昧語の推定値を比較し、推定値の差がある一定の範囲内であれば、その曖昧語の推定値が一致しているとし、一致した曖昧語の数を一致度として定義する。
【0043】
推定値選択部15は、全利用者推定値情報記憶部14に記憶された全ての利用者に対する推定値情報を参照して、利用者Aで未学習である曖昧語の推定値情報を有する利用者の内、利用者Aとの一致度が最も高い利用者Cを選択し、利用者Cの学習済の曖昧語の推定値情報を、利用者Aの未学習の意味標識の推定値として曖昧語翻訳部8へ出力する。
【0044】
以上のように、上記実施の形態3によれば、未学習の曖昧語の推定値を、推定値情報の一致度が高い他の利用者の推定値で代用するようにしたので、利用者が対話システムを利用した回数が少ない場合でも、曖昧語の推定値を推定して、情報検索の効率化、及び利用者の感覚に合致した自然な情報提示を行なうことができ、利用者の利便性を向上させることができるという効果が得られる。
【0045】
なお、上記各実施の形態においては、音声対話システムの発明について説明したが、この発明の音声対話システム及び電話回線を含む統合的なコンピュータシステムを構築して、電話回線を介して入力された利用者すなわち顧客の曖昧語を含む自然言語を理解して、顧客が要望する情報を安い料金で提供するビジネスを展開することができる。その他、例えば、受付、注文、予約などの各種サービス代行や、利用者が要求する情報の提供を行なう電話音声自動応答装置にもこの発明の音声対話システムを適用することにより著しい効果が得られる。あるいは、発明の音声対話システムを適用することにより、顧客の曖昧語を含む自然言語を理解する自動販売機を実現できるという効果が得られる。
【0046】
【発明の効果】
以上のように、この発明によれば、音声対話システムを、対話システム動作に対応して定義されたコマンド意図、対話システム動作のパラメータの種類を定義した項目、及び項目に対応する値である項目値からなる表現を対話システムのコマンドとし、自然言語をコマンドへ変換するための変換知識をコマンド知識として記憶するコマンド知識記憶手段と、自然言語において項目値へ一意に変換できない語を曖昧語とし、曖昧語、曖昧語の項目、及び曖昧語に対応する意味標識を曖昧語辞書として記憶する曖昧語辞書記憶手段と、曖昧語辞書記憶手段に記憶された曖昧語辞書を参照して、利用者が入力した自然言語に含まれる曖昧語を曖昧語に対応する意味標識に置換して、曖昧語の項目と意味標識の対を作成し、コマンド知識記憶手段に記憶されたコマンド知識を参照して、入力された自然言語を、曖昧語の項目と意味標識の対を含んだコマンドに変換するコマンド変換手段と、曖昧語に対応する意味標識の値を推定するための推定値情報を利用者を特定する利用者識別子とともに記憶する推定値情報記憶手段と、コマンド変換手段から入力される曖昧語の項目と意味標識の対を含んだコマンドに対し、推定値情報記憶手段に記憶された利用者識別子に対応した推定値情報を参照して、曖昧語に対応する意味標識の推定値を決定してコマンドとともに出力する曖昧語翻訳手段と、前記意味標識に対応する推定値同士の関係を関数として規定し、補間モデルとして記憶した補間モデル記憶手段と、曖昧語翻訳手段からの利用者識別子及び曖昧語の意味標識を入力とし、利用者識別子に対応した推定値情報における曖昧語のうち、入力された意味標識の推定値情報が未学習である曖昧語に対して、上記補間モデル記憶手段の補間モデルを用いて、学習済の曖昧語の意味標識に対する推定値情報から、未学習の意味標識の推定値を算出して曖昧語翻訳手段へ出力する推定値補間手段とを備えるように構成したので、利用者の曖昧語を含む自然言語の入力に対して、意図、項目、及び項目値からなる表現でコマンドに変換し、曖昧語に対応する意味標識の推定値を決定してコマンドとともに出力することにより、効率的かつ柔軟な検索ができるという効果がある。また、利用者が対話システムを利用した回数が少ない場合でも、曖昧語の項目値を推定して、情報検索の効率化、及び利用者の感覚に合致した自然な情報提示を行なうことができ、利用者の利便性を向上させることができるという効果がある。
【0048】
この発明における音声対話システムは、対話システム動作に対応して定義されたコマンド意図、対話システム動作のパラメータの種類を定義した項目、及び項目に対応する値である項目値からなる表現を対話システムのコマンドとし、自然言語をコマンドへ変換するための変換知識をコマンド知識として記憶するコマンド知識記憶手段と、自然言語において項目値へ一意に変換できない語を曖昧語とし、曖昧語、曖昧語の項目、及び曖昧語に対応する意味標識を曖昧語辞書として記憶する曖昧語辞書記憶手段と、上記曖昧語辞書記憶手段に記憶された曖昧語辞書を参照して、利用者が入力した自然言語に含まれる曖昧語を曖昧語に対応する意味標識に置換して、曖昧語の項目と意味標識の対を作成し、上記コマンド知識記憶手段に記憶されたコマンド知識を参照して、入力された自然言語を、上記曖昧語の項目と意味標識の対を含んだコマンドに変換するコマンド変換手段と、曖昧語に対応する意味標識の値を推定するための推定値情報を利用者を特定する利用者識別子とともに記憶する推定値情報記憶手段と、上記コマンド変換手段から入力される曖昧語の項目と意味標識の対を含んだコマンドに対し、上記推定値情報記憶手段に記憶された利用者識別子に対応した推定値情報を参照して、曖昧語に対応する意味標識の推定値を決定してコマンドとともに出力する曖昧語翻訳手段と、全ての利用者に対する推定値情報を記憶する全利用者推定値情報記憶手段と、曖昧語翻訳手段からの利用者識別子及び曖昧語の意味標識を入力とし、利用者識別子に対応した推定値情報における曖昧語のうち、入力された意味標識の推定値情報が未学習である曖昧語に対して、上記全利用者推定値情報記憶手段に記憶された全ての利用者に対する推定値情報を参照して、学習済の曖昧語の意味標識に対する推定値情報との一致度が高い他の利用者の推定値情報を利用し、未学習の意味標識の推定値を選択して曖昧語翻訳手段へ出力する推定値選択手段とを備えるように構成したので、利用者が対話システムを利用した回数が少ない場合でも、曖昧語の推定値を推定して、情報検索の効率化、及び利用者の感覚に合致した自然な情報提示を行なうことができ、利用者の利便性を向上させることができる効果がある。
【0049】
この発明における音声対話システムにおいて、項目及び項目値が付与された検索対象データの集合を記憶するデータベースと、入力されたコマンドに対応して、所定の対話システム動作を実行してシステムと利用者との対話を管理するとともにデータベースを検索し、利用者へ通知する応答文の意味内容を表わす応答意味表現を生成する対話管理手段とを備えるように構成したので、利用者の曖昧語を含む自然言語の入力に対して、意図、項目、及び項目値からなる表現でコマンドに変換してデータベースを検索し、利用者の入力に適応した応答ができるという効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1における音声対話システムの機能ブロック構成図である。
【図2】 この発明の各実施の形態における曖昧語辞書記憶部に記憶される項目、曖昧語、及び意味標識の対応関係の例を示す図である。
【図3】 この発明の各実施の形態におけるデータベースに記憶される検索対象データの例を示す図である。
【図4】 この発明の実施の形態1における推定情報記憶部に記憶されるデータ構造を示す図である。
【図5】 この発明の実施の形態2における音声対話システムの機能ブロック構成図である。
【図6】 この発明の実施の形態3における音声対話システムの機能ブロック構成図である。
【符号の説明】
1 コマンド知識記憶部(コマンド知識記憶手段)、2 コマンド変換部(コマンド変換手段)、3 データベース、4 応答履歴記憶部(応答履歴記憶手段)、5 対話管理部(対話管理手段)、6 曖昧語辞書記憶部(曖昧語辞書記憶手段)、7 推定値情報記憶部(推定値情報記憶手段)、8 曖昧語翻訳部(曖昧語翻訳手段)、9 曖昧語記憶部(曖昧語記憶手段)、10 推定知識記憶部(推定知識記憶手段)、11 推定値適応部(推定値適応手段)、12 補間モデル記憶部(補間モデル記憶手段)、13 推定値補間部(推定値補間手段)、14 全利用者推定値情報記憶部(全利用者推定値情報記憶手段)、15 推定値選択部(推定値選択手段)。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a spoken dialogue system that understands a user's natural language input and automatically responds to an information providing service.
[0002]
[Prior art]
Conventionally, as a man-machine interface technology in information systems, there is a dialogue technology that realizes an automatic response system by conducting a dialogue with the user in natural language, and in particular, a voice dialogue technology that is realized by conducting a dialogue with the user by voice. The demand is growing. As an application system of voice interactive technology, for example, various service agents such as reception, ordering, reservation, etc., and an automatic telephone voice response device for providing information requested by a user are known. It is highly useful in terms of efficiency and labor saving.
[0003]
In the field of such telephone service, the introduction of a computer telephony integration (CTI) system has been rapidly progressing recently. In this field, in order to improve customer satisfaction, customers are identified by outgoing call notification, and past customer information is used to provide information and reception services that are tailored to individual customers. In particular, in a CTI system that automates work using an automatic voice response device, how to improve customer satisfaction against the decline in service quality associated with human operator substitution is a major issue. Therefore, a voice dialogue technology that realizes a response adapted to individual customers is required.
[0004]
In a voice dialogue system constructed by voice dialogue technology, a general configuration is expressed by a voice recognition unit that recognizes a user's utterance, a voice understanding unit that translates a recognized utterance sentence into a command to the system, and a command. In response to the user's request, it controls applications that perform database searches and reservations, manages the interaction between the user and the system, and determines the system response. A speech synthesizer.
[0005]
Conventionally, as a spoken dialogue technology that realizes personalized response, the user's proficiency with the system is estimated based on the user's input timing to the system response from the speech synthesizer, and the contents of the voice guidance Is changed in accordance with the proficiency level (Japanese Patent Laid-Open No. 4-344930), the acoustic likelihood in the voice recognition unit for the user's utterance, and the number of recognition failures determined by the confirmation dialogue of the recognition result by the dialogue management unit A technique for estimating whether or not the user's voice is easy to recognize and changing the control method of the confirmation dialog according to the ease of recognition (Japanese Patent Laid-Open No. 7-181994), depending on the telephone number of the outgoing call There is a technique (Japanese Patent Laid-Open No. 8-116572) that changes the style and language of guidance according to the age (adult, child) and nationality (language) of the user after specifying the user.
[0006]
[Problems to be solved by the invention]
However, in the speech dialogue system as described above, in the speech understanding technology for translating the user's utterance sentence to the command to the system, the translation considering the individuality is not made, and the utterance sentence inputted by the user is not The translation result was the same translation result for all users.
[0007]
For example, in an information search service such as a hotel search, when a user searches for a hotel that meets the desired conditions, an utterance that vaguely specifies the desired price, such as “Tell me a cheap hotel in Yokohama” Frequently occurs. For such an ambiguous word “cheap”, generally, a fixed value assumed by the designer in advance, for example, a value of 6000 yen or less is uniformly used for translation into a command.
[0008]
For this reason, for users who are looking for cheap and affordable around 10000 yen, the system is "cheap hotels in Yokohama, A
[0009]
The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a spoken dialogue system capable of performing an efficient search for a natural language input including an ambiguous word of a user.
Another object of the present invention is to provide a spoken dialogue system capable of efficiently and flexibly searching by estimating meanings corresponding to ambiguous words included in a natural language input from a user.
In addition, the present invention can provide natural information that matches the user's sense even when the user has used the dialogue system less frequently, improving the efficiency of information retrieval and user convenience. An object of the present invention is to provide a voice dialogue system that can be improved.
In addition, the present invention learns a value represented by an ambiguous word from a user's utterance history, can automatically set and translate it according to the user, improve information retrieval efficiency, and sense of the user. It is an object of the present invention to provide a spoken dialogue system that improves the convenience for the user by presenting natural information that matches the requirements.
[0010]
[Means for Solving the Problems]
The spoken dialogue system according to the present invention provides a dialogue system that expresses a command intention defined corresponding to a dialogue system operation, an item defining a parameter type of the dialogue system operation, and an item value that is a value corresponding to the item. Command knowledge storage means for storing conversion knowledge for converting a natural language into a command as command knowledge, and words that cannot be uniquely converted into item values in natural language are defined as ambiguous words, items of ambiguous words and ambiguous words , And an ambiguous word dictionary storage means for storing a meaning indicator corresponding to the ambiguous word as an ambiguous word dictionary, and an ambiguous word dictionary stored in the ambiguous word dictionary storage means, and is included in the natural language input by the user Replace the ambiguous word with the meaning indicator corresponding to the ambiguous word, create a pair of the ambiguous word item and the meaning indicator, and store the command knowledge stored in the command knowledge storage means And a command conversion means for converting the input natural language into a command including a pair of an ambiguous word item and a semantic indicator, and estimated value information for estimating a value of the semantic indicator corresponding to the ambiguous word Is stored in the estimated value information storage means for a command including a pair of an ambiguous word item and a semantic marker input from the command converting means. An ambiguous word translating means for determining an estimated value of a semantic indicator corresponding to an ambiguous word and outputting it together with a command with reference to estimated value information corresponding to the user identifierThe relationship between the estimated values corresponding to the meaning indicators is defined as a function, and the interpolation model storage means stored as an interpolation model, the user identifier from the ambiguous word translation means, and the meaning sign of the ambiguous word are input, and the user Of the ambiguous words in the estimated value information corresponding to the identifier, for the ambiguous words for which the estimated value information of the input semantic marker is unlearned, the learned ambiguous words are obtained using the interpolation model of the interpolation model storage means. An estimated value interpolation means for calculating an estimated value of an unlearned meaning sign from the estimated value information for the meaning sign and outputting it to the ambiguous word translation means;It is equipped with.
[0012]
Spoken dialogue system according to the present inventionIs defined as a command of a dialog system, an expression consisting of a command intention defined corresponding to a dialog system action, an item defining a parameter type of the dialog system action, and an item value which is a value corresponding to the item as a command of the dialog system. Command knowledge storage means for storing conversion knowledge for conversion into commands as command knowledge, and words that cannot be uniquely converted into item values in natural language are defined as ambiguous words, and correspond to ambiguous words, ambiguous word items, and ambiguous words The ambiguous word dictionary storage means for storing the meaning sign as an ambiguous word dictionary and the ambiguous word dictionary stored in the ambiguous word dictionary storage means, and the ambiguous word included in the natural language input by the user is changed to the ambiguous word. A pair of ambiguous words and a meaning indicator is created by substituting the corresponding meaning indicator, and the command knowledge stored in the command knowledge storage means is referred to and input. Command conversion means for converting a natural language into a command including a pair of an ambiguous word item and a semantic indicator, and use of specifying a user with estimated value information for estimating a value of a semantic indicator corresponding to the ambiguous word A user identifier stored in the estimated value information storage means for a command including an ambiguous word item and a meaning indicator pair input from the command conversion means; An ambiguous word translating means for determining an estimated value of a semantic marker corresponding to an ambiguous word with reference to the corresponding estimated value information and outputting it together with a command, and all user estimated values for storing estimated value information for all users Input the user identifier and the ambiguous word meaning indicator from the information storage means and the ambiguous word translating means, and input the meaning indicator of the ambiguous words in the estimated value information corresponding to the user identifier. For ambiguous words whose fixed value information is unlearned, refer to the estimated value information for all users stored in the all-user estimated value information storage means, and estimate values for semantic markers of learned ambiguous words Estimated value selection means for selecting estimated values of unlearned semantic tags and outputting them to ambiguous word translation means using estimated value information of other users having a high degree of coincidence with informationIt is equipped with.
[0013]
In the spoken dialogue system according to the present invention, a database for storing a set of search target data to which items and item values are assigned, a system and a user by executing a predetermined dialogue system operation corresponding to the input command And a dialogue management means for searching the database and generating a response semantic expression representing the semantic content of the response sentence notified to the user.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described below.
FIG. 1 is a functional block configuration diagram of a voice interaction system according to
[0016]
Next, the operation will be described.
First, a natural language from the user is input to the
[0017]
Next, the
[0018]
The command knowledge stored in the command
[0019]
Further, the
[0020]
FIG. 2 shows an example of the correspondence relationship stored in the ambiguous word
[0021]
When the command input from the
[0022]
The estimated value
[0023]
When a command is input, the
[0024]
Alternatively, as another example of the predetermined interactive procedure, when the intention of the command is a reservation request, items required for reservation, for example, <target name>, <reservation date>, <number>, <room type> If all the item values for, etc. are obtained, confirmation of the reservation operation is performed to the user and the reservation operation is executed after confirmation. If all of the item values are not obtained, the item value of the missing item is obtained. Outputs the semantic representation of the response for asking the user.
[0025]
The semantic expression of the response is an expression format for generating a response sentence that the system notifies the user. A general automatic speech response apparatus includes a sentence generation unit that generates a response sentence from a semantic expression of a response, and a voice synthesis unit that converts a response sentence received from the sentence generation unit into a synthesized speech. The semantic expression of the response output from 5 is notified to the user as voice.
[0026]
For example, as a semantic expression of this response, the result of the database search performed by the system in response to the user's input “Tell me a hotel of 6,000 yen or less at Yokohama Station” is A
[0027]
Furthermore, the
The above is an operation example in the case where the estimated value of the ambiguous word is determined using the estimated value information corresponding to the individual user stored in the estimated value
[0028]
Next, an operation example when learning estimated value information stored in the estimated value
The ambiguous
[0029]
Next, after the response of the
(1) "I'd like about 10,000 yen"
(2) "It doesn't matter if it is a little higher"
(3) "Where is the nearest station of C Hotel"
[0030]
(1) is a case where the amount indicated in the response cannot be accepted and the user explicitly expresses the amount assumed by himself / herself. At this time, the estimated value of the ambiguous word “cheap” can be estimated to be about 10,000 yen in the input command.
(2) is a case where the user cannot accept the amount indicated in the response and the user speaks the intention of the search request to the system again. At this time, it is possible to estimate that the estimated value of the ambiguous word “cheap” is higher than 6000 yen, which is the maximum value of the presented amount, by another ambiguous word “high” in the input command.
(3) is that the intention of the utterance is the intention of <item question> to ask for the item <nearest station> other than the item <charge>. Probably accepted. Therefore, the estimated value of the ambiguous word “cheap” can be estimated to be about 6000 yen.
[0031]
In order to perform the estimation as described above, the estimated knowledge storage unit 10 is configured to estimate knowledge based on the relationship between the response meaning expression stored in the response history storage unit 4 and the command input from the
[0032]
The estimated knowledge stored in the estimated knowledge storage unit 10 is, for example, as knowledge having a condition determination unit that can be divided into cases (1) to (3) as follows with rules of if to then: Describe.
(1) if (the item value A of <present search result> exists in the response of the response history storage unit 4 and item value B exists together with <intention: item value assertion> in the current command) then (estimated Value is item value B)
(2) if (the item value A of <present search result> exists in the response of the response history storage unit 4) and the ambiguous word related to the item corresponding to the item value A together with <intention: search request> in the current command There is a semantic indicator) then (waits for next command input)
(3) if (the item value A of <present search result> exists in the response in the response history storage unit 4) and the previous response together with <intention: item question> relating to an item not corresponding to the item value A in the current command There (there is an item name A corresponding to the object name in the previous response)
[0033]
The estimated
[0034]
As described above, according to the first embodiment, a natural language input including an ambiguous word of a user is converted into a command with an expression including an intention, an item, and an item value, and the meaning corresponding to the ambiguous word By determining the estimated value of the sign and outputting it together with the command, it is possible to obtain an effect that an efficient and flexible search can be performed.
In addition, by learning from the user's utterance history the value represented by the ambiguous word, and automatically setting and translating it according to the user, it is possible to improve the efficiency of information retrieval and to match the user's sense. Information can be presented and the convenience of the user can be improved.
[0035]
In the first embodiment, when there are a plurality of search targets, the item <fee> is defined as a separate item. For example, when the search items are a hotel and a restaurant, the hotel is Search [hotel]: <rate (hotel)> = $ cheap hotel, and the restaurant is Search [restaurant]: <rate (restaurant)> = $. It becomes a cheap restaurant.
[0036]
FIG. 5 is a functional block configuration diagram of the spoken dialogue system according to
Next, the operation will be described.
In the second embodiment, the meaning of an ambiguous word whose estimated value information is not learned in learning of estimated value information stored in the estimated value
[0037]
The interpolation
[0038]
The estimated
[0039]
As described above, according to the second embodiment, an estimated value of an unlearned ambiguous word can be interpolated and calculated from estimated value information of a learned ambiguous word. Even if the number of times is small, it is possible to estimate the item value of ambiguous words, improve the efficiency of information retrieval, and present natural information that matches the user's sense, and improve user convenience The effect of being able to be obtained.
[0040]
FIG. 6 is a functional block configuration diagram of the spoken dialogue system according to
[0041]
Next, the operation will be described.
In the third embodiment, when the number of times the user has used the dialogue system is small, the estimated value for the meaning marker of the ambiguous word whose estimated value information stored in the estimated value
[0042]
The all-user estimated value
[0043]
The estimated
[0044]
As described above, according to the third embodiment, the estimated value of an unlearned ambiguous word is substituted with the estimated value of another user who has a high degree of coincidence of estimated value information. Even when the number of times of using the dialogue system is small, it is possible to estimate the estimated value of ambiguous words, improve the efficiency of information retrieval, and present natural information that matches the user's sense, and convenience for users The effect that can be improved is obtained.
[0045]
In each of the above embodiments, the invention of the voice interaction system has been described. However, the integrated computer system including the voice interaction system of the present invention and the telephone line is constructed, and the input inputted through the telephone line is used. It is possible to develop a business that understands a natural language including an ambiguous word of a customer, that is, a customer, and provides information requested by the customer at a low price. In addition, for example, a significant effect can be obtained by applying the voice interactive system of the present invention to various service agents such as reception, ordering, reservation, and the like, and to a telephone voice automatic response device that provides information requested by the user. Alternatively, by applying the speech dialogue system of the invention, an effect of realizing a vending machine that understands a natural language including an ambiguous word of a customer can be obtained.
[0046]
【The invention's effect】
As described above, according to the present invention, the voice dialog system is configured such that the command intention defined corresponding to the dialog system operation, the item defining the parameter type of the dialog system operation, and the value corresponding to the item A command knowledge storage means for storing conversion knowledge for converting a natural language into a command as command knowledge, an expression consisting of values as a dialogue system command, and a word that cannot be uniquely converted into an item value in natural language as an ambiguous word, An ambiguous word, an ambiguous word item, and an ambiguous word dictionary storage means for storing a meaning indicator corresponding to the ambiguous word as an ambiguous word dictionary, and an ambiguous word dictionary stored in the ambiguous word dictionary storage means, The ambiguous word contained in the input natural language is replaced with a semantic indicator corresponding to the ambiguous word to create a pair of the ambiguous word item and the semantic indicator and record it in the command knowledge storage means. A command conversion means for converting an input natural language into a command including a pair of an ambiguous word item and a semantic indicator, and estimating a value of a semantic indicator corresponding to the ambiguous word Estimated value information storage means for storing the estimated value information together with a user identifier for identifying the user, and estimated value information storage for a command including a pair of an ambiguous word item and a semantic sign input from the command conversion means An ambiguous word translating means for determining an estimated value of a semantic marker corresponding to an ambiguous word and outputting it together with a command with reference to estimated value information corresponding to the user identifier stored in the means;The relationship between the estimated values corresponding to the meaning indicators is defined as a function, the interpolation model storage means stored as an interpolation model, the user identifier from the ambiguous word translation means and the meaning sign of the ambiguous word are input, and the user Of the ambiguous words in the estimated value information corresponding to the identifier, the ambiguous words that have been learned by using the interpolation model of the interpolation model storage means for the ambiguous words for which the estimated value information of the input semantic marker is unlearned An estimated value interpolating means for calculating an estimated value of an unlearned semantic sign from the estimated value information for the meaning sign and outputting it to the ambiguous word translating means;Therefore, the natural language input including the ambiguous word of the user is converted into a command with an expression consisting of the intention, the item, and the item value, and the estimated value of the semantic indicator corresponding to the ambiguous word is obtained. By determining and outputting together with the command, there is an effect that an efficient and flexible search can be performed.In addition, even when the number of times the user has used the dialogue system is small, it is possible to estimate the item value of the ambiguous word, improve the efficiency of information retrieval, and present natural information that matches the user's sense, There is an effect that the convenience of the user can be improved.
[0048]
Spoken dialogue system in the present inventionIs defined as a command of a dialog system, an expression consisting of a command intention defined corresponding to a dialog system action, an item defining a parameter type of the dialog system action, and an item value which is a value corresponding to the item as a command of the dialog system. Command knowledge storage means for storing conversion knowledge for conversion into commands as command knowledge, and words that cannot be uniquely converted into item values in natural language are defined as ambiguous words, and correspond to ambiguous words, ambiguous word items, and ambiguous words The ambiguous word dictionary storage means for storing the meaning sign as an ambiguous word dictionary and the ambiguous word dictionary stored in the ambiguous word dictionary storage means, and the ambiguous word included in the natural language input by the user is changed to the ambiguous word. A pair of ambiguous words and a meaning indicator is created by substituting the corresponding meaning indicator, and the command knowledge stored in the command knowledge storage means is referred to and input. Command conversion means for converting a natural language into a command including a pair of an ambiguous word item and a semantic indicator, and use of specifying a user with estimated value information for estimating a value of a semantic indicator corresponding to the ambiguous word A user identifier stored in the estimated value information storage means for a command including an ambiguous word item and a meaning indicator pair input from the command conversion means; An ambiguous word translating means for determining an estimated value of a semantic marker corresponding to an ambiguous word with reference to the corresponding estimated value information and outputting it together with a command, and all user estimated values for storing estimated value information for all users Input the user identifier and the ambiguous word meaning indicator from the information storage means and the ambiguous word translating means, and input the meaning indicator of the ambiguous words in the estimated value information corresponding to the user identifier. For ambiguous words whose fixed value information is unlearned, refer to the estimated value information for all users stored in the all-user estimated value information storage means, and estimate values for semantic markers of learned ambiguous words Estimated value selection means for selecting estimated values of unlearned semantic tags and outputting them to ambiguous word translation means using estimated value information of other users having a high degree of coincidence with informationWithRuEven if the number of times the user has used the dialogue system is small, the estimated value of the ambiguous word is estimated to improve the efficiency of information retrieval and present natural information that matches the user's sense. It is possible to improve user convenience.
[0049]
In the spoken dialogue system according to the present invention, a database for storing a set of search target data to which items and item values are assigned, a system and a user by executing a predetermined dialogue system operation in response to an input command. Natural language including user's ambiguous words because it is configured to include dialogue management means that manages the conversation of the user, searches the database, and generates a response semantic expression representing the semantic content of the response sentence notified to the user The input is converted into a command with an expression consisting of intention, item, and item value, the database is searched, and a response adapted to the user's input can be obtained.
[Brief description of the drawings]
FIG. 1 is a functional block configuration diagram of a voice interaction system according to a first embodiment of the present invention.
FIG. 2 is a diagram showing an example of a correspondence relationship between items, ambiguous words, and meaning markers stored in an ambiguous word dictionary storage unit in each embodiment of the present invention.
FIG. 3 is a diagram showing an example of search target data stored in a database according to each embodiment of the present invention.
FIG. 4 is a diagram showing a data structure stored in an estimated information storage unit in
FIG. 5 is a functional block configuration diagram of a voice interaction system according to
FIG. 6 is a functional block configuration diagram of a voice interaction system according to
[Explanation of symbols]
1 command knowledge storage unit (command knowledge storage unit), 2 command conversion unit (command conversion unit), 3 database, 4 response history storage unit (response history storage unit), 5 dialog management unit (dialog management unit), 6 ambiguous word Dictionary storage unit (ambiguous word dictionary storage unit), 7 estimated value information storage unit (estimated value information storage unit), 8 ambiguous word translation unit (ambiguous word translation unit), 9 ambiguous word storage unit (ambiguous word storage unit), 10 Estimated knowledge storage unit (estimated knowledge storage unit), 11 Estimated value adaptation unit (estimated value adaptation unit), 12 Interpolation model storage unit (interpolation model storage unit), 13 Estimated value interpolation unit (estimated value interpolation unit), 14 Full use Estimated value information storage unit (all user estimated value information storage means), 15 estimated value selection unit (estimated value selection means).
Claims (3)
自然言語において項目値へ一意に変換できない語を曖昧語とし、曖昧語、曖昧語の項目、及び曖昧語に対応する意味標識を曖昧語辞書として記憶する曖昧語辞書記憶手段と、
上記曖昧語辞書記憶手段に記憶された曖昧語辞書を参照して、利用者が入力した自然言語に含まれる曖昧語を曖昧語に対応する意味標識に置換して、曖昧語の項目と意味標識の対を作成し、上記コマンド知識記憶手段に記憶されたコマンド知識を参照して、入力された自然言語を、上記曖昧語の項目と意味標識の対を含んだコマンドに変換するコマンド変換手段と、
曖昧語に対応する意味標識の値を推定するための推定値情報を利用者を特定する利用者識別子とともに記憶する推定値情報記憶手段と、
上記コマンド変換手段から入力される曖昧語の項目と意味標識の対を含んだコマンドに対し、上記推定値情報記憶手段に記憶された利用者識別子に対応した推定値情報を参照して、曖昧語に対応する意味標識の推定値を決定してコマンドとともに出力する曖昧語翻訳手段と、
前記意味標識に対応する推定値同士の関係を関数として規定し、補間モデルとして記憶した補間モデル記憶手段と、
曖昧語翻訳手段からの利用者識別子及び曖昧語の意味標識を入力とし、利用者識別子に対応した推定値情報における曖昧語のうち、入力された意味標識の推定値情報が未学習である曖昧語に対して、上記補間モデル記憶手段の補間モデルを用いて、学習済の曖昧語の意味標識に対する推定値情報から、未学習の意味標識の推定値を算出して曖昧語翻訳手段へ出力する推定値補間手段と、
を備えた音声対話システム。An expression consisting of a command intention defined corresponding to a dialog system operation, an item defining a parameter type of the dialog system operation, and an item value that is a value corresponding to the item is defined as a dialog system command, and a natural language is converted to a command. Command knowledge storage means for storing conversion knowledge for conversion as command knowledge;
An ambiguous word dictionary storage means for storing an ambiguous word, an ambiguous word item, and a meaning indicator corresponding to the ambiguous word as an ambiguous word dictionary as a word that cannot be uniquely converted into an item value in a natural language;
By referring to the ambiguous word dictionary stored in the ambiguous word dictionary storage means, the ambiguous word included in the natural language input by the user is replaced with a semantic indicator corresponding to the ambiguous word, and the ambiguous word item and the semantic indicator A command conversion means for converting the input natural language into a command including a pair of an ambiguous word item and a semantic indicator with reference to command knowledge stored in the command knowledge storage means ,
Estimated value information storage means for storing estimated value information for estimating a value of a meaning sign corresponding to an ambiguous word together with a user identifier for identifying a user;
For a command including an ambiguous word item and a meaning indicator pair input from the command conversion means, refer to the estimated value information corresponding to the user identifier stored in the estimated value information storage means, and the ambiguous word An ambiguous word translation means for determining an estimated value of a semantic sign corresponding to and outputting the estimated sign together with the command;
Interpolation model storage means that defines the relationship between the estimated values corresponding to the meaning markers as a function and stores it as an interpolation model;
Of the ambiguous words in the estimated value information corresponding to the user identifier, the ambiguous word for which the estimated value information of the input semantic marker is unlearned is input. On the other hand, using the interpolation model of the interpolation model storage means, the estimated value of the unlearned meaning tag is calculated from the estimated value information for the learned meaning mark of the ambiguous word and is output to the ambiguous word translation means Value interpolation means;
Spoken dialogue system with
自然言語において項目値へ一意に変換できない語を曖昧語とし、曖昧語、曖昧語の項目、及び曖昧語に対応する意味標識を曖昧語辞書として記憶する曖昧語辞書記憶手段と、An ambiguous word dictionary storage means for storing an ambiguous word, an ambiguous word item, and a meaning indicator corresponding to the ambiguous word as an ambiguous word dictionary as a word that cannot be uniquely converted into an item value in a natural language;
上記曖昧語辞書記憶手段に記憶された曖昧語辞書を参照して、利用者が入力した自然言語に含まれる曖昧語を曖昧語に対応する意味標識に置換して、曖昧語の項目と意味標識の対を作成し、上記コマンド知識記憶手段に記憶されたコマンド知識を参照して、入力された自然言語を、上記曖昧語の項目と意味標識の対を含んだコマンドに変換するコマンド変換手段と、By referring to the ambiguous word dictionary stored in the ambiguous word dictionary storage means, the ambiguous word included in the natural language input by the user is replaced with a semantic indicator corresponding to the ambiguous word, and the ambiguous word item and the semantic indicator A command conversion means for converting the input natural language into a command including a pair of the ambiguous word item and the semantic indicator, with reference to the command knowledge stored in the command knowledge storage means. ,
曖昧語に対応する意味標識の値を推定するための推定値情報を利用者を特定する利用者識別子とともに記憶する推定値情報記憶手段と、Estimated value information storage means for storing estimated value information for estimating a value of a meaning sign corresponding to an ambiguous word together with a user identifier for identifying a user;
上記コマンド変換手段から入力される曖昧語の項目と意味標識の対を含んだコマンドに対し、上記推定値情報記憶手段に記憶された利用者識別子に対応した推定値情報を参照して、曖昧語に対応する意味標識の推定値を決定してコマンドとともに出力する曖昧語翻訳手段と、For a command including an ambiguous word item and a meaning indicator pair input from the command conversion means, refer to the estimated value information corresponding to the user identifier stored in the estimated value information storage means, and the ambiguous word An ambiguous word translation means for determining an estimated value of a semantic sign corresponding to and outputting the estimated sign together with the command;
全ての利用者に対する推定値情報を記憶する全利用者推定値情報記憶手段と、All user estimated value information storage means for storing estimated value information for all users;
曖昧語翻訳手段からの利用者識別子及び曖昧語の意味標識を入力とし、利用者識別子に対応した推定値情報における曖昧語のうち、入力された意味標識の推定値情報が未学習である曖昧語に対して、上記全利用者推定値情報記憶手段に記憶された全ての利用者に対する推定値情報を参照して、学習済の曖昧語の意味標識に対する推定値情報との一致度が高い他の利用者の推定値情報を利用し、未学習の意味標識の推定値を選択して曖昧語翻訳手段へ出力する推定値選択手段と、Of the ambiguous words in the estimated value information corresponding to the user identifier, the ambiguous word whose estimated value information of the input semantic marker is unlearned On the other hand, with reference to the estimated value information for all users stored in the all-user estimated value information storage means, the degree of coincidence with the estimated value information for the meaning sign of the learned ambiguous word is high. Using estimated value information of the user, selecting an estimated value of an unlearned semantic marker and outputting it to an ambiguous word translation means;
を備えたことを特徴とする音声対話システム。A voice dialogue system characterized by comprising:
入力されたコマンドに対応して、所定の対話システム動作を実行してシステムと利用者との対話を管理するとともに上記データベースを検索し、利用者へ通知する応答文の意味内容を表わす応答意味表現を生成する対話管理手段と、
を備えたことを特徴とする請求項1または請求項2のいずれか1項記載の音声対話システム。A database for storing a set of search target data to which items and item values are assigned;
In response to an input command, a predetermined semantic system operation is executed to manage the dialog between the system and the user, and the database is searched and the response semantic expression representing the semantic content of the response sentence notified to the user A dialogue management means for generating
Claim 1 or the speech dialogue system of any one of claims 2, characterized in that with a.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000211551A JP3949356B2 (en) | 2000-07-12 | 2000-07-12 | Spoken dialogue system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000211551A JP3949356B2 (en) | 2000-07-12 | 2000-07-12 | Spoken dialogue system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002024212A JP2002024212A (en) | 2002-01-25 |
JP3949356B2 true JP3949356B2 (en) | 2007-07-25 |
Family
ID=18707639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000211551A Expired - Fee Related JP3949356B2 (en) | 2000-07-12 | 2000-07-12 | Spoken dialogue system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3949356B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10490184B2 (en) | 2016-11-10 | 2019-11-26 | Samsung Electronics Co., Ltd. | Voice recognition apparatus and method |
Families Citing this family (184)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6630800A (en) | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (en) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | SYSTEM AND METHOD TO TRANSFORM TEXTUAL COMMUNICATIONS INTO VOICE AND SEND THEM WITH AN INTERNET CONNECTION TO ANY TELEPHONE SYSTEM |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
JP2005300989A (en) * | 2004-04-13 | 2005-10-27 | Mitsubishi Electric Corp | Speech recognition system |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
JP4986549B2 (en) * | 2006-09-05 | 2012-07-25 | シャープ株式会社 | Electronic device, control method thereof, and translated sentence output program |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
JP5046902B2 (en) * | 2007-12-13 | 2012-10-10 | 三菱電機株式会社 | Voice search device |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
JP5630275B2 (en) | 2011-01-11 | 2014-11-26 | ソニー株式会社 | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
JP5834468B2 (en) * | 2011-04-27 | 2015-12-24 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
JP2016508007A (en) | 2013-02-07 | 2016-03-10 | アップル インコーポレイテッド | Voice trigger for digital assistant |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
KR101759009B1 (en) | 2013-03-15 | 2017-07-17 | 애플 인크. | Training an at least partial voice command system |
CN105190607B (en) | 2013-03-15 | 2018-11-30 | 苹果公司 | Pass through the user training of intelligent digital assistant |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN112230878A (en) | 2013-03-15 | 2021-01-15 | 苹果公司 | Context-sensitive handling of interrupts |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (en) | 2013-06-09 | 2019-11-12 | 苹果公司 | Operate method, computer-readable medium, electronic equipment and the system of digital assistants |
CN105265005B (en) | 2013-06-13 | 2019-09-17 | 苹果公司 | System and method for the urgent call initiated by voice command |
JP6163266B2 (en) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | Automatic activation of smart responses based on activation from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
JP6246658B2 (en) * | 2014-05-15 | 2017-12-13 | Kddi株式会社 | Time expression learning method, apparatus and program |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
JP6251637B2 (en) * | 2014-06-02 | 2017-12-20 | Kddi株式会社 | Information retrieval method, apparatus and program |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
KR102112814B1 (en) | 2015-10-21 | 2020-05-19 | 구글 엘엘씨 | Parameter collection and automatic dialog generation in dialog systems |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
CN109691036B (en) * | 2016-09-16 | 2021-03-19 | 甲骨文国际公司 | Internet cloud hosted natural language interactive messaging system with entity-based communication |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | Far-field extension for digital assistant services |
US11322141B2 (en) | 2017-08-17 | 2022-05-03 | Sony Corporation | Information processing device and information processing method |
EP3567585A4 (en) * | 2017-11-15 | 2020-04-15 | Sony Corporation | Information processing device and information processing method |
JP7169096B2 (en) * | 2018-06-18 | 2022-11-10 | 株式会社デンソーアイティーラボラトリ | Dialogue system, dialogue method and program |
WO2020071549A1 (en) * | 2018-10-04 | 2020-04-09 | アイシン・エィ・ダブリュ株式会社 | Information provision system, information provision device, and computer program |
JP7351701B2 (en) * | 2018-10-04 | 2023-09-27 | 株式会社アイシン | Information provision system, information provision device and computer program |
JP6646240B1 (en) * | 2019-04-09 | 2020-02-14 | 富士通クライアントコンピューティング株式会社 | Information processing apparatus and information processing program |
JP7074785B2 (en) * | 2020-01-17 | 2022-05-24 | 株式会社日立製作所 | Ambiguous part correction support device and method |
CN113096654B (en) * | 2021-03-26 | 2022-06-24 | 山西三友和智慧信息技术股份有限公司 | Computer voice recognition system based on big data |
-
2000
- 2000-07-12 JP JP2000211551A patent/JP3949356B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10490184B2 (en) | 2016-11-10 | 2019-11-26 | Samsung Electronics Co., Ltd. | Voice recognition apparatus and method |
Also Published As
Publication number | Publication date |
---|---|
JP2002024212A (en) | 2002-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3949356B2 (en) | Spoken dialogue system | |
US20230401259A1 (en) | Providing command bundle suggestions for an automated assistant | |
Chu-Carroll | MIMIC: An adaptive mixed initiative spoken dialogue system for information queries | |
US6917920B1 (en) | Speech translation device and computer readable medium | |
JP4267081B2 (en) | Pattern recognition registration in distributed systems | |
US9742912B2 (en) | Method and apparatus for predicting intent in IVR using natural language queries | |
US10430158B2 (en) | Voice recognition keyword user interface | |
EP1602102B1 (en) | Management of conversations | |
EP2571023B1 (en) | Machine translation-based multilingual human-machine dialog | |
US7869998B1 (en) | Voice-enabled dialog system | |
EP1901283A2 (en) | Automatic generation of statistical laguage models for interactive voice response applacation | |
CN111680512B (en) | Named entity recognition model, telephone exchange extension switching method and system | |
US20020111786A1 (en) | Everyday language-based computing system and method | |
US20210165831A1 (en) | Search result display device, search result display method, and non-transitory computer readable recording medium | |
Di Fabbrizio et al. | AT&t help desk. | |
WO2019160152A1 (en) | Dialog management server, dialog management method, and program | |
JP2003030187A (en) | Automatic interpreting system, conversation learning device, automatic interpreting device, its method and its program | |
JP2001100787A (en) | Speech interactive system | |
Huang et al. | DuIVRS: A Telephonic Interactive Voice Response System for Large-Scale POI Attribute Acquisition at Baidu Maps | |
JP3870722B2 (en) | Translation device, recording medium | |
JPH07282081A (en) | Voice interactive information retrieving device | |
KR20040080272A (en) | The System and Method for Automatic Order Processing using Speech Recognition | |
CN117594067A (en) | Voice user emotion recognition method based on AI intelligent neural network | |
Seydoux et al. | Dialogue Management with weak speech recognition: a pragmatic approach | |
JPS62169220A (en) | Man-machine interface system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070320 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070418 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3949356 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100427 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110427 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120427 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120427 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130427 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130427 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140427 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |