JPH096389A - 音声認識対話処理方法および音声認識対話装置 - Google Patents
音声認識対話処理方法および音声認識対話装置Info
- Publication number
- JPH096389A JPH096389A JP7156528A JP15652895A JPH096389A JP H096389 A JPH096389 A JP H096389A JP 7156528 A JP7156528 A JP 7156528A JP 15652895 A JP15652895 A JP 15652895A JP H096389 A JPH096389 A JP H096389A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- word
- input
- registered
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 19
- 230000002452 interceptive effect Effects 0.000 title claims description 8
- 238000001514 detection method Methods 0.000 claims abstract description 155
- 238000004458 analytical method Methods 0.000 claims abstract description 44
- 238000013500 data storage Methods 0.000 claims abstract description 19
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 14
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 26
- 241001465754 Metazoa Species 0.000 description 23
- 239000013598 vector Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 230000002194 synthesizing effect Effects 0.000 description 4
- 241000167854 Bourreria succulenta Species 0.000 description 3
- 235000019693 cherries Nutrition 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
となく、より自然な会話を可能とする。 【構成】 音声入力部1により入力された音声を分析し
て音声特徴データを発生する音声分析部2と、認識可能
な登録単語の標準音声特徴データを記憶する標準音声特
徴データ記憶部4と、前記音声特徴データを入力し、標
準音声特徴データ記憶部4の記憶内容を基に、入力音声
に含まれる登録単語に対応した検出データを出力する単
語検出部3と、前記音声特徴データを入力し、その特徴
データを基にして入力音声が肯定内容か否定内容かを識
別して、肯定または否定信号を出力する肯定否定識別部
5と、前記単語検出部3による登録単語の検出モードま
たは前記肯定否定識別部5による肯定否定識別モードの
いずれかのモードを設定し、設定されたモードにおい
て、入力音声に応じた応答内容を決定する音声理解会話
制御部6を有する。そして、応答内容を音声合成部8で
音声合成した後、音声出力部10から出力する。
Description
識結果に対応した応答や特定動作を行う音声認識対話処
理方法および音声認識対話装置に関する。
音声認識玩具がある。たとえば、特開昭62ー2530
93に開示されている音声認識玩具においては、音声指
令となる複数の命令語を認識対象言語として予め登録し
ておき、その玩具を使って遊ぶ子どもの発した音声信号
と登録されている音声信号との比較を行って、両音声信
号が一致したとき、音声指令に対する定められた電気信
号を出力し、これに基づいて玩具に特定動作を行わせる
ものである。
この種の音声を認識した結果を基に、会話や動作行う、
ぬいぐるみなどの玩具では、話者の話した言葉と違う単
語や言葉を認識してしまうことも多く、また、たとえ単
語や言葉を正しく認識した場合においても、状況や環境
の変化に対応した反応や言葉を返すことはできないのが
一般的であった。つまり、従来のこの種の音声認識を用
いた玩具にあっては、たとえば、「おはよう」、「おや
すみ」などの言葉を予め幾つか登録しておき、話者が、
「おはよう」と問いかけるとそれを認識し、それに対し
た簡単な応答を行うというような単純な動作を行うもの
が殆どであった。
動作を行うものも要求されてきている。したがって、子
どもが「おはよう」と話したとき、単に「おはよう」と
いう程度の応答では、すぐに飽きてしまうことにもな
り、また、この種の音声認識対話技術は、もっと高学年
向きのゲーム機、さらには、日常的に用いる機器にも応
用できる可能性もあり、より高度な技術の開発が望まれ
ている。
れに対する応答を行う連続音声認識応答技術も開発さ
れ、或る技術分野ではすでに用いられているが、この技
術は、通常は極めて複雑で大規模なものであるため、前
記したような玩具、ゲーム機、日常用いる機器などに
は、価格の面から考えても、適用できるもではなかっ
た。
なく、より自然な会話を可能とし、しかも簡単な構成で
安価に提供でき、玩具、ゲーム機、日常用いられる電子
機器などに幅広く適用可能な音声認識対話処理方法およ
び音声認識対話装置を実現することを目的としている。
理方法は、音声入力手段により入力された音声を分析し
て音声特徴データを発生する音声分析工程と、この音声
分析工程により分析された音声特徴データを入力し、予
め登録された認識可能な単語の標準音声特徴データを基
に、前記入力音声に含まれる登録単語に対応した検出デ
ータを出力する単語検出工程と、前記音声分析工程によ
り分析された音声特徴データを入力し、その特徴データ
を基にして入力音声が肯定内容か否定内容かを識別し、
肯定内容であるときは肯定であることを示す信号を出力
し、否定内容であるときは否定であることを示す信号を
出力する肯定否定識別工程と、前記単語検出工程による
登録単語の検出モードまたは前記肯定否定識別工程によ
る肯定否定識別モードのいずれかのモードを、そのとき
の状況によって設定し、登録単語の検出モードの場合
は、前記単語検出工程からの検出データを入力し、この
検出データを基に前記入力音声の意味を理解し、それに
対応した応答内容を決定し、肯定否定識別モードの場合
は、前記肯定否定識別工程による前記肯定または否定信
号を入力してそれに対応した応答内容を決定する音声理
解会話制御工程と、この音声理解会話制御工程によって
決定された応答内容に基づいた音声合成出力を発生する
音声合成工程と、この音声合成工程からの音声合成出力
を外部に出力する音声出力工程を有したことを特徴とし
ている。
らの音声特徴データに最初に出現する母音部を検出し、
その母音の種類によって入力音声が肯定内容か否定内容
かを識別する。
る登録単語検出モードまたは肯定否定識別モードの設定
は、初期状態においては登録単語検出モードとし、ユー
ザに対して肯定または否定を意味する内容の返事を装置
側から要求した場合に、肯定否定識別モードに切り替え
るようにする。
録単語に対する標準音声特徴データと、音声分析工程か
ら出力される音声特徴データとを比較し、前記登録単語
が入力音声の時間軸上のどの部分にどの程度の確からし
さで存在するかを、それぞれの登録単語毎に、確からし
さを示す数値で検出してその検出データを音声理解会話
制御工程に送り、音声理解会話制御工程では、その検出
データを基に、そのとき入力された入力音声全体の意味
を理解し、それに対応した応答内容を決定する。この場
合、前記音声理解会話制御工程は、前記単語検出工程か
らの検出データにおいて、入力音声の時間軸上の同一時
刻に2つ以上の登録単語が共に所定以上の高い確からし
さを示す数値で現れている場合、最も高い確からしさを
有する登録単語を認識候補として決定する。あるいは、
それぞれの登録単語に対応してその登録単語が入力され
た場合の各登録単語に現れる確からしさを示す数値を表
した相関表を予め作成しておき、前記単語検出工程から
の検出データにおいて、入力音声の時間軸上の同一時刻
に2つ以上の登録単語が共に所定以上の高い確からしさ
を示す数値で現れている場合、前記相関表に基づいてい
ずれか1つの単語を認識候補として決定する。さらに、
前記音声理解会話制御工程は、前記単語検出工程からの
検出データにおいて、入力音声の時間軸上の異なった時
刻に2つ以上の登録単語が共に所定以上の高い確からし
さを示す数値で現れている場合、これら各登録単語か
ら、そのとき入力された入力音声全体の意味を理解し、
それに対応した応答内容を決定するようにする。また、
前記音声理解会話制御工程は、前記単語検出工程からの
検出データにおいて、入力音声の時間軸上の異なった時
刻に2つ以上の登録単語が共に所定以上の高い確からし
さを示す数値で現れている場合、これら各登録単語の関
連性を判断し、関連性のない場合には、それを示す情報
を出力する。前記音声理解会話制御工程は、前記単語検
出工程からの検出データにおいて、入力音声の時間軸上
の異なった時刻に予め定めた数以上の登録単語がともに
所定以上の高い確からしさを示す数値で現れている場合
は、認識不可として、それを示す情報を出力する。
音声分析工程から出力される入力音声の音量を示す信号
を得て、その音量を示す信号の大きさを判定して、予め
設定した上限値より大きいとき、または、予め設定した
下限値より小さいときは、それを示す情報を出力する。
さらに、前記音声理解会話制御工程は、前記音声分析工
程から出力される入力音声の音量を示す信号を得て、そ
の音量を示す信号の大きさから音声入力があったことを
検出し、かつ、音声入力があったにも係わらず認識でき
なかった場合には、それを示す情報を出力する。また、
前記音声理解会話制御工程は、装置が音声を出力してい
るときは、外部からの音声の入力を禁止する。
単語のなかで、或る登録単語と結びついて用いられる特
定の登録単語に対しては、前記或る単語が入力された場
合に限り、専用の認識モードを設定し、前記或る単語が
入力された場合は、当該専用モードにより、前記特定単
語の認識を行うようにする。
刻、気温、気圧、日付などの変動データさらには装置の
状態などのデータを入力し、前記単語検出工程または肯
定否定識別工程からの内容に対して、前記変動データお
よび装置の状態データを基に、応答データを決定する。
を入力する音声入力手段と、この音声入力手段により入
力された音声を分析して音声特徴データを発生する音声
分析手段と、予め登録された認識可能な単語の標準音声
特徴データを記憶する標準音声特徴データ記憶手段と、
前記音声分析手段からの音声特徴データを入力し、前記
標準音声特徴データ記憶手段の記憶内容を基に、入力音
声に含まれる登録単語に対応した検出データを出力する
単語検出手段と、前記音声分析手段からの音声特徴デー
タを入力し、その特徴データを基にして入力音声が肯定
内容か否定内容かを識別し、肯定内容であるときは肯定
であることを示す信号を出力し、否定内容であるときは
否定であることを示す信号を出力する肯定否定識別手段
と、前記単語検出手段による登録単語の検出モードまた
は前記肯定否定識別手段による肯定否定識別モードのい
ずれかのモードを、そのときの状況によって設定し、登
録単語の検出モードの場合は、前記単語検出部からの検
出データを入力し、この検出データを基に前記入力音声
全体の意味を理解し、それに対応した応答内容を決定
し、肯定否定識別モードの場合は、前記肯定否定識別手
段からの前記肯定または否定信号を入力してそれに対応
した応答内容を決定する音声理解会話制御手段と、この
音声理解会話制御手段によって決定された応答内容に基
づいた音声合成出力を発生する音声合成手段と、この音
声合成手段からの音声合成出力を外部に出力する音声出
力手段とを有したことを特徴としている。
らの音声特徴データに最初に出現する母音部を検出し、
その母音の種類によって入力音声が肯定内容か否定内容
かを識別する。
る登録単語検出モードまたは肯定否定識別モードの設定
は、初期状態においては登録単語検出モードとし、ユー
ザに対して肯定または否定を意味する内容の返事を装置
側から要求した場合に、肯定否定識別モードに切り替え
るようにする。
録単語に対する標準音声特徴データと、音声分析部から
出力される音声特徴データとを比較し、前記登録単語が
入力音声の時間軸上のどの部分にどの程度の確からしさ
で存在するかを、それぞれの登録単語毎に、確からしさ
を示す数値で検出してその検出データを音声理解会話制
御手段に送り、音声理解会話制御手段では、その検出デ
ータを基に、そのとき入力された入力音声全体の意味を
理解し、それに対応した応答内容を決定する。この場
合、前記音声理解会話制御手段は、前記単語検出手段か
らの検出データにおいて、入力音声の時間軸上の同一時
刻に2つ以上の登録単語が共に所定以上の高い確からし
さを示す数値で現れている場合、最も高い確からしさを
有する登録単語を認識候補として決定する。あるいは、
それぞれの登録単語に対応してその登録単語が入力され
た場合の各登録単語に現れる確からしさを示す数値を表
した相関表を予め作成しておき、前記単語検出手段から
の検出データにおいて、入力音声の時間軸上の同一時刻
に2つ以上の登録単語が共に所定以上の高い確からしさ
を示す数値で現れている場合、前記相関表に基づいてい
ずれか1つの単語を認識候補として決定する。さらに、
前記音声理解会話制御手段は、前記単語検出手段からの
検出データにおいて、入力音声の時間軸上の異なった時
刻に2つ以上の登録単語が共に所定以上の高い確からし
さを示す数値で現れている場合、これら各登録単語か
ら、そのとき入力された入力音声全体の意味を理解し、
それに対応した応答内容を決定するようにする。また、
前記音声理解会話制御手段は、前記単語検出手段からの
検出データにおいて、入力音声の時間軸上の異なった時
刻に2つ以上の登録単語が共に所定以上の高い確からし
さを示す数値で現れている場合、これら各登録単語の関
連性を判断し、関連性のない場合には、それを示す情報
を出力する。前記音声理解会話制御手段は、前記単語検
出手段からの検出データにおいて、入力音声の時間軸上
の異なった時刻に予め定めた数以上の登録単語がともに
所定以上の高い確からしさを示す数値で現れている場合
は、認識不可として、それを示す情報を出力する。
音声分析手段から出力される入力音声の音量を示す信号
を得て、その音量を示す信号の大きさを判定して、予め
設定した上限値より大きいとき、または、予め設定した
下限値より小さいときは、それを示す情報を出力する。
さらに、前記音声理解会話制御手段は、前記音声分析手
段から出力される入力音声の音量を示す信号を得て、そ
の音量を示す信号の大きさから音声入力があったことを
検出し、かつ、音声入力があったにも係わらず認識でき
なかった場合には、それを示す情報を出力する。また、
前記音声理解会話制御手段は、装置が音声を出力してい
るときは、外部からの音声の入力を禁止する。
単語のなかで、或る登録単語と結びついて用いられる特
定の登録単語に対しては、前記或る単語が入力された場
合に限り、専用の認識モードを設定し、前記或る単語が
入力された場合は、当該専用モードにより、前記特定単
語の認識を行うようにする。
刻、気温、気圧、日付などの変動データさらには装置の
状態などのデータを入力し、前記単語検出部または肯定
否定識別部からの内容に対して、前記変動データおよび
装置の状態データを基に、応答データを決定する。
いかけに対する装置からの応答内容が、話者に対して肯
定か否定を意味する返事を要求する場合、会話モードが
肯定否定のモードに切り替えられて、話者の返事の内容
からそれが肯定内容か否定内容かを判断して、それに対
する応答メッセージを発生することができ、登録単語以
外の言葉でも会話が可能となり、認識可能な登録単語数
を増やすことなく、幅広いバリエーションを持った自然
に近い会話が可能となる。また、或る単語(登録単語)
を認識させる場合、その単語を含んだ文節形の内容であ
っても、正確にその単語をキーワードとして認識するこ
とができ、さらに、登録単語が2つ以上含まれた連続的
な音声入力に対しても、キーワードとなる登録単語を検
出することにより、入力音声全体の意味を理解して、そ
れに対する応答が可能となるため、認識可能な登録単語
数を増やすことなく、より一層、幅広いバリエーション
を持った自然に近い会話が可能となる。
データさらには装置の状態などのデータを用い、前記単
語検出部または肯定否定識別部からの内容に対して、そ
の変動データおよび装置の状態データを基に、応答デー
タを決定することによって、様々な状況に応じた応答が
行え、幅広いバリエーションの会話が可能となる。
する。なお、この実施例では、本発明を玩具に適用した
場合を例にとり、特にここでは、幼児用の玩具として、
たとえば、犬などのぬいぐるみに適用した場合について
説明する。図1は本発明の実施例を説明する構成図であ
り、概略的には、音声入力部1、音声分析部2、単語検
出部3、標準音声特徴データ記憶部4、肯定否定識別部
5、音声理解会話制御部6、状態記憶部7、音声合成部
8、応答データ記憶部9、音声出力部10、変動データ
検出部20(計時部11、カレンダ部12、気圧検出部
13、気温検出部14など)などから構成され、これら
は、ここでは図示されていないが、ぬいぐるみの中に納
められている。これら各部におけるそれぞれの機能など
については、以下に順次説明する。
イクロホン、増幅器、ローパスフィルタ、A/D変換器
などから構成され、マイクロホンから入力された音声
を、増幅器、ローパスフィルタを通して適当な音声波形
としたのち、A/D変換器によりディジタル信号(たと
えば、12KHz.16bits)に変換して出力し、
その出力を音声分析部2に送る。音声分析部2では、音
声入力部1から送られてきた音声波形信号を、演算器
(CPU)を用いて短時間毎に周波数分析を行い、周波
数の特徴を表す数次元の特徴ベクトルを抽出(LPCーCEP
STRUM係数が一般的)し、この特徴ベクトルの時系列
(以下、音声特徴ベクトル列という)を単語検出部3、
肯定否定識別部5に送る。
算器(CPU)と処理プログラムを記憶しているROM
から構成され、標準音声特徴データ記憶部4に登録され
ている単語が、入力音声中のどの部分にどれくらいの確
かさで存在するかを検出するものであり、これについて
は後述する。標準音声特徴データ記憶部4は、多数(た
とえば、200人程度)の話者が発話した音声を用いて
予め作成した認識対象単語の標準音声特徴データを記憶
(登録)している。ここでは、ぬいぐるみを例にしてい
るので、認識対象単語は10単語程度とし、その単語と
しては、たとえば、「おはよう」、「おやすみ」、「こ
んにちは」、「明日」、「天気」など挨拶に用いる言葉
が多いが、これに限定されるものではなく、色々な単語
を登録することができ、登録単語数も10単語に限られ
るものではない。
ていないが主に演算器(CPU)と処理プログラムを記
憶しているROMから構成され、話者の話した音声が肯
定語か否定語かを判定するものである。つまり、装置
(ぬいぐるみ)からの応答が話者に対してyesかno
かの返事を求めるような内容の場合、その返事が肯定の
意味か否定の意味かを判別する。この場合、話者の返事
は、「はい」などというように1つの単語による返事、
「そうだね、一緒に行こうよ」などというように文節形
による返事、「そうだね、一緒に行こうよ。明日は楽し
みだね・・・」などといように文章形による返事のいず
れでもよい。この肯定否定識別部5は、音声分析部2か
ら出力される前記したような肯定否定を意味する返事に
対する音声の特徴ベクトル列における最初に出現する母
音部を抽出し、抽出された母音部の種類によって、話者
の返事が肯定か、否定かを検出して、肯定であれば肯定
であることを示す信号Yを出力し、否定であれば否定で
あることを示す信号Nを出力する。
ベクトル列における最初に出現する母音部が、「a」、
「u」、「o」であった場合には、話者の返事は肯定を
意味する内容であると判断し、これに対して、最初に出
現する母音部が、「i」、「e」であった場合には、話
者の返事は否定を意味する内容であると判断する。たと
えば、話者の返事が「はい(hai)」、「うん(u
n)」、「そうです(soudesu)」などのように
肯定を意味する内容である場合には、最初に出現する母
音は、この場合、「a」、「u」、「o」であり、ま
た、話者の返事が「いいえ(iie)」、「違う(ti
gau)」などのように否定を意味する内容である場合
には、最初に出現する母音は、いずれも「i」である。
これは、統計的なデータから検討した結果、95%程度
の正解率が得られることがわかっている。これに関して
は幾つかの例外も有るがこれについては後述する。
数話者の音声を用いて予め得られている各母音の特徴ベ
クトル群のそれぞれの特徴ベクトルに対し、入力音声の
時系列に沿った特徴ベクトル列の各特徴ベクトルを、時
系列に従って1つづつ距離などで比較して行き、その距
離が或るしきい値よりも小さいなどの条件を用いて、母
音部を抽出する方法が考えられる。たとえば、「そうで
す(soudesu)」という入力音声があった場合、
その特徴ベクトル列の1つ1つの特徴ベクトルを、
「a」、「i」、「u」、「e」、「o」の各特徴ベク
トルとの距離を比較すると、この場合、最初に、「o」
の特徴ベクトルとの距離が或るしきい値以下になる可能
性が高く、これにより、「そうです」という単語に最初
に現れる母音は「o」であるということが検出される。
コフモデル(HMM)方式やDPマッチング方式などを
用いることも可能であるが、ここでは、DRNN(ダイ
ナミック リカレント ニューラル ネットワーク)方
式によるキーワードスポッティング処理(この技術に関
しては、本出願人がすでに特許出願済みである(特開平
6ー4097、特開平6ー119476)を用いて、不
特定話者による連続音声認識に近い音声認識を行う。
て、図2を参照しながら簡単に説明する。単語検出部3
は、標準音声特徴データ記憶部4に登録されている単語
が、入力音声中のどの部分にどれくらいの確かさで存在
するかを検出するものである。今、話者が「明日の天気
は、・・・」と問いかけた場合、図2(a)に示すよう
な音声信号が出力されたとする。この「明日の天気は、
・・・」の文節のうち、「明日」と「天気」がこの場合
のキーワードとなり、これらは、予め登録されている1
0単語程度の登録単語の1つとして、標準音声特徴デー
タ記憶部4にそのパターンが記憶されている。そして、
これら登録単語をたとえば10単語としたとき、これら
10単語(これを、単語1、単語2、単語3、・・・と
する)に対応して各単語を検出するための信号が出力さ
れていて、その検出信号の値などの情報から、入力音声
中にどの程度の確かさで対応する単語が存在するかを検
出する。つまり、単語1として「天気」という単語が入
力音声中に存在したときに、その「天気」という信号を
待っている検出信号が、同図(b)の如く、入力音声の
「天気」の部分で立ち上がる。同様に、単語2として
「明日」という単語が入力音声中に存在したときに、そ
の「明日」という信号を待っている検出信号が、同図
(c)の如く、入力音声の「明日」の部分で立ち上が
る。同図(b),(c)において、0.9あるいは0.8とい
った数値は、確からしさを示す数値であり、0.9や0.8と
いった高い数値であれば、その高い確からしさを持った
登録単語は、入力された音声に対する認識候補であると
いうことができる。つまり、「明日」という登録単語
は、入力音声信号の時間軸上のw1の部分に0.8という
確からしさで存在し、「天気」という登録単語は入力音
声信号の時間軸上のw2の部分に0.9という確からしさ
で存在することがわかる。
入力に対して、同図(d)に示すように、単語3(この
単語3は「何時」という登録単語であるとする)を待つ
信号も、時間軸上のw2の部分に、ある程度の確からし
さ(その数値は0.6程度)を有して立ち上がっている。
このように、入力音声信号に対して同一時刻上に、2つ
以上の登録単語が認識候補として存在する場合には、最
も近似度(確からしさを示す数値)の高い単語を認識単
語として選定する方法、各単語間の相関規則を表した相
関表を予め作成しておき、この相関表により、いずれか
1つの単語を認識単語として選定する方法などを用い
て、或る1つの認識候補単語を決定する。この相関表を
用いてある1つの単語を認識単語として選定する方法の
具体例について説明する。なお、この処理は、音声理解
会話制御部6で行われる。
力された各単語に対する近似度を表したものである。こ
れを図3を用いて説明する。ここでは、先に説明した図
2を参照して説明を行う都合上、認識単語数を4個とし
て説明する。図3(a)は図2の時間軸上のw2の部分
における単語検出部3からの出力(この場合、近似度)
を示すもので、単語1の近似度は0.9と高い数値となっ
ており、また、単語3の近似度は0.6と比較的高い数値
となっている。また、単語2と単語4の近似度は極めて
低い値となっている。
関を表すものであり、単語1が入力音声として入力され
た場合、単語検出部3からの近似度は、単語1の近似度
は0.9と高い数値になり、それに次いで単語3の近似度
が比較的高い数値となるが、単語2、単語4の近似度は
それぞれ極めて小さい数値となることが表されている。
同様に、図3(c)は、単語3に対する各単語間の相関
を表すものであり、単語3が入力された場合、単語検出
部3からの近似度は、単語3の近似度は0.9と高い数値
になるが、単語1、単語2、単語4の近似度はそれぞれ
極めて小さい数値となることが表されている。これは、
単語1(ここでは「天気」)が入力された場合、登録単
語の中の単語1(「天気」)と単語2(ここでは「何
時」)が認識候補とされる可能性があることが予め設定
されている。
された場合には、単語1、2、4は近似度が低く、単語
3のみが認識候補となることが予め設定されているとい
うことである。なお、このような相関関係は状態記憶部
7に予め格納しておく。
力が音声理解会話制御部6に与えられると、状態記憶部
7に格納されている前記したような相関表から、この場
合は、認識単語は単語1であると判断する。つまり、も
し単語1が入力された場合は、単語1と単語3が認識候
補となる可能性があるが、単語3が入力された場合は、
単語1は認識候補ではないということがわかるため、こ
の場合は、入力された単語は単語1であると判断され
る。
のみが図示されているが、実際には、登録単語全てにつ
いて各単語間の相関が表されており、これらは状態記憶
部7に格納されている。そして、これら相関表の内容は
書き換え可能となっている。これは、話者個々の特性、
つまり、話者によっては、或る単語を話すと、必ず他の
或る単語の近似度が大きい数値で出てくるというよう
に、話者の話し方に個性があることに対応するためであ
り、それに合わせて相関表の内容を更新可能としてい
る。
PU)と処理プログラムを記憶しているROMから構成
され、以下に述べるような様々な処理を行う。なお、以
上の各部に設けられたCPUは、各部ごとに設けるよう
にしてもよいが、1台のCPUで各部の処理を行うよう
にしてもよい。
らの認識単語出力または前記肯定否定識別部5から肯定
否定の出力(YまたはN)のいずれかを選択して、会話
モード設定を行うとともに、計時部11、カレンダ部1
2、気圧検出部13、気温検出部14などからなる変動
データ検出部20から得られる変動データおよび状態記
憶部7の記憶内容(これについては後述する)を基に、
入力音声の意味を理解し、その意味および環境や時刻に
応じた応答内容を決定し、音声合成部8および応答デー
タ記憶部9へ出力信号を送る。たとえば、単語検出部3
からの図2(b)〜(e)に示すような検出データ(こ
れをワードラティスという。このワードラティスは、登
録単語名、近似度、単語の始点sと終点eを示す信号な
どが含まれる)が入力されると、まず、そのワードラテ
ィスを基に、入力音声の中のキーワードとしての単語を
1つまたは複数個決定する。この例では、入力音声は
「明日の天気は・・・」であるので、「明日」と「天
気」が検出されることになり、この「明日」と「天気」
のキーワードから「明日の天気は・・・」という連続的
な入力音声の内容を理解する。
ング処理による連続音声に近い音声認識処理は、日本語
だけでなく他の言語においても適応可能である。たとえ
ば、使用する言語が英語であるとすれば、登録されてい
る認識可能な単語は、たとえば、“good-morning”、
“time”、“tommorow”、“good-night”などが一例と
して挙げられるが、これら認識可能な登録単語の特徴デ
ータが、標準音声特徴データ記憶部4に記憶されてい
る。そして今、話者が「what time is it now」と
問いかけた場合、この「what time is it now」の
文節のうち、単語「time」がこの場合のキーワードとな
り、「time」という単語が入力音声中に存在したとき
に、単語「time」の音声信号を待っている検出信号が、
入力音声の「time」の部分で立ち上がる。そして、単語
検出部3からの検出データ(ワードラティス)が入力さ
れると、まず、そのワードラティスを基に、入力音声の
中のキーワードとしての単語を1つまたは複数個決定す
る。この例では、入力音声は「what time is it no
w」であるので、「time」がキーワードとして検出され
ることになり、このキーワードをもとに、「what time
is it now」という連続的な入力音声の内容を理解
する。
て、前記変動データおよび状態記憶部7の記憶内容など
の各種データに変更があった場合には、変更した情報を
状態記憶部7に書き込む。そして、前記音声合成部8で
音声合成された合成ディジタル信号は、D/A変換器、
増幅器、スピーカなどで構成される音声出力部10に送
られ、応答メッセージとして出力される。さらに、この
音声理解会話制御部6には、前記ワードラティスととも
に、音声分析部2からのパワー信号(入力音声の音量を
示す信号)が、単語検出部3を介して入力される。ま
た、この音声理解会話制御部6は、装置(この場合はぬ
いぐるみ)側が音声を発生している場合には、外部(話
者)からの音声の入力を禁止するようにしている。
ド設定は、初期状態にあっては、自動的に単語認識モー
ドに設定されるようになっており、この場合は、単語検
出部3からの信号を有効とし、肯定否定識別部5からの
信号は無効とする。これに対して、話者が装置(この場
合は、ぬいぐるみ)からの応答メッセージ(yesかn
oを意味する返事を要求する内容の応答メッセージ)に
対する返事(yesまたはnoを意味する内容)をする
場合には、肯定否定識別モードとし、肯定否定識別部7
からの信号を有効とし、単語検出部3からの信号は無効
とする。
答メッセージの内容によって決定する。つまり、装置側
から話者に対して、肯定または否定を意味する内容の返
事を要求するような場合のみ、肯定否定識別モードとす
る。なお、肯定否定識別モードであって、話者からある
一定時間入力が無い場合には、自動的に単語検出モード
に戻る。
部7は、最初に出現する母音部が、「a」、「u」、
「o」であった場合には、話者の返事は肯定を意味する
内容であると判断し、最初に出現する母音部が、
「i」、「e」であった場合には、話者の返事は否定を
意味する内容であると判断するが、その例外もある。た
とえば、「いいよ」は最初に抽出される母音が「i」で
あるが、これは肯定文であり、また、「だめ」は最初に
抽出される母音が「a」であるが、これは否定文であ
る。このような例外の単語に関しては、以下のような処
理を行う。
母音部が例外の単語(この場合、「いいよ」、「だ
め」)に関しては、肯定否定識別モードが選択された後
も、単語検出モードにおいては、これらの例外の単語の
入力を常時監視していて、たとえば、話者から「いい
よ」または「だめ」が入力されて、それらに対応する信
号が立ち上がったときには、単語検出モードの「いい
よ」を優先する。つまり、「いいよ」は肯定否定識別部
5においては、否定を意味すると識別され、否定信号N
が出力されるが、この場合は、単語検出モードの「いい
よ」を優先する処理を行う。また、「だめ」の場合は肯
定否定識別部5においては、肯定を意味すると識別さ
れ、肯定信号Yが出力されるが、この場合は、単語検出
モードの「だめ」を優先する処理を行う。
理内容であるが、この音声理解会話制御部6の1つ1つ
の具体的な処理内容などについては後述する。
れており、現在の会話モード(単語認識モードか肯定否
定識別モード)、前記した各単語毎に設けられた近似度
の相関表、計時部11、カレンダ部12、気圧検出部1
3、気温検出部14などの変動データ(たとえば、数時
間前の気圧、過去数日の特定時間の気温、ぬいぐるみに
対して過去1回から数回「おはよう」、「行って来ま
す」、「ただいま」、「おやすみ」と問いかけた時間、
あるいは、目覚ましのための過去数回のアラーム設定時
間など)、さらには、許容最大(及び最小)音量値、1
回の問いかけの文節(文章)の中に最大幾つまでの登録
単語が可能かを示す同時入力可能単語数などが記憶され
ており、これらは必要に応じて更新可能となっている。
具体的な会話例を用いて本発明を説明する。以下では、
単語認識モードをWORDmodeといい、肯定否定モードをYN
modeという。また、話者の問いかけ内容のなかで中括弧
内の単語は文字認識を行う上でのキーワードであること
を示している。
るから、話者が「{おはよう}ございます」と問いかけ
ると、ぬいぐるみは、「おはよう、今朝は早いね。暖か
いし、お花見に行こうよ」というような応答を行う。
あり、これは登録単語として予め登録されており、「お
はようございます」が入力されると、単語検出部3から
は、図2で説明したように、「おはようございます」と
いう入力に対するワードラティス(登録単語名、近似
度、単語検出部分の始点s及び終点e)が出力され、音
声理解会話制御部6に送られる。
きたワードラティスを基に、入力音声中に存在する単語
(登録単語)を決定する。この場合、「おはようござい
ます」という入力に対し、「おはよう」という単語が近
似度0.9、「おやすみ」という単語が近似度0.6、その他
の単語は、極めて低い近似度で出力されたとすると、音
声理解会話制御部6では、前記したように、最も高い近
似度を有する単語を認識単語とするか、あるいは、相関
表を用いて認識単語を決定するかして、この場合は、
「おはよう」が認識単語として決定される。
と、変動データ検出部20のなかの、たとえば、計時部
11、カレンダ部12、気温検出部14からの時刻情
報、気温情報、カレンダ情報などを得て、これらの情報
を基に、「おはよう」(話者の実際の問いかけは「おは
ようございます」)に対する応答内容を決定する。ぬい
ぐるみからは、前記したように、「おはよう。今朝は早
いね(時刻情報より)。暖かいし(気温情報より)、お
花見に行こうよ?(カレンダ情報より)」などというよ
うに応答する。このような内容は予め設定されている。
否定を意味する返事を要求する内容であるから、会話モ
ードがYNmodeに切り替わる。
対し、話者がたとえば、「うん、行こう」と返事する
と、肯定否定識別部5は、「うん、行こう」の音声特徴
ベクトル列から最初に出現する母音がこの場合、「u」
であるため、話者の返事は肯定内容であると判定し、肯
定信号Yを音声理解会話制御部6に送る。これにより、
音声理解会話制御部6では、それに対する応答内容を決
定し、ぬいぐるみからは、たとえば「わーい」といった
応答を発生する。この「わーい」という応答は肯定また
は否定を要求する内容ではないので、ここで会話モード
がWORDmodeに切り替わる。以上のようにして話者とぬい
ぐるみの会話がなされる。
て来ます}」と言ったとすると、ぬいぐるみは、「行っ
てらっしゃい。今日は雨が降りそうだけど傘持った?
(気圧情報より)」などという会話も可能である。
応答が発生すると、YNmodeに切り替わるが、ぬいぐるみ
からの問いかけに対して、話者が或る一定時間何の返事
もしない場合には、タイムアウトとなって、会話モード
が自動的にWORDmodeに切り替わる。
かな」と問いかけたとする。この場合は、登録単語のキ
ーワードが「明日」と「天気」の2つあり、図2で説明
したようなワードラティスが音声理解会話制御部6に送
られる。これにより、音声理解会話制御部6では、「明
日」、「天気」という2つの単語を認識単語として決定
し、この2つの単語から、話者の問いかけた内容は、
「明日の天気はどうか」という内容であることを理解す
る。そして、この理解した内容を基に、気圧変動を参照
(たとえば、状態記憶部7に時間毎の気圧値を記憶させ
ておき、その変動を参照する)して、明日の天気を予想
し、たとえば、「明日は、いいお天気になるよ」などと
応答する。
種々の変動データとして、たとえば数時間前の気圧、過
去数日の特定時間の気温、ぬいぐるみに対して過去1回
から数回「おはよう」、「行って来ます」、「ただい
ま」、「おやすみ」と問いかけた時間、さらには、過去
の目覚まし用のアラーム設定時刻など)が記憶されてい
るため、たとえば、話者が「「おやすみ}」と問いかけ
ると、ぬいぐるみは、「おやすみなさい。今日は遅いね
(過去の「おやすみ」と言った時刻情報より)、明日は
お休みなの?」というような応答を行い、YNmodeに切り
替わって、話者が「いや、ちがうよ」という否定の返事
を行うと、否定信号Nが出力される。
明日もいつものように7時に起こす?(過去の目覚まし
用のアラーム設定時刻を参考にする)」と応答する。再
び、YNmodeに切り替わって、話者が、「うん、頼むね」
と返事をすると、肯定信号Yが出力され、ぬいぐるみ
は、「わかった。お休みなさい」と応答する。
す内容に対するぬいぐるみからの応答内容は、話者の話
す内容に対応させて、予め設定しておく。たとえば、最
初に「おやすみ」から始まった会話において、会話モー
ドがYNmodeの場合、「・・・7時に起こす?」といった
問いかけに対して、話者からの返事が肯定か否定かを判
断して、それに対応した応答内容を予め設定して内容か
ら取り出して出力するようにする。
間軸上に少し異なる時刻に或る程度高い近似値でそれぞ
れ現れ、しかも上述のように2つの単語が「明日」、
「天気」というように意味が通る場合は、「明日の天気
は・・・」というように理解してそれに対する応答内容
を発生できるが、たとえば、図4に示すように、「明
日」、「おはよう」という単語が同一の時間軸上の少し
異なる時刻に、或る程度の近似値を持ってそれぞれ現れ
た場合は、「明日・・・おはよう」では意味が通らない
ため、このような場合には、近似度の低い方を誤認識と
して排除する。たとえば、「明日」の近似度が0.7、
「おはよう」の近似度が0.9であった場合には、「明
日」を誤認識であるとして排除する。さらに、図5に示
すように、同一時間軸上において、或る時刻に「明日」
という単語が近似度0.9で現れ、その後、或る同一時刻
に「おはよう」と「天気」という単語が両者とも高い近
似度(「おはよう」の単語の近似度を0.7、「天気」の単
語の近似度を0.8とする)で現れた場合には、単語の関
連性の規則を用いて決定する。この場合、まず、「明
日」の近似度が高い数値であれば、「明日」を認識単語
として決定し、続いて、この「明日」に続く単語として
「天気」を選択することにより、結局は、「明日」、
「天気」というように認識単語を決定する。これは、前
記したように相関表により決定される場合もあるが、相
関表により決定されない場合でも、このようにして決定
することもできる。また、このように、関連性のない単
語が認識候補として出てきた場合、以上説明したような
方法で意味の通る内容に決定できればよいが、意味の通
る内容に決定できないような場合には、たとえば、ぬい
ぐるみが「なにかおかしいよ」というような応答を行
い、話者に対して注意を促す。
は、認識可能な登録単語を、仮に10単語程度とした場
合でも、その10単語のみの会話ではなく、幅広いバリ
エーションを持った会話が可能となる。すなわち、従来
では、登録単語が、たとえば、「おはよう」、「おやす
み」、「こんにちわ」などであった場合には、話者はそ
れと全く同じ単語を話すことが要求され、装置側から
は、それらの単語に対応した応答のみが返ってくるとい
う程度のものであったが、本発明は、「おはよう」を言
う場合でも、「おーい、おはよう」、「おはようござい
ます」などという言い方をしても「おはよう」を認識す
ることができる。また、肯定否定識別部5を設け、話者
の問いかけに対するぬいぐるみからの応答内容が、話者
に対してYESか、NOを意味する返事を要求する場合、会
話モードをYNmodeに切り替えて、話者の返事の内容から
それが肯定内容か否定内容かを判断して、それに対する
応答メッセージを発生するようにしたので、登録単語以
外の言葉での会話が可能となり、認識可能な登録単語数
を増やすことなく、より一層、幅広いバリエーションを
持った自然に近い会話が可能となる。
は、以上説明した内容だけではなく、状態記憶部7に記
憶された様々な情報を用いて様々な処理が可能である。
たとえば、状態記憶部7に、各単語に対して時刻や気温
などの変動データによって設定される重みづけ係数を、
状態記憶部7に記憶させておき、この重みづけ係数を用
いて、認識候補単語を決定するようにすれば、認識率を
より高いものとすることができる。前記各単語に対して
設定される重みづけ係数は、たとえば、そのときの時刻
が朝のときは、「おはよう」という単語に対しては大き
な値を設定し、「おやすみ」という単語に対しては小さ
い値を設定することにより、「おはよう」という入力音
声に対して、「おはよう」という単語と「おやすみ」と
いう単語の両方が高い近似度を持って認識候補として出
力された場合でも、重みづけ係数を考慮した近似度を得
ることにより、両者の近似度の差を大きくすることがで
き、認識率の向上を図ることができる。具体例で説明す
ると、朝7時0分における重みづけ係数を、「おはよ
う」という単語に対しては1.0、「おやすみ」という単
語に対しては0.5と設定することにより、「おはよう」
という入力音声に対して、「おはよう」という単語の近
似度が0.9、「おやすみ」という単語の近似度が仮に0.6
と高い数値であっても、重みづけ係数を掛け算すること
により、「おはよう」という単語の近似度は0.9、「お
やすみ」という単語の近似度は0.3となって、両者の差
は3倍以上となるため、この時刻においては、「おはよ
う」という単語が正確に認識されることになる。これ
は、時刻データのみならず、温度データにより、温度に
より「寒い」や「暑い」と言う単語に対して重みづけ係
数を設定することにより、そのときの温度に応じた重み
づけ係数を考慮して、「寒い」や「暑い」といった単語
の認識を行うことにより、同様に、認識率の向上を図る
ことができる。このように、色々な変動データを用いて
重みづけ係数を設定することにより、同じように処理す
ることができる。
析部2からのパワー信号(入力音声の音量)も入力され
るが、このパワー信号の大きさを、予め設定したしきい
値と比較するなどして検出し、或るパワーより大きい場
合には、誤認識する場合があるため、ぬいぐるみから、
「もっと小さな声で話して」というような内容の応答メ
ッセージを発生する。これとは逆に、入力音声が、或る
パワーより小さい場合には、誤認識する場合があるた
め、ぬいぐるみから、「もっと大きな声で話して」とい
うような内容の応答メッセージを発生する。これによ
り、話者は適切な音量の声で話すようになり、認識率の
向上が図れる。
も、認識できなかったような場合、つまり、話者が何か
(登録単語)を話しても、認識できい場合もあるが、こ
のようなときには、ぬいぐるみから、たとえば、「なあ
に」といような応答をおこなうことにより、いかにも生
きた相手と会話しているような雰囲気を味わうことがで
きる。
声によって認識候補として検出される単語数をたとえ
ば、2個までいうように制限を設け、3個以上存在する
場合には、ぬいぐるみから、たとえば、「なにかおかし
いよ」というようなメッセージを発生する。すなわち、
1回の問いかけによる入力音声によって検出された認識
候補単語が、たとえば、「明日」、「天気」、「何
時」、「おはよう」などというように検出された場合、
これらは全体として結びつかないことが多く、誤認識で
ある可能性が高いと判断する。
使われることがなく、ある特定の内容を持つ単語と結び
ついて用いられるような単語(ここでは特定単語とい
う)が存在している場合、話者がその特定の内容を持つ
単語を入力したときにだけ、その特定単語を認識するた
めだけの特定のモードを設定するようにしてもよい。た
とえば、「早く」、「遅く」といった単語が通常、目覚
まし用のアラーム設定の時にしか使われない単語とすれ
ば、これらの単語は、話者がぬいぐるみに対して、「起
こして」と問いかけたときに、ぬいぐるみから「いつも
の通り、7時ね」というように応答したとき、「もっと
{早く}」、あるいは「もっと{遅く}」といった程度
にしか用いられない場合が多い。したがって 、この
「早く」、「遅く」を常に認識対象単語として扱う必要
はなく、「起こして」という単語が入力されたときの
み、認識モードが「早く」、「遅く」を認識する特定の
モードに移るようにする。このように、特定のモードを
設定することにより、特定単語のみを認識する処理を行
えばよいため、全体としての認識率を上げることができ
る。この特定単語は「早く」、「遅く」に限られるもの
ではなく、通常はあまり用いられずに他の単語と結びつ
いて用いられることの多い単語であればよい。なお、こ
の特定のモードから通常のモードへの切替の一例として
は、ぬいぐるみから「いつもの通り、7時ね」というよ
うに応答したとき、話者から「もっと{早く}」、ある
いは「もっと{遅く}」といった返事がなく、「うん」
や「そうね」といった肯定信号Yを検出した場合など
に、特定モードから通常のモードに移すようにする。
してぬいぐるみに適用した例を説明したが、ぬいぐるみ
に限られるものではなく。他の玩具にも適用できること
は勿論であり、さらに、玩具だけではなく、ゲーム機
や、日常使われる様々な電子機器などにも適用でき、そ
の適用範囲は極めて広いものと考えられる。
対話処理方法は、請求項1によれば、音声入力手段によ
り入力された音声を分析して音声特徴データを発生する
音声分析工程と、この音声分析工程により分析された音
声特徴データを入力し、予め登録された認識可能な単語
の標準音声特徴データを基に、前記入力音声に含まれる
登録単語に対応した検出データを出力する単語検出工程
と、前記音声分析工程により分析された音声特徴データ
を入力し、その特徴データを基にして入力音声が肯定内
容か否定内容かを識別し、肯定内容であるときは肯定で
あることを示す信号を出力し、否定内容であるときは否
定であることを示す信号を出力する肯定否定識別工程
と、前記単語検出工程による登録単語の検出モードまた
は前記肯定否定識別工程による肯定否定識別モードのい
ずれかのモードを、そのときの状況によって設定し、登
録単語の検出モードの場合は、前記単語検出工程からの
検出データを入力し、この検出データを基に前記入力音
声の意味を理解し、それに対応した応答内容を決定し、
肯定否定識別モードの場合は、前記肯定否定識別工程に
よる前記肯定または否定信号を入力してそれに対応した
応答内容を決定する音声理解会話制御工程とを有したの
で、話者の問いかけに対する装置からの応答内容が、話
者に対してYESか、NOを意味する返事を要求すると、会
話モードが肯定または否定のモードに切り替えられて、
話者の返事の内容からそれが肯定内容か否定内容かを判
断して、それに対する応答メッセージを発生することが
できるため、登録単語以外の言葉での会話が可能とな
り、認識可能な登録単語数を増やすことなく、幅広いバ
リエーションを持った自然に近い会話が可能となり、し
かも、装置の構成が簡単で安価に提供できるため、玩具
や、ゲーム機、日常用いられる電子機器など広い分野に
適用できる。
程は、それぞれの登録単語に対する標準音声特徴データ
と、音声分析工程から出力される少なくとも1つの登録
単語を含む音声特徴データとを比較し、前記登録単語が
入力音声の時間軸上のどの部分にどの程度の確からしさ
で存在するかを、それぞれの登録単語に対応して確から
しさを示す数値で検出してその検出データを音声理解会
話制御工程に送り、音声理解会話制御工程では、その検
出データを基に、そのとき入力された入力音声全体の意
味を理解し、それに対応した応答内容を決定するように
したので、認識可能な登録単語の範囲でも幅広いバリエ
ーションを持った会話が可能となる。すなわち、従来で
は、登録単語と全く同じ単語を話すことが要求され、装
置側からは、それらの単語に対応した応答のみが返って
くるという程度のものであったが、本発明は、「おはよ
う」を言う場合でも、「おーい、おはよう」、「おはよ
うございます」などという言い方をしても「おはよう」
を認識することができ、また、「明日の天気は・・・」
というように話したばあい、「明日」と「天気」という
キーワードから入力音声全体の意味を理解して、それに
対する応答が可能となるため、認識可能な登録単語数を
増やすことなく、より一層、幅広いバリエーションを持
った自然に近い会話が可能となる。
別工程は、音声分析手段からの音声特徴データに最初に
出現する母音部を検出し、その母音の種類によって入力
音声が肯定内容か否定内容かを識別することにより、話
者の返事が肯定であるか否定であるかを高い確率で識別
することができる。
話制御工程における登録単語検出モードまたは肯定否定
識別モードの設定は、初期状態においては登録単語検出
モードとし、話者に対して肯定または否定を意味する内
容の返事を装置側から要求した場合に、肯定否定識別モ
ードに切り替えるようにしたので、話者に対して肯定ま
たは否定を意味する内容の返事を要求した場合にのみ、
会話モードを切り替えることができ、また、会話モード
を切り替えてそのモードにおける処理を行えばよいこと
から、他のモードの処理を行う必要がなくなるため、処
理の簡素化が図れ、認識率の向上も図れる。
る前記音声理解会話制御工程は、前記単語検出工程から
の検出データにおいて、入力音声の時間軸上の同一時刻
に2つ以上の登録単語が共に所定以上の高い確からしさ
を示す数値で現れている場合、最も高い確からしさを有
する登録単語を認識候補として決定するようにしたの
で、簡単な処理で容易に認識候補を決定することができ
る。
話制御工程は、それぞれの登録単語に対応してその登録
単語が入力された場合の各登録単語に現れる確からしさ
を示す数値を表した相関表を予め作成しておき、前記単
語検出工程からの検出データにおいて、入力音声の時間
軸上の同一時刻に2つ以上の登録単語が共に所定以上の
高い確からしさを示す数値で現れている場合、前記相関
表に基づいていずれか1つの単語を認識候補として決定
するようにしたので、簡単な処理でしかも確実に認識候
補を決定できる。
る前記音声理解会話制御工程は、前記単語検出工程から
の検出データにおいて、入力音声の時間軸上の異なった
時刻に2つ以上の登録単語が共に所定以上の高い確から
しさを示す数値で現れている場合、これら各登録単語か
らそのとき入力された入力音声全体の意味を理解し、そ
れに対応した応答内容を決定するようにしたので、複数
のキーワードをもとに入力音声全体の意味を理解して、
それに対する応答が可能となるため、認識可能な登録単
語数を増やすことなく、より一層、幅広いバリエーショ
ンを持った自然に近い会話が可能となる。
る前記音声理解会話制御工程は、前記単語検出工程から
の検出データにおいて、入力音声の時間軸上の異なった
時刻に2つ以上の登録単語が共に所定以上の高い確から
しさを示す数値で現れている場合、これら各登録単語の
関連性を判断し、関連性のない場合には、それを示す情
報として、たとえば再入力を促すことにより、誤認識を
防止することができ、装置として認識性能の向上を図る
ことができる。
る前記音声理解会話制御工程は、前記単語検出工程から
の検出データにおいて、入力音声の時間軸上の異なった
時刻に予め定めた数以上の登録単語がともに所定以上の
高い確からしさを示す数値で現れている場合は、誤認識
の可能性が多いと判断して、たとえば再入力を促すこと
により、誤認識を防止することができ、装置として認識
性能の向上を図ることができる。
会話制御工程は、前記音声分析工程から出力される入力
音声の音量を示す信号を得て、その音量を示す信号の大
きさを判定して、予め設定した上限値より大きいとき、
または、予め設定した下限値より小さいときは、それを
示す情報を出力することにより、適切な音量での入力を
促すことができ、誤認識を防止することができ、装置と
して認識性能の向上を図ることができる。
会話制御工程は、前記音声分析工程から出力される入力
音声の音量を示す信号を得て、その音量を示す信号の大
きさから音声入力があったことを検出し、かつ、音声入
力があったにも係わらず認識できなかった場合には、そ
れを示す情報として、たとえば、聞こえなかったことを
意味する応答を行うことにより、ユーザは自然に近い会
話を味わうことが可能となる。
会話制御工程は、装置が音声を出力しているときは、外
部からの音声の入力を禁止するようにしたので、装置と
して認識性能の向上を図ることができる。
会話制御工程は、登録単語のなかで、或る登録単語と結
びついて用いられる特定の登録単語に対しては、前記或
る単語が入力された場合に限り、専用の認識モードを設
定し、前記或る単語が入力された場合は、当該専用モー
ドにより、前記特定単語の認識を行うようにしたので、
限られた場合にのみ使用された単語を、通常の認識モー
ドから外して、或単語の認識を行おうとしたとき、専用
モードによって、前記特定単語のみの認識を行うことが
できるため、装置として認識性能の向上を図ることがで
きる。
会話制御工程は、時刻、気温、気圧、日付などの変動デ
ータさらには装置の状態などのデータを入力し、前記単
語検出工程または肯定否定識別工程からの内容に対し
て、前記変動データおよび装置の状態データを基に、応
答データを決定するようにしたので、様々な状況に応じ
た応答が行え、幅広いバリエーションの会話が可能とな
る。
項15によれば、音声入力手段により入力された音声を
分析して音声特徴データを発生する音声分析手段と、予
め登録された認識可能な単語の標準音声特徴データを記
憶する標準音声特徴データ記憶手段と、前記音声分析手
段からの音声特徴データを入力し、前記標準音声特徴デ
ータ記憶手段の記憶内容を基に、入力音声に含まれる登
録単語に対応した検出データを出力する単語検出手段
と、前記音声分析手段からの音声特徴データを入力し、
その特徴データを基にして入力音声が肯定内容か否定内
容かを識別し、肯定内容であるときは肯定であることを
示す信号を出力し、否定内容であるときは否定であるこ
とを示す信号を出力する肯定否定識別手段と、前記単語
検出手段による登録単語の検出モードまたは前記肯定否
定識別手段による肯定否定識別モードのいずれかのモー
ドを、そのときの状況によって設定し、登録単語の検出
モードの場合は、前記単語検出部からの検出データを入
力し、この検出データを基に前記入力音声の意味を理解
し、それに対応した応答内容を決定し、肯定否定識別モ
ードの場合は、前記肯定否定識別手段からの前記肯定ま
たは否定信号を入力してそれに対応した応答内容を決定
する音声理解会話制御手段とを有したので、話者の問い
かけに対する装置からの応答内容が、話者に対してYES
か、NOを意味する返事を要求すると、会話モードが肯定
否定のモードに切り替えられて、話者の返事の内容から
それが肯定内容か否定内容かを判断して、それに対する
応答メッセージを発生することができるため、登録単語
以外の言葉での会話が可能となり、認識可能な登録単語
数を増やすことなく、幅広いバリエーションを持った自
然に近い会話が可能となり、しかも、装置の構成が簡単
で安価に提供できるため、玩具や、ゲーム機、日常用い
られる電子機器など広い分野に適用できる。
手段は、それぞれの登録単語に対する標準音声特徴デー
タと、音声分析部から出力される少なくとも1つの登録
単語を含む音声特徴データとを比較し、前記登録単語が
入力音声の時間軸上のどの部分にどの程度の確からしさ
で存在するかを、それぞれの登録単語に対応して確から
しさを示す数値で検出してその検出データを音声理解会
話制御手段に送り、音声理解会話制御手段では、その検
出データを基に、そのとき入力された入力音声全体の意
味を理解し、それに対応した応答内容を決定するように
したので、認識可能な登録単語の範囲でも幅広いバリエ
ーションを持った会話が可能となる。すなわち、従来で
は、登録単語と全く同じ単語を話すことが要求され、装
置側からは、それらの単語に対応した応答のみが返って
くるという程度のものであったが、本発明は、「おはよ
う」を言う場合でも、「おーい、おはよう」、「おはよ
うございます」などという言い方をしても「おはよう」
を認識することができ、また、「明日の天気は・・・」
というように話したばあい、「明日」と「天気」という
キーワードから入力音声全体の意味を理解して、それに
対する応答が可能となるため、認識可能な登録単語数を
増やすことなく、より一層、幅広いバリエーションを持
った自然に近い会話が可能となる。
識別手段は、音声分析手段からの音声特徴データに最初
に出現する母音部を検出し、その母音の種類によって入
力音声が肯定内容か否定内容かを識別することにより、
話者の返事が肯定であるか否定であるかを高い確率で識
別することができる。
会話制御手段における登録単語検出モードまたは肯定否
定識別モードの設定は、初期状態においては登録単語検
出モードとし、話者に対して肯定または否定を意味する
内容の返事を装置側から要求した場合に、肯定否定識別
モードに切り替えるようにしたので、話者に対して肯定
または否定を意味する内容の返事を要求した場合にの
み、会話モードを切り替えることができ、また、会話モ
ードを切り替えてそのモードにおける処理を行えばよい
ことから、他のモードの処理を行う必要がなくなるた
め、処理の簡素化が図れ、認識率の向上も図れる。
おける前記音声理解会話制御手段は、前記単語検出手段
からの検出データにおいて、入力音声の時間軸上の同一
時刻に2つ以上の登録単語が共に所定以上の高い確から
しさを示す数値で現れている場合、最も高い確からしさ
を有する登録単語を認識候補として決定するようにした
ので、簡単な処理で容易に認識候補を決定することがで
きる。
会話制御手段は、それぞれの登録単語に対応してその登
録単語が入力された場合の各登録単語に現れる確からし
さを示す数値を表した相関表を予め作成しておき、前記
単語検出手段からの検出データにおいて、入力音声の時
間軸上の同一時刻に2つ以上の登録単語が共に所定以上
の高い確からしさを示す数値で現れている場合、前記相
関表に基づいていずれか1つの単語を認識候補として決
定するようにしたので、簡単な処理でしかも確実に認識
候補を決定できる。
おける前記音声理解会話制御手段は、前記単語検出手段
からの検出データにおいて、入力音声の時間軸上の異な
った時刻に2つ以上の登録単語が共に所定以上の高い確
からしさを示す数値で現れている場合、これら各登録単
語からそのとき入力された入力音声全体の意味を理解
し、それに対応した応答内容を決定するようにしたの
で、複数のキーワードをもとに入力音声全体の意味を理
解して、それに対する応答が可能となるため、認識可能
な登録単語数を増やすことなく、より一層、幅広いバリ
エーションを持った自然に近い会話が可能となる。
おける前記音声理解会話制御手段は、前記単語検出手段
からの検出データにおいて、入力音声の時間軸上の異な
った時刻に2つ以上の登録単語が共に所定以上の高い確
からしさを示す数値で現れている場合、これら各登録単
語の関連性を判断し、関連性のない場合には、それを示
す情報として、たとえば再入力を促すことにより、誤認
識を防止することができ、装置として認識性能の向上を
図ることができる。
おける前記音声理解会話制御手段は、前記単語検出手段
からの検出データにおいて、入力音声の時間軸上の異な
った時刻に予め定めた数以上の登録単語がともに所定以
上の高い確からしさを示す数値で現れている場合は、誤
認識の可能性が多いと判断して、たとえば再入力を促す
ことにより、誤認識を防止することができ、装置として
認識性能の向上を図ることができる。
会話制御手段は、前記音声分析手段から出力される入力
音声の音量を示す信号を得て、その音量を示す信号の大
きさを判定して、予め設定した上限値より大きいとき、
または、予め設定した下限値より小さいときは、それを
示す情報を出力することにより、適切な音量での入力を
促すことができ、誤認識を防止することができ、装置と
して認識性能の向上を図ることができる。
会話制御手段は、前記音声分析手段から出力される入力
音声の音量を示す信号を得て、その音量を示す信号の大
きさから音声入力があったことを検出し、かつ、音声入
力があったにも係わらず認識できなかった場合には、そ
れを示す情報として、たとえば、聞こえなかったことを
意味する応答を行うことにより、ユーザは自然に近い会
話を味わうことが可能となる。
会話制御手段は、装置が音声を出力しているときは、外
部からの音声の入力を禁止するようにしたので、装置と
して認識性能の向上を図ることができる。
会話制御手段は、登録単語のなかで、或る登録単語と結
びついて用いられる特定の登録単語に対しては、前記或
る単語が入力された場合に限り、専用の認識モードを設
定し、前記或る単語が入力された場合は、当該専用モー
ドにより、前記特定単語の認識を行うようにしたので、
限られた場合にのみ使用された単語を、通常の認識モー
ドから外して、或単語の認識を行おうとしたとき、専用
モードによって、前記特定単語のみの認識を行うことが
できるため、装置として認識性能の向上を図ることがで
きる。
会話制御手段は、時刻、気温、気圧、日付などの変動デ
ータさらには装置の状態などのデータを入力し、前記単
語検出部または肯定否定識別部からの内容に対して、前
記変動データおよび装置の状態データを基に、応答デー
タを決定するようにしたので、様々な状況に応じた応答
が行え、幅広いバリエーションの会話が可能となる。
ティスの一例を示す図。
る単語相関表の一例を示す図。
ータの一例を示す図。
ータの他の例を示す図。
Claims (28)
- 【請求項1】 音声入力手段により入力された音声を分
析して音声特徴データを発生する音声分析工程と、 この音声分析工程により分析された音声特徴データを入
力し、予め登録された認識可能な単語の標準音声特徴デ
ータを基に、前記入力音声に含まれる登録単語に対応し
た検出データを出力する単語検出工程と、 前記音声分析工程により分析された音声特徴データを入
力し、その特徴データを基にして入力音声が肯定内容か
否定内容かを識別し、肯定内容であるときは肯定である
ことを示す信号を出力し、否定内容であるときは否定で
あることを示す信号を出力する肯定否定識別工程と、 前記単語検出工程による登録単語の検出モードまたは前
記肯定否定識別工程による肯定否定識別モードのいずれ
かのモードを、そのときの状況によって設定し、登録単
語の検出モードの場合は、前記単語検出工程からの検出
データを入力し、この検出データを基に前記入力音声の
意味を理解し、それに対応した応答内容を決定し、肯定
否定識別モードの場合は、前記肯定否定識別工程による
前記肯定または否定信号を入力してそれに対応した応答
内容を決定する音声理解会話制御工程と、 この音声理解会話制御工程によって決定された応答内容
に基づいた音声合成出力を発生する音声合成工程と、 この音声合成工程からの音声合成出力を外部に出力する
音声出力工程と、 を有したことを特徴とする音声認識対話処理方法。 - 【請求項2】 前記単語検出工程は、それぞれの登録単
語に対する標準音声特徴データと、音声分析工程から出
力される音声特徴データとを比較し、前記登録単語が入
力音声の時間軸上のどの部分にどの程度の確からしさで
存在するかを、それぞれの登録単語毎に、確からしさを
示す数値で検出してその検出データを音声理解会話制御
工程に送り、音声理解会話制御工程では、その検出デー
タを基に、そのとき入力された入力音声全体の意味を理
解し、それに対応した応答内容を決定することを特徴と
する請求項1記載の音声認識対話処理方法。 - 【請求項3】 前記肯定否定識別工程は、音声分析工程
からの音声特徴データに最初に出現する母音部を検出
し、その母音の種類によって入力音声が肯定内容か否定
内容かを識別することを特徴とする請求項1記載の音声
認識対話処理方法。 - 【請求項4】 前記音声理解会話制御工程における登録
単語検出モードまたは肯定否定識別モードの設定は、初
期状態においては登録単語検出モードとし、ユーザに対
して肯定または否定を意味する内容の返事を装置側から
要求した場合に、肯定否定識別モードに切り替えること
を特徴とする請求項1または2記載の音声認識対話処理
方法。 - 【請求項5】 前記音声理解会話制御工程は、前記単語
検出工程からの検出データにおいて、入力音声の時間軸
上の同一時刻に2つ以上の登録単語が共に所定以上の高
い確からしさを示す数値で現れている場合、最も高い確
からしさを有する登録単語を認識候補として決定するこ
とを特徴とする請求項2記載の音声認識対話処理方法。 - 【請求項6】 前記音声理解会話制御工程は、或る登録
単語が入力された場合に、各登録単語毎に現れる確から
しさを示す数値を表した登録単語間の相関関係を、それ
ぞれの登録単語毎に予め作成しておき、前記単語検出工
程からの検出データにおいて、入力音声の時間軸上の同
一時刻に2つ以上の登録単語が共に所定以上の高い確か
らしさを示す数値で現れている場合、前記予め作成され
た相関関係に基づいていずれか1つの単語を認識候補と
して決定することを特徴とする請求項2記載の音声認識
対話処理方法。 - 【請求項7】 前記音声理解会話制御工程は、前記単語
検出工程からの検出データにおいて、入力音声の時間軸
上の異なった時刻に2つ以上の登録単語が共に所定以上
の高い確からしさを示す数値で現れている場合、これら
各登録単語からそのとき入力された入力音声全体の意味
を理解し、それに対応した応答内容を決定することを特
徴とする請求項2記載の音声認識対話処理方法。 - 【請求項8】 前記音声理解会話制御工程は、前記単語
検出工程からの検出データにおいて、入力音声の時間軸
上の異なった時刻に2つ以上の登録単語が共に所定以上
の高い確からしさを示す数値で現れている場合、これら
各登録単語の関連性を判断し、関連性のない場合には、
それを示す情報を出力することを特徴とする請求項2記
載の音声認識対話処理方法。 - 【請求項9】 前記音声理解会話制御工程は、前記単語
検出工程からの検出データにおいて、入力音声の時間軸
上の異なった時刻に予め定めた数以上の登録単語がとも
に所定以上の高い確からしさを示す数値で現れている場
合は、認識不可として、それを示す情報を出力すること
を特徴とする請求項2記載の音声認識対話処理方法。 - 【請求項10】 前記音声理解会話制御工程は、前記音
声分析工程から出力される入力音声の音量を示す信号を
得て、その音量を示す信号の大きさを判定して、予め設
定した上限値より大きいとき、または、予め設定した下
限値より小さいときは、それを示す情報を出力すること
を特徴とする請求項1または2記載の音声認識対話処理
方法。 - 【請求項11】 前記音声理解会話制御工程は、前記音
声分析工程から出力される入力音声の音量を示す信号を
得て、その音量を示す信号の大きさから音声入力があっ
たことを検出し、かつ、音声入力があったにも係わらず
認識できなかった場合には、それを示す情報を出力する
ことを特徴とする請求項1または2記載の音声認識対話
処理方法。 - 【請求項12】 前記音声理解会話制御工程は、前記音
声出力工程により音声を出力しているときは、外部から
の音声の入力を禁止するようにしたことを特徴とする請
求項1または2記載の音声認識対話処理方法。 - 【請求項13】 前記音声理解会話制御工程は、登録単
語のなかで、或る登録単語と結びついて用いられる特定
の登録単語に対しては、前記或る単語が入力された場合
に限り、専用の認識モードを設定し、前記或る単語が入
力された場合は、当該専用モードにより、前記特定単語
の認識を行うことを特徴とする請求項1または2記載の
音声認識対話処理方法。 - 【請求項14】 前記音声理解会話制御工程は、時刻、
気温、気圧、日付などの変動データさらには装置の状態
などを記憶した状態記憶データを入力し、前記単語検出
工程たは肯定否定識別工程からの内容に対して、前記変
動データおよび装置の状態記憶データを基に、応答デー
タを決定することを特徴とする請求項1または2記載の
音声認識対話処理方法。 - 【請求項15】 音声を入力する音声入力手段と、 この音声入力手段により入力された音声を分析して音声
特徴データを発生する音声分析手段と、 予め登録された認識可能な単語の標準音声特徴データを
記憶する標準音声特徴データ記憶手段と、 前記音声分析手段からの音声特徴データを入力し、前記
標準音声特徴データ記憶手段の記憶内容を基に、入力音
声に含まれる登録単語に対応した検出データを出力する
単語検出手段と、 前記音声分析手段からの音声特徴データを入力し、その
特徴データを基にして入力音声が肯定内容か否定内容か
を識別し、肯定内容であるときは肯定であることを示す
信号を出力し、否定内容であるときは否定であることを
示す信号を出力する肯定否定識別手段と、 前記単語検出手段による登録単語の検出モードまたは前
記肯定否定識別手段による肯定否定識別モードのいずれ
かのモードを、そのときの状況によって設定し、登録単
語の検出モードの場合は、前記単語検出部からの検出デ
ータを入力し、この検出データを基に前記入力音声の意
味を理解し、それに対応した応答内容を決定し、肯定否
定識別モードの場合は、前記肯定否定識別手段からの前
記肯定または否定信号を入力してそれに対応した応答内
容を決定する音声理解会話制御手段と、 この音声理解会話制御手段によって決定された応答内容
に基づいた音声合成出力を発生する音声合成手段と、 この音声合成手段からの音声合成出力を外部に出力する
音声出力手段と、 を有したことを特徴とする音声認識対話装置。 - 【請求項16】 前記単語検出手段は、それぞれの登録
単語に対する標準音声特徴データと、音声分析部から出
力される音声特徴データとを比較し、前記登録単語が入
力音声の時間軸上のどの部分にどの程度の確からしさで
存在するかを、それぞれの登録単語毎に、確からしさを
示す数値で検出してその検出データを音声理解会話制御
手段に送り、音声理解会話制御手段では、その検出デー
タを基に、そのとき入力された入力音声全体の意味を理
解し、それに対応した応答内容を決定することを特徴と
する請求項15記載の音声認識対話装置。 - 【請求項17】 前記肯定否定識別手段は、音声分析手
段からの音声特徴データに最初に出現する母音部を検出
し、その母音の種類によって入力音声が肯定内容か否定
内容かを識別することを特徴とする請求項15記載の音
声認識対話装置。 - 【請求項18】 前記音声理解会話制御手段における登
録単語検出モードまたは肯定否定識別モードの設定は、
初期状態においては登録単語検出モードとし、ユーザに
対して肯定または否定を意味する内容の返事を装置側か
ら要求した場合に、肯定否定識別モードに切り替えるこ
とを特徴とする請求項15または16記載の音声認識対
話装置。 - 【請求項19】 前記音声理解会話制御手段は、前記単
語検出手段からの検出データにおいて、入力音声の時間
軸上の同一時刻に2つ以上の登録単語が共に所定以上の
高い確からしさを示す数値で現れている場合、最も高い
確からしさを有する登録単語を認識候補として決定する
ことを特徴とする請求項16記載の音声認識対話装置。 - 【請求項20】 前記音声理解会話制御手段は、或る登
録単語が入力された場合に、各登録単語毎に現れる確か
らしさを示す数値を表した登録単語間の相関関係を、そ
れぞれの登録単語毎に予め作成しておき、前記単語検出
手段からの検出データにおいて、入力音声の時間軸上の
同一時刻に2つ以上の登録単語が共に所定以上の高い確
からしさを示す数値で現れている場合、前記予め作成さ
れた相関関係に基づいていずれか1つの単語を認識候補
として決定することを特徴とする請求項16記載の音声
認識対話装置。 - 【請求項21】 前記音声理解会話制御手段は、前記単
語検出手段からの検出データにおいて、入力音声の時間
軸上の異なった時刻に2つ以上の登録単語が共に所定以
上の高い確からしさを示す数値で現れている場合、これ
ら各登録単語からそのとき入力された入力音声全体の意
味を理解し、それに対応した応答内容を決定することを
特徴とする請求項16記載の音声認識対話装置。 - 【請求項22】 前記音声理解会話制御手段は、前記単
語検出手段からの検出データにおいて、入力音声の時間
軸上の異なった時刻に2つ以上の登録単語が共に所定以
上の高い確からしさを示す数値で現れている場合、これ
ら各登録単語の関連性を判断し、関連性のない場合に
は、それを示す情報を出力することを特徴とする請求項
16記載の音声認識対話装置。 - 【請求項23】 前記音声理解会話制御手段は、前記単
語検出手段からの検出データにおいて、入力音声の時間
軸上の異なった時刻に予め定めた数以上の登録単語がと
もに所定以上の高い確からしさを示す数値で現れている
場合は、認識不可として、それを示す情報を出力するこ
とを特徴とする請求項16記載の音声認識対話装置。 - 【請求項24】 前記音声理解会話制御手段は、前記音
声分析手段から出力される入力音声の音量を示す信号を
得て、その音量を示す信号の大きさを判定して、予め設
定した上限値より大きいとき、または、予め設定した下
限値より小さいときは、それを示す情報を出力すること
を特徴とする請求項15または16記載の音声認識対話
装置。 - 【請求項25】 前記音声理解会話制御手段は、前記音
声分析手段から出力される入力音声の音量を示す信号を
得て、その音量を示す信号の大きさから音声入力があっ
たことを検出し、かつ、音声入力があったにも係わらず
認識できなかった場合には、それを示す情報を出力する
ことを特徴とする請求項15または16記載の音声認識
対話装置。 - 【請求項26】 前記音声理解会話制御手段は、装置が
音声を出力しているときは、外部からの音声の入力を禁
止するようにしたことを特徴とする請求項15または1
6記載の音声認識対話装置。 - 【請求項27】 前記音声理解会話制御手段は、登録単
語のなかで、或る登録単語と結びついて用いられる特定
の登録単語に対しては、前記或る単語が入力された場合
に限り、専用の認識モードを設定し、前記或る単語が入
力された場合は、当該専用モードにより、前記特定単語
の認識を行うことを特徴とする請求項15または16記
載の音声認識対話装置。 - 【請求項28】 前記音声理解会話制御手段は、時刻、
気温、気圧、日付などの変動データさらには装置の状態
などを記憶した状態記憶データを入力し、前記単語検出
部または肯定否定識別部からの内容に対して、前記変動
データおよび装置の状態記憶データを基に、応答データ
を決定することを特徴とする請求項15または16記載
の音声認識対話装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15652895A JP3284832B2 (ja) | 1995-06-22 | 1995-06-22 | 音声認識対話処理方法および音声認識対話装置 |
US08/536,550 US5899972A (en) | 1995-06-22 | 1995-09-29 | Interactive voice recognition method and apparatus using affirmative/negative content discrimination |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15652895A JP3284832B2 (ja) | 1995-06-22 | 1995-06-22 | 音声認識対話処理方法および音声認識対話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH096389A true JPH096389A (ja) | 1997-01-10 |
JP3284832B2 JP3284832B2 (ja) | 2002-05-20 |
Family
ID=15629769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15652895A Expired - Lifetime JP3284832B2 (ja) | 1995-06-22 | 1995-06-22 | 音声認識対話処理方法および音声認識対話装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5899972A (ja) |
JP (1) | JP3284832B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10179941A (ja) * | 1996-10-21 | 1998-07-07 | Junji Kuwabara | 音声認識および音声発生装置、および、該音声認識および音声発生装置を備えた玩具、ならびに、音声認識および音声発生制御プログラムを記録した記録媒体 |
JPH11153999A (ja) * | 1997-11-19 | 1999-06-08 | Fujitsu Ltd | 音声認識装置及びそれを用いた情報処理装置 |
JP2003058184A (ja) * | 2001-08-09 | 2003-02-28 | Casio Comput Co Ltd | 機器制御システム、音声認識装置及び方法、並びにプログラム |
JP2003091299A (ja) * | 2001-07-13 | 2003-03-28 | Honda Motor Co Ltd | 車載用音声認識装置 |
JP2006023372A (ja) * | 2004-07-06 | 2006-01-26 | Denso Corp | 楽曲再生装置 |
JP2008180801A (ja) * | 2007-01-23 | 2008-08-07 | Kyushu Institute Of Technology | 自動回答装置および方法 |
US8942982B2 (en) | 2006-11-22 | 2015-01-27 | Seiko Epson Corporation | Semiconductor integrated circuit device and electronic instrument |
JP2015111253A (ja) * | 2013-10-31 | 2015-06-18 | シャープ株式会社 | サーバ、発話制御方法、発話装置、発話システムおよびプログラム |
JP2016130800A (ja) * | 2015-01-14 | 2016-07-21 | シャープ株式会社 | システム、サーバ、電子機器、サーバの制御方法、およびプログラム |
WO2018116531A1 (ja) * | 2016-12-19 | 2018-06-28 | シャープ株式会社 | サーバ、情報処理方法、ネットワークシステム、および端末 |
Families Citing this family (228)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6038531A (en) * | 1997-01-30 | 2000-03-14 | Seiko Epson Corporation | Similar word discrimination method and its apparatus |
US6314402B1 (en) * | 1999-04-23 | 2001-11-06 | Nuance Communications | Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system |
AU6630800A (en) | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US6622121B1 (en) | 1999-08-20 | 2003-09-16 | International Business Machines Corporation | Testing speech recognition systems using test data generated by text-to-speech conversion |
US6631351B1 (en) * | 1999-09-14 | 2003-10-07 | Aidentity Matrix | Smart toys |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10127852A1 (de) * | 2001-06-08 | 2002-12-12 | Mende Speech Solutions Gmbh & | Verfahren zur Erkennung von Sprachinformationen |
JP2002366166A (ja) * | 2001-06-11 | 2002-12-20 | Pioneer Electronic Corp | コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム |
JP3997459B2 (ja) * | 2001-10-02 | 2007-10-24 | 株式会社日立製作所 | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US20030134257A1 (en) * | 2002-01-15 | 2003-07-17 | Ahmed Morsy | Interactive learning apparatus |
JP2003241790A (ja) * | 2002-02-13 | 2003-08-29 | Internatl Business Mach Corp <Ibm> | 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム |
US7246062B2 (en) * | 2002-04-08 | 2007-07-17 | Sbc Technology Resources, Inc. | Method and system for voice recognition menu navigation with error prevention and recovery |
US6697460B2 (en) | 2002-04-30 | 2004-02-24 | Sbc Technology Resources, Inc. | Adaptive voice recognition menu method and system |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US7738637B2 (en) * | 2004-07-24 | 2010-06-15 | Massachusetts Institute Of Technology | Interactive voice message retrieval |
US8478589B2 (en) * | 2005-01-05 | 2013-07-02 | At&T Intellectual Property Ii, L.P. | Library of existing spoken dialog data for use in generating new natural language spoken dialog systems |
US7865362B2 (en) * | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US9092523B2 (en) | 2005-02-28 | 2015-07-28 | Search Engine Technologies, Llc | Methods of and systems for searching by incorporating user-entered information |
EP1866738A4 (en) | 2005-03-18 | 2010-09-15 | Search Engine Technologies Llc | USER FEEDBACK RESEARCH ENGINE FOR IMPROVING RESEARCH RESULTS |
US9715542B2 (en) * | 2005-08-03 | 2017-07-25 | Search Engine Technologies, Llc | Systems for and methods of finding relevant documents by analyzing tags |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
JP4767754B2 (ja) * | 2006-05-18 | 2011-09-07 | 富士通株式会社 | 音声認識装置および音声認識プログラム |
US8726169B2 (en) * | 2006-09-05 | 2014-05-13 | Circleup, Inc. | Online system and method for enabling social search and structured communications among social networks |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
WO2008084476A2 (en) * | 2007-01-09 | 2008-07-17 | Avraham Shpigel | Vowel recognition system and method in speech to text applications |
US20080201158A1 (en) | 2007-02-15 | 2008-08-21 | Johnson Mark D | System and method for visitation management in a controlled-access environment |
US8542802B2 (en) | 2007-02-15 | 2013-09-24 | Global Tel*Link Corporation | System and method for three-way call detection |
JP4812029B2 (ja) * | 2007-03-16 | 2011-11-09 | 富士通株式会社 | 音声認識システム、および、音声認識プログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8364694B2 (en) * | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8630726B2 (en) * | 2009-02-12 | 2014-01-14 | Value-Added Communications, Inc. | System and method for detecting three-way call circumvention attempts |
US9225838B2 (en) | 2009-02-12 | 2015-12-29 | Value-Added Communications, Inc. | System and method for detecting three-way call circumvention attempts |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US8290780B2 (en) | 2009-06-24 | 2012-10-16 | International Business Machines Corporation | Dynamically extending the speech prompts of a multimodal application |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110010179A1 (en) * | 2009-07-13 | 2011-01-13 | Naik Devang K | Voice synthesis and processing |
US8532989B2 (en) * | 2009-09-03 | 2013-09-10 | Honda Motor Co., Ltd. | Command recognition device, command recognition method, and command recognition robot |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) * | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
CA2856496A1 (en) * | 2010-11-22 | 2012-05-31 | Listening Methods, Llc | System and method for pattern recognition and analysis |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10387536B2 (en) | 2011-09-19 | 2019-08-20 | Personetics Technologies Ltd. | Computerized data-aware agent systems for retrieving data to serve a dialog between human user and computerized system |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105144133B (zh) | 2013-03-15 | 2020-11-20 | 苹果公司 | 对中断进行上下文相关处理 |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
AU2014227586C1 (en) | 2013-03-15 | 2020-01-30 | Apple Inc. | User training by intelligent digital assistant |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US20150162000A1 (en) * | 2013-12-10 | 2015-06-11 | Harman International Industries, Incorporated | Context aware, proactive digital assistant |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10192550B2 (en) | 2016-03-01 | 2019-01-29 | Microsoft Technology Licensing, Llc | Conversational software agent |
US10140988B2 (en) * | 2016-03-01 | 2018-11-27 | Microsoft Technology Licensing, Llc | Speech recognition |
US10140986B2 (en) | 2016-03-01 | 2018-11-27 | Microsoft Technology Licensing, Llc | Speech recognition |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10572961B2 (en) | 2016-03-15 | 2020-02-25 | Global Tel*Link Corporation | Detection and prevention of inmate to inmate message relay |
US9609121B1 (en) | 2016-04-07 | 2017-03-28 | Global Tel*Link Corporation | System and method for third party monitoring of voice and video calls |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
CN108153800B (zh) * | 2016-12-06 | 2023-05-23 | 松下知识产权经营株式会社 | 信息处理方法、信息处理装置以及记录介质 |
US10255906B2 (en) * | 2016-12-14 | 2019-04-09 | International Business Machines Corporation | Sensors and analytics for reading comprehension |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10027797B1 (en) | 2017-05-10 | 2018-07-17 | Global Tel*Link Corporation | Alarm control for inmate call monitoring |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10225396B2 (en) | 2017-05-18 | 2019-03-05 | Global Tel*Link Corporation | Third party monitoring of a activity within a monitoring platform |
US10860786B2 (en) | 2017-06-01 | 2020-12-08 | Global Tel*Link Corporation | System and method for analyzing and investigating communication data from a controlled environment |
US9930088B1 (en) | 2017-06-22 | 2018-03-27 | Global Tel*Link Corporation | Utilizing VoIP codec negotiation during a controlled environment call |
US10497369B2 (en) * | 2017-08-23 | 2019-12-03 | Qualcomm Incorporated | Method and system for power savings in voice control of a computing device |
US10102858B1 (en) | 2017-11-29 | 2018-10-16 | International Business Machines Corporation | Dynamically changing audio keywords |
CN109903751B (zh) | 2017-12-08 | 2023-07-07 | 阿里巴巴集团控股有限公司 | 关键词确认方法和装置 |
US10978061B2 (en) | 2018-03-09 | 2021-04-13 | International Business Machines Corporation | Voice command processing without a wake word |
US10755707B2 (en) | 2018-05-14 | 2020-08-25 | International Business Machines Corporation | Selectively blacklisting audio to improve digital assistant behavior |
US10777195B2 (en) | 2018-05-31 | 2020-09-15 | International Business Machines Corporation | Wake command nullification for digital assistance and voice recognition technologies |
US10810998B2 (en) | 2018-09-28 | 2020-10-20 | International Business Machines Corporation | Custom temporal blacklisting of commands from a listening device |
US10831442B2 (en) | 2018-10-19 | 2020-11-10 | International Business Machines Corporation | Digital assistant user interface amalgamation |
US11165779B2 (en) | 2018-11-29 | 2021-11-02 | International Business Machines Corporation | Generating a custom blacklist for a listening device based on usage |
US11308273B2 (en) | 2019-05-14 | 2022-04-19 | International Business Machines Corporation | Prescan device activation prevention |
US11335335B2 (en) | 2020-02-03 | 2022-05-17 | International Business Machines Corporation | Disambiguation of generic commands for controlling objects |
US11914650B2 (en) | 2020-07-22 | 2024-02-27 | International Business Machines Corporation | Data amalgamation management between multiple digital personal assistants |
US11275555B1 (en) | 2020-08-19 | 2022-03-15 | Kyndryl, Inc. | Resolving a device prompt |
US11501349B2 (en) | 2020-11-24 | 2022-11-15 | International Business Machines Corporation | Advertisement metadata communicated with multimedia content |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4319085A (en) * | 1980-04-08 | 1982-03-09 | Threshold Technology Inc. | Speech recognition apparatus and method |
US4336421A (en) * | 1980-04-08 | 1982-06-22 | Threshold Technology, Inc. | Apparatus and method for recognizing spoken words |
JPS62253093A (ja) * | 1986-04-25 | 1987-11-04 | 株式会社 バンダイ | 乗用玩具 |
JPH064097A (ja) * | 1992-06-18 | 1994-01-14 | Seiko Epson Corp | 話者認識方法 |
JP3168779B2 (ja) * | 1992-08-06 | 2001-05-21 | セイコーエプソン株式会社 | 音声認識装置及び方法 |
JPH06119476A (ja) * | 1992-10-09 | 1994-04-28 | Seiko Epson Corp | 時系列データ処理装置 |
US5444673A (en) * | 1994-07-12 | 1995-08-22 | Mathurin; Trevor S. | Audio controlled and activated wristwatch memory aid device |
-
1995
- 1995-06-22 JP JP15652895A patent/JP3284832B2/ja not_active Expired - Lifetime
- 1995-09-29 US US08/536,550 patent/US5899972A/en not_active Expired - Lifetime
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10179941A (ja) * | 1996-10-21 | 1998-07-07 | Junji Kuwabara | 音声認識および音声発生装置、および、該音声認識および音声発生装置を備えた玩具、ならびに、音声認識および音声発生制御プログラムを記録した記録媒体 |
JPH11153999A (ja) * | 1997-11-19 | 1999-06-08 | Fujitsu Ltd | 音声認識装置及びそれを用いた情報処理装置 |
JP2003091299A (ja) * | 2001-07-13 | 2003-03-28 | Honda Motor Co Ltd | 車載用音声認識装置 |
JP2003058184A (ja) * | 2001-08-09 | 2003-02-28 | Casio Comput Co Ltd | 機器制御システム、音声認識装置及び方法、並びにプログラム |
JP4552368B2 (ja) * | 2001-08-09 | 2010-09-29 | カシオ計算機株式会社 | 機器制御システム、音声認識装置及び方法、並びにプログラム |
JP2006023372A (ja) * | 2004-07-06 | 2006-01-26 | Denso Corp | 楽曲再生装置 |
US8942982B2 (en) | 2006-11-22 | 2015-01-27 | Seiko Epson Corporation | Semiconductor integrated circuit device and electronic instrument |
JP2008180801A (ja) * | 2007-01-23 | 2008-08-07 | Kyushu Institute Of Technology | 自動回答装置および方法 |
JP2015111253A (ja) * | 2013-10-31 | 2015-06-18 | シャープ株式会社 | サーバ、発話制御方法、発話装置、発話システムおよびプログラム |
JP2016130800A (ja) * | 2015-01-14 | 2016-07-21 | シャープ株式会社 | システム、サーバ、電子機器、サーバの制御方法、およびプログラム |
WO2018116531A1 (ja) * | 2016-12-19 | 2018-06-28 | シャープ株式会社 | サーバ、情報処理方法、ネットワークシステム、および端末 |
JP2018101197A (ja) * | 2016-12-19 | 2018-06-28 | シャープ株式会社 | サーバ、情報処理方法、ネットワークシステム、および端末 |
Also Published As
Publication number | Publication date |
---|---|
US5899972A (en) | 1999-05-04 |
JP3284832B2 (ja) | 2002-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
US5794204A (en) | Interactive speech recognition combining speaker-independent and speaker-specific word recognition, and having a response-creation capability | |
JP3674990B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP4786384B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
US7228275B1 (en) | Speech recognition system having multiple speech recognizers | |
US5946658A (en) | Cartridge-based, interactive speech recognition method with a response creation capability | |
KR100755677B1 (ko) | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 | |
JP3282075B2 (ja) | 連続音声認識において句読点を自動的に生成する装置および方法 | |
US5758319A (en) | Method and system for limiting the number of words searched by a voice recognition system | |
JP4729902B2 (ja) | 音声対話システム | |
US11302329B1 (en) | Acoustic event detection | |
WO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
JP4700522B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2004163541A (ja) | 音声応答装置 | |
US11735178B1 (en) | Speech-processing system | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
CN110895941A (zh) | 声纹识别方法、装置及存储装置 | |
KR100931790B1 (ko) | 음성인식 시스템에서 발음명칭목록을 이용한 인식사전 생성 방법 및 그를 이용한 유사발음명칭 처리 방법 | |
JP2000305590A (ja) | 音声認識方法 | |
JP4604424B2 (ja) | 音声認識装置及び方法、並びにプログラム | |
JP2000242295A (ja) | 音声認識装置および音声対話装置 | |
JP3357752B2 (ja) | パターンマッチング装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080308 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090308 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090308 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100308 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100308 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110308 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120308 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120308 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130308 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140308 Year of fee payment: 12 |
|
EXPY | Cancellation because of completion of term |