JP2008299221A - 発話検知装置 - Google Patents

発話検知装置 Download PDF

Info

Publication number
JP2008299221A
JP2008299221A JP2007147383A JP2007147383A JP2008299221A JP 2008299221 A JP2008299221 A JP 2008299221A JP 2007147383 A JP2007147383 A JP 2007147383A JP 2007147383 A JP2007147383 A JP 2007147383A JP 2008299221 A JP2008299221 A JP 2008299221A
Authority
JP
Japan
Prior art keywords
voice
sound
speech
superimposed
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007147383A
Other languages
English (en)
Inventor
Osamu Iwata
收 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2007147383A priority Critical patent/JP2008299221A/ja
Publication of JP2008299221A publication Critical patent/JP2008299221A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識の精度を向上して、誤認識を防止することを課題とする。
【解決手段】発話検知装置10は、複数人の音声を集音するステレオマイク11を備える。そして、発話検知装置10は、ステレオマイク11によって集音された音声を主音声とその主音声に重畳する重畳音声とに区別し、区別された主音声と重畳音声との相対関係を算出する。そして、発話検知装置10は、算出された相対関係に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する。その結果、発話検知装置10は、音声操作入力であると判定した場合には、要求発話として応答システム50に対して要求内容を出力する。
【選択図】 図1

Description

この発明は、発話が同乗者に対する会話であるか音声操作入力であるかを判定する発話検知装置に関する。
近年、利用者の音声を認識する技術の実現に向けて、各種考案がなされている。利用者の音声を認識することができれば、利用者は各種機器の操作を音声によって実行することが可能であり、特に車載装置では運転者による手動操作の運転への影響が懸念されることから音声操作技術の実用化が切望されている。
このような音声操作技術に用いられる音声認識では、だれがどこに向かって発話しているかの認識が必要な場合がある。例えば、音声を集音するマイクを複数備え、各マイクが集音した音声の時間が所定の時間より長いかを算出し、所定の時間よりも長い場合には機器の操作命令の発話であると判定し、所定の時間より短い場合にはそれ以外の発話であると判定する技術が従来から知られている。
また、特許文献1では、発声と発声の間の無音声時間を計時し、計時された無音声時間に基づいて、機器の操作命令の発話かそれ以外の発話かを判定する技術が開示されている。
特開2003−308079号公報
しかしながら、上述した音声の時間により発話を判定する従来の技術では、各マイクによって集音されたそれぞれの音声が所定の時間以上続いたかを判定するのみで、マイク間で集音された相対関係を考慮しないので、音声認識の精度が悪く、誤認識が発生するという問題点があった。
また、上記した特許文献1の技術では、同乗者同士の会話が重畳した場合や、車室内で音楽が再生されていることにより発声と発声との間に無音時間がない場合には、機器の操作命令の発話かそれ以外の発話かを判定することができず、誤認識が発生するという問題点があった。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、音声認識の精度を向上して、誤認識を防止することを目的とする。
上述した課題を解決し、目的を達成するため、本発明に係る発話検知装置は、複数人の音声を集音する集音手段と、前記集音手段によって集音された音声を前記複数人ごとに第一の音声と第二の音声として区別し、当該第一の音声と第二の音声との相対関係として、前記第一の音声の途中に前記第二の音声が割り込んでいる状態、前記第一の音声の末尾に前記第二の音声が重畳している状態、前記第一の音声と前記第二の音声とが重ならない状態のいずれの状態であるかを算出する相対関係算出手段と、前記相対関係算出手段によって算出された前記状態に基づいて、前記第一の音声または前記第二の音声が音声操作入力であるかを判定することを特徴とする。
請求項1の発明によれば、複数人の音声を集音し、集音された音声を複数人ごとに第一の音声と第二の音声として区別し、その第一の音声と第二の音声との相対関係として、第一の音声の途中に第二の音声が割り込んでいる状態、第一の音声の末尾に第二の音声が重畳している状態、第一の音声と第二の音声とが重ならない状態のいずれの状態であるかを算出し、算出された状態に基づいて、第一の音声または第二の音声が音声操作入力であるかを判定するので、音声認識の精度を向上して、誤認識を防止することが可能になる。
また、請求項2の発明によれば、相対関係として、第一の音声の途中に第二の音声が割り込んでいる状態であると算出された場合には、第二の音声の発話時間が所定の時間以上であって、かつ第一の音声のパワーが第二の音声のパワー以上であるかを判定し、第二の音声の発話時間が所定の時間以上であって、かつ第一の音声のパワーが第二の音声のパワー以上であると算出された場合には、第二の音声が音声操作入力であると判定するので、第一の音声(会話)に対して割り込んで発話した第二の音声が、短い場合やその第一の音声より弱いパワーである場合には、相槌や感嘆(例えば、「ああ」や「うん」)であると考えられるため、音声操作入力として受け付けない結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。
また、請求項3の発明によれば、相対関係として、第一の音声の末尾に第二の音声が重畳している状態であると算出された場合には、第一の音声の平均パワーが第二の音声と重畳する直前の第一の音声のパワー以上であるかを判定し、第一の音声の平均パワーが第二の音声と重畳する直前の第一の音声のパワー以上であると算出された場合には、第二の音声が音声操作入力であると判定するので、第一の音声(会話)が通常の会話であれば、通常会話の終わりは音声が収束してフェードアウトであるのに対し、第一の音声が急に途切れるような場合には、第二の音声が要求発話であるために会話を中断したと考えられるため、要求発話として受け付ける結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。
以下に添付図面を参照して、この発明に係る発話検知装置の実施例を詳細に説明する。
以下の実施例では、実施例1に係る発話検知装置の概要および特徴、発話検知システムの構成および処理の流れを順に説明し、最後に実施例1による効果を説明する。なお、以下では、車両に実装されるカーナビゲーション(カーナビ)等において、利用者から発話された音声が音声操作入力であるか認識する場合に適用する例を説明する。
[実施例1に係る発話検知装置の概要および特徴]
まず最初に、図1を用いて、実施例1に係る発話検知装置の概要および特徴を説明する。図1は、実施例1に係る発話検知装置の概要および特徴を説明するための図である。実施例1の発話検知装置10では、発話が音声操作入力であるかを判定することを概要とする。そして、この発話検知装置10では、音声認識の精度を向上して、誤認識を防止する点に主たる特徴がある。
この主たる特徴について具体的に説明すると、この発話検知システム1の発話検知装置10は、複数人の音声を集音するステレオマイク11を備える。そして、発話検知装置10は、ステレオマイク11によって集音された音声を主音声とその主音声に重畳する重畳音声とに区別し、区別された主音声と重畳音声との相対関係を算出する(図1の(1)参照)。なお、ここで主音声とは、区別された音声のうち音量が一番大きいものとし、重畳音声とは、区別された音声のうち音量が二番目に大きいものとする。また、発声主が三人以上いる場合には、発声主の音声のうち一番目に音量が大きいものと二番目に音量が大きいものをそれぞれ主音声、重畳音声とする。
具体的には、発話検知装置10は、主音声と重畳音声とが互いに重畳する割合である重畳度を算出し、その重畳度から主音声の途中に重畳音声が割り込んでいる状態(状態A)、主音声の末尾に重畳音声が重畳している状態(状態B)、主音声と重畳音声とが重ならない状態(状態C)のいずれの状態であるかを判定する。図1の例を用いて説明すると、主音声の重畳度Rpが100以下であり、かつ、重畳音声の重畳度Raが100であるので、主音声の途中に重畳音声が割り込んでいる状態(状態A)であると判定する。
そして、発話検知装置10は、算出された相対関係に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する(図1の(2)参照)。その結果、発話検知装置10は、音声操作入力であると判定した場合には、要求発話として応答システム50に対して要求内容を出力する(図1の(3)参照)。具体的には、発話検知装置10は、判定された状態A、状態B、状態Cそれぞれに設定されている所定の条件に応じて、発話が同乗者に対する会話(以下、「会話」という)であるか音声操作入力(以下、「要求発話」という)であるかを判定する。
例えば、発話検知装置10は、状態Aであると判定した場合には、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上であるかを判定する。その結果、発話検知装置10は、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上である場合には、要求発話であると判定する。また、発話検知装置10は、重畳音声の発話時間Saが所定の閾値T2未満であるか、または、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP未満である場合には、会話であると判定する。
このように、発話検知装置10は、集音された音声を個別に判定せずに、主音声と重畳音声との相対関係に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する結果、上記した主たる特徴のごとく、音声認識の精度を向上して、誤認識を防止することが可能である。
[発話検知システムの構成]
次に、図2〜図4を用いて、図1に示した発話検知システム1の構成を説明する。図2は、実施例1に係る発話検知システム1の構成を示すブロック図であり、図3は、重畳状態判定テーブルを説明するための図であり、図4は、重畳状態を説明するための図である。
図2に示すように、この発話検知システム1は、発話検知装置10、音声出力装置20、同乗者判定装置30、音声認識エンジン40および応答システム50を有する。以下では、まず、本発明に係る発話検知装置10以外の音声出力装置20、同乗者判定装置30、音声認識装置40および応答システム50から説明する。
音声出力装置20は、音声を出力するスピーカ21と、音声を増幅するアンプ22と、音楽またはトークバック音声を再生する音楽再生/合成音声再生部23とを備える。音声出力装置20は、音楽再生/合成音声再生部23から再生する音声をアンプに送信し、アンプがその音声を増幅した後に、スピーカ21から出力する。また、音声出力装置20の音楽再生/合成音声再生部23は、後述する発話検知装置10の音声出力判定部14および学習フィルタ15に再生する音声データの原信号を送信する。
同乗者判定装置30は、車室内を撮影する車室内カメラ31と、車室内のシートの重さを検知する荷重センサ32と、同乗者の有無を判定する同乗者有無判定部33とを備える。同乗者判定装置30の同乗者有無判定部33は、車室内カメラ31および荷重センサ32の取得したデータを基に、同乗者の有無を判定する。そして、同乗者有無判定部33は、その判定結果を後述する発話検知装置10の波形分析/音源分離部16に通知する。
音声認識エンジン40は、音声データから音素の照合を行う音素照合部41と、図示しない音声認識辞書と単語照合部42と、認識結果出力部43とを備える。音声認識エンジン40の音素照合部41は、後述する発話検知装置10の音声重畳度判定部17から音声データを受信し、その音声データを解析して音素照合を行って、その音素に関する情報を単語照合部42に通知する。そして、単語照合部42は、音素に関する情報から図示しない音声認識辞書を用いて、単語の照合を行い、その照合結果を認識結果として認識結果出力部43に通知する。その後、認識結果出力部43は、通知された認識結果を出力して、発話検知装置10の要求判定部19に送信する。
応答システム50は、後述する発話装置10の要求判定部19から送信された要求を受信し、その要求に対応するシステム応答処理として実行する。例えば、音声により操作入力を受け付けて動作するカーナビが該当する。なお、上記した音声認識辞書として、ドライバー用および助手席用それぞれ設定するようにしてもよい。
次に、本発明に係る発話検知装置10について説明する。実施例1に係る発話検知装置10は、図2に示すように、ステレオマイク11、入力レベル判定部12、騒音低減処理部13、音声出力判定部14、学習フィルタ15、波形分析/音源分離部16、音声重畳度判定部17、重畳状態判定テーブル18、要求判定部19から主に構成される。
重畳状態判定テーブル18は、各重畳状態(状態A、状態B、状態C)における主音声、重畳音声、システムの振る舞いをそれぞれ記憶している。具体的には、重畳状態判定テーブル18は、図3に示すように、各重畳状態に対応する主音声の発話時間Sp、主音声の重畳時間Op、主音声の重畳度Rp、重畳音声の発話時間Sa、重畳音声の重畳時間Oa、重畳音声の重畳度Ra、音声操作入力であるかを判定するシステムの振る舞いをそれぞれ対応付けて記憶する。なお、この詳細については、音声重畳度判定部17の処理として後に説明する。
ステレオマイク11は、複数人の音声を集音する。具体的には、ステレオマイク11は、複数人の音声を集音し、その音声情報を入力レベル判定部12に通知する。なお、このステレオマイク11の置く位置は自由であり、配線も一本であるため自動車購入後の後付けも容易である。
入力レベル判定部12は、入力レベルが所定の閾値以上であるか判定する。具体的には、入力レベル判定部12は、ステレオマイク11から通知された音声情報の入力音声パワーレベルが所定の閾値以上L1であるかを判定する。つまり、入力レベル判定部12は、入力音声パワーレベルが所定の閾値以上L1でない場合には、独り言もしくは騒音と判断して、リジェクトする。また、入力レベル判定部12は、入力音声パワーレベルが所定の閾値以上L1である場合には、音声情報を騒音低減処理部13に通知する。
騒音低減処理部13は、ステレオマイク11が集音した音声情報からスピーカ21が出力した音楽やトークバック等の騒音を低減する処理を行う。具体的には、騒音低減処理部13は、入力レベル判定部12から通知された音声情報をフレーム単位でローパスフィルタ処理などを行って騒音を低減する。そして、騒音低減処理部13は、後述する学習フィルタ15からフィルタ係数を受信した場合には、そのフィルタ係数を用いてステレオマイク11が集音した音声情報から雑音(音楽やトークバック)を除去して乗員の発話のみを抽出し、波形分析/音源分離部16に通知する。また、騒音低減処理部13は、学習フィルタ15からフィルタ係数を受信しない場合には、騒音が低減された音声情報を波形分析/音源分離部16に通知する。
音声出力判定部14は、音声出力装置20のスピーカ21から音楽またはトークバックが出力されているか判定する。具体的には、音声出力判定部14は、音出力装置20の音楽再生/合成音声再生部23によって再生される音楽またはトークバックの音声データを受信し、オーディオが出力中であるかを判定し、オーディオが出力中であると判定した場合には、学習フィルタ15にスピーカ21から出力された音声を除去する旨の要求を通知する。また、音声出力判定部14は、オーディオが出力中でないと判定した場合には、トークバックが出力しているかを判定する。
その結果、音声出力判定部14は、トークバックが出力中であると判定した場合は、学習フィルタ15にスピーカ21から出力された音声を除去する旨の要求を学習フィルタに通知する。また、音声出力判定部14は、トークバックが出力中でないと判定した場合は、学習フィルタ15にスピーカ21から出力された音声を除去する処理を行わない旨の要求を通知する。
学習フィルタ15は、音響エコーキャンセラとして、車室内の反射の影響を学習し、雑音を除去して発話のみを抽出するフィルタ係数を算出する。具体的には、学習フィルタ15は、音声出力判定部14から出力された音声を除去する旨の要求を受信した場合には、音楽再生/合成音声再生部23から音楽やトークバックの音声における原信号を受信し、その原信号が室内で反響した影響を学習して、ステレオマイク11が集音した音声情報から雑音を除去して乗員の発話のみを抽出するためのフィルタ係数を算出し、騒音低減処理部13に通知する。
波形分析/音源分離部16は、波形を分析して主音声と重畳音声とに区別する。具体的には、波形分析/音源分離部16は、同乗者判定装置30の同乗者有無判定部33から同乗者の有無に関する判定結果を受信し、同乗者がいない場合には、同乗者がいない旨を後述する音声重畳度判定部17に通知する。また、波形分析/音源分離部16は、同乗者がいる場合には、波形を分析して、音源がそれぞれ異なる主音声と重畳音声とに分離して、音声重畳度判定部17に通知する。
音声重畳度判定部17は、区別された主音声と重畳音声との相対関係を算出する。具体的には、音声重畳度判定部17は、主音声と重畳音声とが互いに重畳する割合である重畳度を算出し、その重畳度から主音声と重畳音声とが状態A、状態Bまたは状態Cのいずれの状態(重畳状態)であるかを重畳状態判定テーブル18を用いて判定する。
ここで、図4を用いて、各重畳状態について具体的に説明する。同図に示すように、重畳状態Aとは、その重畳度から主音声の途中に重畳音声が割り込んでいる状態を示す。つまり、音声重畳度判定部17は、主音声の重畳度Rpが100以下であり、かつ重畳音声の重畳度Raが100である場合には、主音声の途中に重畳音声が割り込んでいる状態(状態A)であると判定する。
また、重畳状態Bとは、主音声の末尾に重畳音声が重畳している状態を示す。つまり、音声重畳度判定部17は、主音声の重畳度Rpが0より大きく100未満であり、かつ重畳音声の重畳度Raが0より大きく100未満である場合には、主音声の末尾に重畳音声が重畳している状態(状態B)であると判定する。また、重畳状態Cとは、主音声と重畳音声とが重なっていない状態を示す。つまり、音声重畳度判定部17は、主音声の重畳度Rpが0であり、かつ重畳音声の重畳度Raが0である場合には、主音声の途中に重畳音声が割り込んでいる状態(状態C)であると判定する。
そして、音声重畳度判定部17は、重畳状態を判定した後、算出された重畳状態に基づいて、発話が同乗者に対する会話であるか音声操作入力であるかを判定する。具体的には、音声重畳度判定部17は、重畳状態Aである場合には、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上であるかを判定する(図3参照)。
その結果、音声重畳度判定部17は、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上である場合には、重畳音声が応答システム50への要求発話と判定し、音声データを音声認識エンジン40の音素照合部41に送信する。一方、音声重畳度判定部17は、畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上でない場合には、相槌や感嘆詩であるとしてリジェクトする(図3参照)。つまり、主音声(会話)に対して割り込んで発話した音声が、短い場合やその主音声より弱いパワーである場合には、相槌や感嘆詩(例えば、「ああ」や「うん」)であると考えられるため、要求発話として受け付けない。
また、音声重畳度判定部17は、重畳状態Bである場合には、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上であるかを判定する(図3参照)。その結果、音声重畳度判定部17は、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上である場合には、重畳音声が応答システム50への要求発話と判定し、音声データを音声認識エンジン40の音素照合部41に送信する。一方、音声重畳度判定部17は、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上でない場合には、相槌や感嘆詩であるとしてリジェクトする(図3参照)。つまり、主音声(会話)が通常の会話であれば、通常会話の終わりは音声が収束してフェードアウトであるのに対し、主音声が急に途切れるような場合には、重畳音声が要求発話であるために会話を中断したと考えられるため、要求発話として受け付ける。
また、音声重畳度判定部17は、重畳状態Cである場合には、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上であるか判定する(図3参照)。その結果、音声重畳度判定部17は、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上であると判定した場合には、重畳音声が応答システム50への要求発話と判定し、音声データを音声認識エンジン40の音素照合部41に送信する。一方、音声重畳度判定部17は、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上でないと判定した場合には、相槌や感嘆詩であるとしてリジェクトする(図3参照)。
要求判定部19は、認識結果の確からしさを判定する。具体的には、要求判定部19は、音声認識エンジン40の認識結果出力部43から送信された認識結果を受信し、その認識結果の確からしさ尤値度を用いて判定する。その結果、要求判定部19は、認識結果が確からしくないと判定した場合には、リジェクトし、一方、認識結果が確からしいと判定した場合には、応答システム50に要求を送信する。
[発話検知システムによる処理]
次に、図5および図6を用いて、実施例1に係る発話検知システム1による処理を説明する。図5は、実施例1に係る発話検知システム1の処理動作を示すフローチャートであり、図6は、実施例1に係る発話検知システム1のシステム要求判定処理を示すフローチャートである。
図5に示すように、発話検知装置10は、ステレオマイク11によって集音された音声情報の入力音声パワーレベルが所定の閾値以上L1であるかを判定する(ステップS101)。その結果、発話検知装置10は、入力音声パワーレベルが所定の閾値以上L1でない場合には(ステップS101否定)、独り言もしくは騒音と判断して、リジェクトする(ステップS102)。
また、発話検知装置10は、入力音声パワーレベルが所定の閾値以上L1である場合には(ステップS101肯定)、音声情報をフレーム単位でローパスフィルタ処理などを行って雑音を低減する雑音低減処理を行う(ステップS103)。また、発話検知装置10は、音声出力装置20によって再生される音楽またはトークバックの音声データを受信し、オーディオが出力中であるかを判定し(ステップS104)、オーディオが出力中でないと判定した場合には(ステップS104否定)、トークバックが出力しているかを判定する(ステップS105)。
また、発話検知装置10は、ステップS104およびステップS105において、オーディオが出力中であると判定した場合(ステップS104肯定)、またはトークバックが出力中であると判定した場合は(ステップS105肯定)、雑音除去処理を行う(ステップS106)。具体的には、発話検知装置10は、原信号が室内で反響した影響を学習し、ステレオマイク11が集音した音声情報から雑音を除去して乗員の発話のみを抽出するためのフィルタ係数を算出し、フィルタ係数を用いてステレオマイク11が集音した音声情報から雑音を除去して乗員の発話のみを抽出する。なお、上記した処理では、フレーム単位で音声情報の処理を行い、処理された音声情報を所定の記憶部に遂次記憶し、以下の処理では、所定の記憶部に蓄積された複数のフレーム単位で処理を行っている。
そして、発話検知装置10は、トークバックが出力中でないと判定した場合(ステップS105否定)、または雑音除去処理を行った後(ステップS106)、システム要求判定処理(後に図6を用いて詳述)を実行し(ステップS107)、音声が応答システム50への要求発話であるか判定する(ステップS108)。その結果、発話検知装置10は、音声が応答システム50への要求発話でないと判定した場合には(ステップS108否定)、相槌や感嘆詩であると考えられるため、要求発話として受け付けずに相槌や感嘆詩であるとしてリジェクトする(ステップS109)。
また、発話検知装置10によって音声が応答システム50への要求発話であると判定された場合には(ステップS108肯定)、音声認識エンジン40は、発話検知装置10から音声データを受信し、その音声データを解析して音素照合を行う(ステップS110)。そして、音声認識エンジン40は、その音素に関する情報から音声認識辞書を用いて、単語の照合を行い(ステップS111)、認識結果を出力する(ステップS112)。
その後、発話検知装置10は、音声認識エンジン40から送信された認識結果を受信して、その認識結果の確からしさ尤値度を用いて判定する(ステップS113)。その結果、発話検知装置10は、認識結果が確からしくないと判定した場合には(ステップS113否定)、リジェクトする(ステップS114)。一方、発話検知装置10によって認識結果が確からしいと判定された場合には(ステップS113肯定)、応答システム50は、発話検知装置10から送信された要求を受信し、その要求に対応するシステム応答処理として実行する(ステップS115)。
次に、図6を用いて、実施例1に係る実施例1に係る発話検知システム1のシステム要求判定処理を説明する。同図に示すように、発話検知装置10は、雑音除去済み音声データが入力されると(ステップS201)、同乗者の有無に関する判定結果から同乗者がいるか判定する(ステップS202)。その結果、発話検知装置10は、同乗者がいると判定した場合には(ステップS202肯定)、波形を分析して、音源がそれぞれ異なる主音声と重畳音声とに区別する(ステップS203)。
そして、発話検知装置10は、主音声と重畳音声とが互いに重畳する割合である重畳度を算出し(ステップS204)、その重畳度から主音声と重畳音声とが状態A、状態Bまたは状態Cのいずれの状態(重畳状態)であるかを重畳状態判定テーブル18を用いて判定する(ステップS205)。
つまり、発話検知装置10は、主音声の重畳度Rpが100以下であり、かつ重畳音声の重畳度Raが100である場合には、主音声の途中に重畳音声が割り込んでいる状態(状態A)であると判定する(ステップS205状態A)。また、発話検知装置10は、主音声の重畳度Rpが0より大きく100未満であり、かつ重畳音声の重畳度Raが0より大きく100未満である場合には、主音声の末尾に重畳音声が重畳している状態(状態B)であると判定する(ステップS205状態B)。また、発話検知装置10は、主音声の重畳度Rpが0であり、かつ重畳音声の重畳度Raが0である場合には、主音声の途中に重畳音声が割り込んでいる状態(状態C)であると判定する(ステップS205状態C)。
そして、発話検知装置10は、重畳状態Aであると判定した場合には(ステップS205状態A)、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上であるかを判定する(ステップS206)。
その結果、発話検知装置10は、重畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上である場合には(ステップS206肯定)、重畳音声が応答システム50への要求発話と判定する(ステップS207)。一方、発話検知装置10は、畳音声の発話時間Saが所定の閾値T2以上であって、かつ、重畳音声における重畳フレームの平均パワーAveAが主音声における重畳フレームの平均パワーAveP以上でない場合には(ステップS206否定)、会話と判定する(ステップS208)。つまり、主音声(会話)に対して割り込んで発話した音声が、短い場合やその主音声より弱いパワーである場合には、相槌や感嘆詩(例えば、「ああ」や「うん」)であると考えられるため、要求発話として受け付けない。
また、発話検知装置10は、重畳状態Bである場合には(ステップS205状態B)、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上であるかを判定する(ステップS209)。その結果、発話検知装置10は、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上である場合には(ステップS209肯定)、重畳音声が応答システム50への要求発話と判定する(ステップS210)。一方、発話検知装置10は、主音声における重畳フレームの平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上でない場合には(ステップ209否定)、会話であると判定する(ステップS211)。
また、発話検知装置10は、ステップS202において同乗者がいないと判定した場合には(ステップS202否定)、または、ステップS205において重畳状態Cである場合には(ステップS205状態C)、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上であるか判定する(ステップS212)。その結果、発話検知装置10は、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上であると判定した場合には(ステップS212肯定)、重畳音声が応答システム50への要求発話と判定する(ステップS213)。一方、発話検知装置10は、主音声の発話時間Spまたは重畳音声の発話時間Saが所定の閾値T2以上でないと判定した場合には(ステップS212否定)、会話であると判定する(ステップS214)。
[実施例1の効果]
上述してきたように、発話検知装置10は、複数人の音声を集音し、集音された音声を複数人ごとに主音声と重畳音声として区別し、その主音声と重畳音声との相対関係として、主音声の途中に重畳音声が割り込んでいる状態、主音声の末尾に重畳音声が重畳している状態、主音声と重畳音声とが重ならない状態のいずれの状態であるかを算出し、算出された状態に基づいて、主音声または重畳音声が音声操作入力であるかを判定するので、音声認識の精度を向上して、誤認識を防止することが可能になる。
また、実施例1によれば、重畳関係として、主音声の途中に重畳音声が割り込んでいる重畳状態Aであると算出された場合には、重畳音声の発話時間Saが所定の時間T2以上であって、かつ主音声のパワーAvePが重畳音声のパワーAveA以上であるかを判定し、重畳音声の発話時間Saが所定の時間T2以上であって、かつ主音声のパワーAvePが重畳音声のパワーAveA以上であると算出された場合には、重畳音声が音声操作入力であると判定するので、主音声(会話)に対して割り込んで発話した重畳音声が、短い場合やその主音声より弱いパワーである場合には、相槌や感嘆詩(例えば、「ああ」や「うん」)であると考えられるため、音声操作入力として受け付けない結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。
また、実施例1によれば、重畳関係として、主音声の末尾に重畳音声が重畳している重畳状態Bであると算出された場合には、主音声の平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上であるかを判定し、主音声の平均パワーAvePが重畳音声と重畳する直前の主音声のパワー以上であると算出された場合には、重畳音声が音声操作入力であると判定するので、主音声(会話)が通常の会話であれば、通常会話の終わりは音声が収束してフェードアウトであるのに対し、主音声が急に途切れるような場合には、重畳音声が要求発話であるために会話を中断したと考えられるため、要求発話として受け付ける結果、音声認識の精度をより向上して、誤認識を防止することが可能になる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に示すように、(1)マイク、(2)相対関係、(3)乗員数、(4)システム構成等、(5)プログラムにそれぞれ区分けして異なる実施例を説明する。
(1)マイク
上記の実施例1では、単一のステレオマイクを用いて車室内の音声を集音する場合を説明したが、本発明はこれに限定されるものではなく、複数のマイクを車室内に設けて集音するようにしてもよい。
(2)相対関係
また、上記の実施例1では、相対関係として、重畳状態を算出する場合を説明したが、本発明はこれに限定されるものではなく、重畳していない音声同士の相対関係を算出するようにしてもよい。
(3)乗員数
また、上記の実施例1では、車両内の乗員が二人いる場合の処理を説明したが、本発明はこれに限定されるものではなく、三人以上いる場合にも適用することが可能なようにしてもよい。例えば、発話検知装置は、三人以上の音声を集音した場合には、集音した音声のうち、音量の大きい二つの音声の相対関係を算出して、音声操作入力であるかを判定する。
(4)システム構成等
また、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、集音された音声が要求発話であるか会話であるかを判定する場合に用いられる閾値T2の値を任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示(例えば、図2など)の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、発話検知装置10と音声認識エンジン40とを統合するようにしてもよい。
(5)プログラム
なお、本実施例で説明した発話検知方法は、あらかじめ用意されたプログラムを車載装置であるカーナビゲーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
以上のように、本発明に係る発話検知装置は発話が音声操作入力であるかを判定する場合に有用であり、特に、音声認識の精度を向上して、誤認識を防止することに適する。
実施例1に係る発話検知装置の概要および特徴を説明するための図である。 実施例1に係る発話検知システム1の構成を示すブロック図である。 重畳状態判定テーブルを説明するための図である。 重畳状態を説明するための図である。 実施例1に係る発話検知システム1の処理動作を示すフローチャートである。 実施例1に係る発話検知システム1のシステム要求判定処理を示すフローチャートである。
符号の説明
1 発話検知システム
10 発話検知装置
11 ステレオマイク
12 入力レベル判定部
13 騒音低減処理部
14 音声出力判定部
15 学習フィルタ
16 波形分析/音源分離部
17 音声重畳度判定部
18 重畳状態判定テーブル
19 要求判定部
20 音声出力装置
21 スピーカ
22 アンプ
23 音楽再生/合成音声再生部
30 同乗者判定装置
31 車室内カメラ
32 荷重センサ
33 同乗者有無判定部
40 音声認識エンジン
41 音素照合部
42 単語照合部
43 認識結果出力部
50 応答システム

Claims (3)

  1. 複数人の音声を集音する集音手段と、
    前記集音手段によって集音された音声を前記複数人ごとに第一の音声と第二の音声として区別し、当該第一の音声と第二の音声との相対関係として、前記第一の音声の途中に前記第二の音声が割り込んでいる状態、前記第一の音声の末尾に前記第二の音声が重畳している状態、前記第一の音声と前記第二の音声とが重ならない状態のいずれの状態であるかを算出する相対関係算出手段と、
    前記相対関係算出手段によって算出された前記状態に基づいて、前記第一の音声または前記第二の音声が音声操作入力であるかを判定することを特徴とする請求項1に記載の発話検知装置。
  2. 前記発話対象判定手段は、前記相対関係算出手段によって前記相対関係として、前記第一の音声の途中に前記第二の音声が割り込んでいる状態であると算出された場合には、前記第二の音声の発話時間が所定の時間以上であって、かつ前記第一の音声のパワーが前記第二の音声のパワー以上であるかを判定し、前記第二の音声の発話時間が所定の時間以上であって、かつ前記第一の音声のパワーが前記第二の音声のパワー以上であると算出された場合には、前記第二の音声が音声操作入力であると判定することを特徴とする請求項1に記載の発話検知装置。
  3. 前記発話対象判定手段は、前記相対関係算出手段によって前記相対関係として、前記第一の音声の末尾に前記第二の音声が重畳している状態であると算出された場合には、前記第一の音声の平均パワーが前記第二の音声と重畳する直前の第一の音声のパワー以上であるかを判定し、前記第一の音声の平均パワーが前記第二の音声と重畳する直前の第一の音声のパワー以上であると算出された場合には、前記第二の音声が音声操作入力であると判定することを特徴とする請求項1または請求項2に記載の発話検知装置。
JP2007147383A 2007-06-01 2007-06-01 発話検知装置 Pending JP2008299221A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007147383A JP2008299221A (ja) 2007-06-01 2007-06-01 発話検知装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007147383A JP2008299221A (ja) 2007-06-01 2007-06-01 発話検知装置

Publications (1)

Publication Number Publication Date
JP2008299221A true JP2008299221A (ja) 2008-12-11

Family

ID=40172769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007147383A Pending JP2008299221A (ja) 2007-06-01 2007-06-01 発話検知装置

Country Status (1)

Country Link
JP (1) JP2008299221A (ja)

Cited By (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004270A (ja) * 2014-05-30 2016-01-12 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
WO2016051519A1 (ja) * 2014-09-30 2016-04-07 三菱電機株式会社 音声認識システム
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07334458A (ja) * 1994-06-13 1995-12-22 Nippon Telegr & Teleph Corp <Ntt> 情報交換支援装置
JP2000341658A (ja) * 1999-05-27 2000-12-08 Nec Eng Ltd 話者方向検出システム
JP2003241797A (ja) * 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム
JP2003308079A (ja) * 2002-04-15 2003-10-31 Nissan Motor Co Ltd 音声入力装置
JP2004286805A (ja) * 2003-03-19 2004-10-14 Sony Corp 話者識別装置および話者識別方法、並びにプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07334458A (ja) * 1994-06-13 1995-12-22 Nippon Telegr & Teleph Corp <Ntt> 情報交換支援装置
JP2000341658A (ja) * 1999-05-27 2000-12-08 Nec Eng Ltd 話者方向検出システム
JP2003241797A (ja) * 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム
JP2003308079A (ja) * 2002-04-15 2003-10-31 Nissan Motor Co Ltd 音声入力装置
JP2004286805A (ja) * 2003-03-19 2004-10-14 Sony Corp 話者識別装置および話者識別方法、並びにプログラム

Cited By (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
JP2016004270A (ja) * 2014-05-30 2016-01-12 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10657966B2 (en) 2014-05-30 2020-05-19 Apple Inc. Better resolution when referencing to concepts
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10714095B2 (en) 2014-05-30 2020-07-14 Apple Inc. Intelligent assistant for home automation
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
DE112014007015B4 (de) * 2014-09-30 2021-01-14 Mitsubishi Electric Corporation Spracherkennungssystem
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
CN106796786A (zh) * 2014-09-30 2017-05-31 三菱电机株式会社 语音识别系统
WO2016051519A1 (ja) * 2014-09-30 2016-04-07 三菱電機株式会社 音声認識システム
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10847142B2 (en) 2017-05-11 2020-11-24 Apple Inc. Maintaining privacy of personal information
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance

Similar Documents

Publication Publication Date Title
JP2008299221A (ja) 発話検知装置
CN112424860A (zh) 重放攻击的检测
JP5649488B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
JP2003308079A (ja) 音声入力装置
JP2005195895A (ja) 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
JP2001075594A (ja) 音声認識システム
JP2007219207A (ja) 音声認識装置
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
US20070198268A1 (en) Method for controlling a speech dialog system and speech dialog system
JPWO2007138741A1 (ja) 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
US11089404B2 (en) Sound processing apparatus and sound processing method
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
CN110696756A (zh) 一种车辆的音量控制方法及装置、汽车、存储介质
JP6847324B2 (ja) 音声認識装置、音声認識システム、及び音声認識方法
JP2008250236A (ja) 音声認識装置および音声認識方法
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP4752028B2 (ja) 音声中の非発話音声の判別処理方法
JP2005338454A (ja) 音声対話装置
JP2007043356A (ja) 音量自動調節装置および音量自動調節方法
JPH04318900A (ja) 多方向同時収音式音声認識方法
JP2005354223A (ja) 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
CN110942770B (zh) 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质
JP3649032B2 (ja) 音声認識方法
JP2010164992A (ja) 音声対話装置
JP2004318026A (ja) セキュリティペットロボット及びその装置に関する信号処理方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110719