JP5017441B2 - 携帯型電子機器 - Google Patents

携帯型電子機器 Download PDF

Info

Publication number
JP5017441B2
JP5017441B2 JP2010242474A JP2010242474A JP5017441B2 JP 5017441 B2 JP5017441 B2 JP 5017441B2 JP 2010242474 A JP2010242474 A JP 2010242474A JP 2010242474 A JP2010242474 A JP 2010242474A JP 5017441 B2 JP5017441 B2 JP 5017441B2
Authority
JP
Japan
Prior art keywords
input
signal
sound
portable electronic
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010242474A
Other languages
English (en)
Other versions
JP2012093641A (ja
Inventor
千加志 杉浦
岳彦 井阪
隆 須藤
真吾 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010242474A priority Critical patent/JP5017441B2/ja
Priority to US13/187,390 priority patent/US20120109632A1/en
Publication of JP2012093641A publication Critical patent/JP2012093641A/ja
Application granted granted Critical
Publication of JP5017441B2 publication Critical patent/JP5017441B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6008Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/22Details of telephonic subscriber devices including a touch pad, a touch sensor or a touch detector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/58Details of telephonic subscriber devices including a multilanguage function
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Description

本発明の実施形態は、音声信号を利用して各種サービスを実行するための携帯型電子機器に関する。
近年、スマートフォン、PDA、スレートPCといった様々な携帯型電子機器が開発されている。このような携帯型電子機器の多くはタッチスクリーンディスプレイ(タッチパネル式ディスプレイとも云う)を備えている。ユーザは、タッチスクリーンディスプレイ上を指でタップすることにより、そのタップ位置に関連付された機能の実行を携帯型電子機器に対して指示することができる。
また、最近では、音声認識機能および音声合成機能の性能が大幅に向上している。このため、携帯型電子機器においても、音声認識機能および音声合成機能等を用いたサービスを実行するための機能の搭載が要求され始めている。
音声認識機能を備えた機器の例としては、携帯型機械翻訳機器が知られている。この機械翻訳機器は、第1の言語の音声を認識し、その認識結果である文字データを第2の言語の文字データに翻訳する。この第2の言語の文字データは音声合成によって音声に変換され、そしてその音声がスピーカから出力される。
特開2003−108551号公報
しかし、音声認識の精度はノイズによって大きく影響される。一般に、音声認識技術の分野では、バックグラウンドノイズのような定常ノイズを除去するための様々な技術が利用されている。ここで、定常ノイズとは、時間的に連続して発生するノイズのことを意味する。定常ノイズの周波数特性は、例えば、無発話区間の音声信号を解析することによって算出することができる。周波数領域で入力音声信号から定常ノイズ成分を除去するための演算を行うことにより、定常ノイズによる影響を低減することができる。
しかし、携帯型電子機器において、定常ノイズのみならず、非定常ノイズが音声認識の精度に大きく影響を及ぼす可能性がある。非定常ノイズは、たとえば、いつ発生するかわからず、且つ瞬時的に発生するノイズである。この非定常ノイズとしては、音声入力中における、機器に対する接触音、周辺話者音声、機器のスピーカから再生される音、等があげられる。
音声認識機能を有する多くの携帯型電子機器においては、マイクロホンは、その携帯型電子機器の本体に取り付けられている。このため、もし音声入力中にユーザが機器の本体に触れると、機器の振動に対応する音がマイクロホンによって入力されてしまうことがある。特に、タッチスクリーンディスプレイを備えた機器においては、例えば、もし音声入力中にユーザがタッチスクリーンディスプレイをタップすると、そのタップ音によって入力音声にノイズ(非定常ノイズ)が入り込む可能性がある。
音声入力中は他の操作を禁止するという方法を用いれば、入力音声にノイズ(非定常ノイズ)が入り込むことを軽減できる。しかし、もしこの方法を用いると、音声入力中は、ユーザは電子機器に対する他の操作を一切行うことができないので、携帯型電子機器の使い勝手が低下する。
本発明の目的は、非定常ノイズの影響を低減することによって音声入力中に他の操作を実行することができる携帯型電子機器を提供することである。
実施形態によれば、携帯型電子機器は、タッチスクリーンディスプレイを備えた本体を具備し、前記タッチスクリーンディスプレイ上のタップ位置に対応する表示オブジェクトに関連づけられた機能を実行するように構成されている。前記携帯型電子機器は、前記本体に取り付けられた少なくとも一つのマイクロホンと、前記本体内に設けられ、前記少なくとも一つのマイクロホンからの入力音声信号を処理する音声処理手段と、前記本体内に設けられ、前記音声処理手段によって処理された入力音声信号を認識および機械翻訳することによって得られる目的言語の翻訳結果を出力する翻訳結果出力手段とを具備する。前記音声処理手段は、前記タッチスクリーンディスプレイ上をタップすることによって発生するタップ音信号の波形を示す予め用意された検出対象音波形と前記入力音声信号の波形との間の相関を算出することによって前記入力音声信号内に含まれる前記タップ音信号を検出し、前記検出されたタップ音信号に対応する信号部分を前記入力音声信号から削除する。
実施形態に係る携帯型電子機器の外観を示す図。 同実施形態の携帯型電子機器のユースケースを示す図。 同実施形態の携帯型電子機器のシステム構成の例を示すブロック図。 同実施形態の携帯型電子機器によって検出されるタップ音信号の波形例を示す図。 同実施形態の携帯型電子機器によって検出されるサチレーション波形例を示す図。 同実施形態の携帯型電子機器に入力される、タップ音信号を含む入力音声信号の波形例を示す図。 同実施形態の携帯型電子機器によって実行される、タップ音信号を除去するための音声信号補正処理の例を説明するための図。 同実施形態の携帯型電子機器のシステム構成の別の例を示すブロック図。 同実施形態の携帯型電子機器のシステム構成のさらに別の例を示すブロック図。 同実施形態の携帯型電子機器によって検出される発話区間の例を示す図。 同実施形態の携帯型電子機器によって実行される発話区間検出処理の手順を示すフローチャート。 同実施形態の携帯型電子機器のシステム構成のさらに別の例を示すブロック図。 同実施形態の携帯型電子機器のシステム構成のさらに別の例を示すブロック図。
以下、図面を参照して、実施形態を説明する。
まず、図1を参照して、実施形態に係る携帯型電子機器の構成を説明する。この携帯型電子機器は、たとえば、スマートフォン、PDA、またはスレートPC等として実現することができる。この携帯型電子機器は、タッチスクリーンディスプレイ11を備えた本体10を備えている。より詳しくは、本体10は薄い箱状の筐体を有しており、その筐体の上面上にタッチスクリーンディスプレイ11が設けられている。タッチスクリーンディスプレイ11はその画面上のタップ位置(タッチ位置)を検出可能なディスプレイである。このタッチスクリーンディスプレイ11は、たとえば、LCDのようなフラットパネルディスプレイとタッチパネルとから構成することができる。
この携帯型電子機器は、タッチスクリーンディスプレイ11上のタップ位置に対応する表示オブジェクト(メニュー、ボタン、等)に関連づけられた機能を実行することができる。たとえば、この携帯型電子機器は、タッチスクリーンディスプレイ11上に表示される画像(案内図等)と音声とを利用した様々なサービス、たとえば、旅行者に対して海外旅行における会話等をサポートするサービス、店員に対して外国人観光客に対する接客をサポートするサービス、等を実行することができる。これらサービスは、携帯型電子機器が有する音声入力機能、音声認識機能、機械翻訳機能、音声合成(テキスト・ツー・スピーチ)機能等を用いて実現することができる。これら機能の全てを携帯型電子機器によって実行してもよいが、これら機能の一部またはほとんど全てをネットワーク20上のサーバ21によって実行してもよい。たとえば、音声認識機能および機械翻訳機能をネットワーク20上のサーバ21によって実行し、音声入力機能および音声合成(テキスト・ツー・スピーチ)機能を携帯型電子機器によって実行してもよい。この場合、サーバ21は、携帯型電子機器から受信した音声信号を認識する自動音声認識(ASR)機能、ASRによって得られたテキストを目的言語に翻訳する機械翻訳(MT)機能等を有してればよい。携帯型電子機器は、機械翻訳(MT)によって得られる目的言語の翻訳結果をサーバ21から受信することができる。携帯型電子機器は、受信した翻訳結果が示すテキストを音声信号に変換し、この音声信号に対応する音をスピーカから出力してもよい。また、携帯型電子機器は、受信した翻訳結果が示すテキストを、タッチスクリーンディスプレイ11上に表示してもよい。
本体10には1つ以上のマイクロホンが設けられている。これら1つ以上のマイクロホンは音声信号を入力するために用いられる。図1においては、本体10の上端部の左端および右端にそれぞれマイクロホン12A,12Bが設けられている構成例が例示されている。
ここで、ショッピングモールの店員(案内者)が外国人観光客(外国人)を接客するのをサポートするサービスを例示して、タッチスクリーンディスプレイ11に表示される画面の例を説明する。図2に示すように、店員(案内者)31と外国人(被案内者)32の双方はタッチスクリーンディスプレイ11の表示画面を見ながら会話する。店員31は、たとえば左腕で携帯型電子機器を持ち、発話しながら、右手の指でタッチスクリーンディスプレイ11の画面をタッチ操作(タップ操作、ドラッグ操作等、)する。
たとえば、ショッピングモールで外国人32が「○○売り場はどこですか」と売り場を聞いてきたとき、店員31は「○○売り場でございますね」などと発話しながら、タッチスクリーンディスプレイ11を操作して「○○売り場」の売り場地図をタッチスクリーンディスプレイ11上に表示する。その間、店員が発した音声「○○売り場でございますね」は目的言語(外国人32が使用する言語)に翻訳され、その翻訳結果が携帯型電子機器から出力される。この場合、携帯型電子機器は、目的言語の翻訳結果を示すテキストを音声信号に変換し、この音声信号に対応する音を出力してもよい。また、携帯型電子機器は、目的言語の翻訳結果を示すテキストをタッチスクリーンディスプレイ11上に表示してもよい。もちろん、携帯型電子機器は、目的言語の翻訳結果を示すテキストを音声信号に変換し、この音声信号に対応する音を出力すると共に、目的言語の翻訳結果を示すテキストをタッチスクリーンディスプレイ11上に表示してもよい。
さらに、携帯型電子機器は、外国人32の発話「○○売り場はどこですか」を認識および翻訳することによって得られる別の目的言語(店員31が使用する言語)の翻訳結果を、音声またはテキストによって出力することもできる。
また、携帯型電子機器は、外国人32の発話の認識結果を示す元言語のテキスト(外国人32の使用する言語のテキスト)と外国人32の発話を認識および翻訳することによって得られる翻訳結果を示すテキスト(店員31が使用する言語のテキスト)とをタッチスクリーンディスプレイ11上に表示してもよい。
以下では、説明をわかりやすくするために、店員31が使用する言語が日本語であり、外国人32の使用する言語が英語である場合を想定して説明するが、本実施形態は、これに限定されず、たとえば、店員31が使用する言語が英語で外国人32の使用する言語が中国語であるケース、店員31が使用する言語が中国語で外国人32の使用する言語が英語であるケース、等、他の様々なケースに対応できる。
図1に示されているように、タッチスクリーンディスプレイ11上の表示画面には、たとえば、第1表示領域13、第2表示領域14と、第3表示領域15、発話開始ボタン18、言語表示領域切り替えボタン19、等が表示される。第1表示領域13は、たとえば、外国人32の発話内容を示す英語のテキストを表示するために用いられる。第2表示領域14は、たとえば、外国人32の発話内容を翻訳することによって得られる日本語のテキストを表示するために用いられる。第3表示領域15は、外国人32に提示するための案内画面を表示するために用いられる。案内画面には、たとえば、案内図16、メニュー17等が表示される。メニュー17には、案内図16として表示すべき場所を指示するための様々な項目が表示されている。店員31はメニュー17上の複数の項目の一つをタップ操作することにより、案内図16として表示すべき場所を指示することができる。図1においては、ショッピングモール内の7階のフロア内の売り場それぞれのレイアウトを示す売り場地図(フロア図)が表示される例が示されている。この売り場地図(フロア図)においては、各売り場の名称を示すたとえば日本語のテキストを表示してもよい。店員31によって売り場マップ中の日本語テキスト(例えば「和食レストランコーナー」など)がタップされた時、そのタップされた日本語テキストを認識および翻訳し、「和食レストランコーナー」に対応する英語のテキストをタッチスクリーンディスプレイ11上に表示してもよく、あるいはこの英語のテキストを音声信号に変換し、その変換によって得られた音声信号に対応する音を出力してもよい。
なお、売り場の名称を示す日本語文字列をイメージによって案内図16上に表示してもよい。この場合、携帯型電子機器は、タップされた日本語文字列を文字認識することによって認識すればよい。
発話開始ボタン18は、音声の入力および認識の開始を指示するためのボタンである。発話開始ボタン18がタップされた時、携帯型電子機器は、音声の入力および認識を開始してもよい。言語表示領域切り替えボタン19は、外国人32の発話内容を示す英語のテキストを表示するため領域と外国人32の発話内容を翻訳することによって得られる日本語のテキストを表示するための領域を、第1表示領域13と第2表示領域14との間で互いに切り替えるために用いられる。
なお、第1表示領域13および第2表示領域14それぞれの表示内容は上述の例のみではない。たとえば、店員31の発話内容を示す日本語のテキストと外国人32の発話内容を翻訳することによって得られる日本語のテキストの一方または双方を第2表示領域14に表示し、店員31の発話内容を翻訳することによって得られる英語のテキストと外国人32の発話内容を示す英語のテキストの一方または双方を第1表示領域13に表示してもよい。
次に、図3を参照して、本実施形態の携帯型電子機器のシステム構成を説明する。
図3の例においては、携帯型電子機器は、入力音声処理部110、音声認識(ASR)部117、機械翻訳(MT)部118、テキスト・ツー・スピーチ(TTS)部119、メッセージ表示部120等を備えている。マイクロホン12は上述のマイクロホン12A,12Bを代表して示している。入力音声処理部110は、マイクロホン12からの入力音声信号を処理する音声処理部である。
この入力音声処理部110は、店員31が発話しながら携帯型電子機器を操作できるようにするために、入力音声信号内に含まれるタップ音信号を検出し、この検出されたタップ音信号による入力音声信号への影響を軽減するために、入力音声信号を補正するように構成されている。タップ音信号は、タッチスクリーンディスプレイ11上をタップすることによって発生される音の信号である。上述のように、マイクロホン12は本体10に直接的に取り付けられているので、もし音声入力中に店員31がタッチスクリーンディスプレイ11をタップすると、そのタップ音によってマイクロホン12からの入力音声信号にノイズが入る込む可能性がある。入力音声処理部110は、このタップ音を入力音声信号から自動的に除去し、タップ音が除去された入力音声信号を後段に出力する。これにより、たとえ店員31または外国人32の発話中に店員31が携帯型電子機器を操作しても、入力音声信号の認識精度に与える影響を低減することができる。よって、店員31は発話しながら携帯型電子機器を操作することができる。
タップ音は、たとえば、タップ音に対応する音声信号と入力音声信号との間の相関を算出することによって検出することができる。入力音声信号がタップ音に対応する音声信号の波形と類似する波形を含む場合、その類似する波形に対応する期間はタップ音発生期間として検出される。
またタップ音の発生時には、入力音声信号がサチュレーション状態になる可能性がある。このため、入力音声信号がサチュレーション状態である期間も、タップ音発生期間として検出してもよい。
入力音声処理部110は、以下の機能を有している。
(1)入力音声処理部110は、入力音声信号(入力波形)をフレーム単位で処理する。
(2)入力音声信号(入力波形)のサチレーション位置を検出する機能
(3)入力音声信号(入力波形)とタップ音に対応する音声信号の波形との間の相互相関を算出する機能
(4)入力音声信号(入力波形)を補正して、入力音声信号(入力波形)からタップ音の波形を除去する機能
以下、入力音声処理部110の構成例を説明する。
入力音声処理部110は、波形バッファ部111、波形補正部112、サチレーション位置検出部113、相互相関算出部114、検出対象音波形格納部115、タップ音判定部116等を含んでいる。
波形バッファ部111は、マイクロホン12から受信した入力音声信号(入力波形)を一時的に格納するメモリである。波形補正部112は、入力音声信号(入力波形)からタップ音信号を除去するために、波形バッファ部111に格納された入力音声信号(入力波形)を補正する。この補正では、入力音声信号からタップ音発生期間に対応する信号部分(タップ音発生期間に対応する波形部分)を削除してもよい。上述したようにタップ音は瞬時ノイズであるので、タップ音発生期間は非常に短い(たとえば、20msから40ms程度)。したがって、たとえ入力音声信号からタップ音発生期間に対応する信号部分を削除しても、入力音声信号に対する音声認識精度に悪影響を与えることはない。もし入力音声信号の周波数からタップ音の周波数を差し引くという周波数演算処理を行うと、この周波数演算処理によって入力音声信号に異音が入り込む可能性がある。よって、入力音声信号からタップ音発生期間に対応する信号部分を削除するとい方法は、周波数演算処理を用いるよりも、非定常ノイズの除去に好適である。
サチレーション位置検出部113は、マイクロホン12から受信した入力音声信号(入力波形)内のサチレーション位置を検出する。入力音声信号の振幅レベルが最大振幅レベル付近または最小振幅レベル付近に達している状態がある期間中連続する場合、サチレーション位置検出部113は、その期間をサチレーション位置情報として検出してもよい。相互相関算出部114は、検出対象音波形(タップ波形)格納部115に格納された検出対象音波形(タップ音波形)と入力音声信号の波形との間の相互相関を算出する。検出対象音波形(タップ波形)格納部115には、タップ音信号の波形、つまりタッチパネルディスプレイをタップした時に発生する音声信号の波形が検出対象音波形として事前に格納されている。タップ音信号の波形の例を図4に示す。図4の横軸は時間を表し、また縦軸は振幅を表している。
タップ音判定部116は、入力音声信号に含まれるタップ音信号を検出するために、入力音声信号の現在のフレームがタップ音であるか否かを、サチレーション位置情報(サチレーション時間情報とも云う)と相互相関値とに基づいて判定する。この判定は、例えば、サチレーション位置情報と相互相関値との加重平均に基づいて行ってもよい。
もちろん、相互相関値とサチレーション位置情報とを個別に用いてもよい。入力音声信号がサチレーションを起こしている場合はその入力音声信号の波形が崩れるため、波形の相互相関では、タップ音を検出できない場合がある。しかし、サチレーション位置情報によってサチレーションを起こしている、入力音声信号内の期間を特定することにより、当該期間をタップ音発生期間として検出することができる。サチレーションは、たとえば、タップ操作によって指の爪がタッチスクリーンディスプレイ11に接触したときに発生しやすい。サチレーションを起こしている音声信号の波形例を図5に示す。図5の横軸は時間を表し、縦軸は振幅を表している。サチレーションを起こしている音声信号の振幅のレベルは、最大振幅レベル付近または最小振幅レベル付近で一定期間継続する。
波形補正部112は、タップ音判定部116によってタップ音が検出された場合、つまりタップ音判定部116によって現在の入力音声信号がタップ音を含むと判定された場合、その入力音声信号からタップ音部分の波形を削除する。さらに、波形補正部112は、タップ音部分の前後の波形をオーバーラップ加算することによって、削除したタップ音部分の波形を、タップ音部分の前後の波形を用いて補間してもよい。
音声認識(ASR)部117は、入力音声処理部110よって処理された音声信号を認識し、その音声認識結果を出力する。機械翻訳(MT)部118は、機械翻訳によって音声認識結果を示すテキスト(文字例)を目的言語のテキスト(文字例)に翻訳し、翻訳結果を出力する。
テキスト・ツー・スピーチ(TTS)部119およびメッセージ表示部120は、入力音声処理部110によって処理された入力音声信号を認識および機械翻訳することによって得られる目的言語の翻訳結果を出力する翻訳結果出力部として機能する。より詳しくは、テキスト・ツー・スピーチ(TTS)部119は、音声合成処理によって、翻訳結果を示すテキストを音声信号に変換し、そして、スピーカ40を用いて、その変換によって得られた音声信号に対応する音を出力するように構成されている。メッセージ表示部120は、翻訳結果を示すテキストをタッチパネルディスプレイ11上に表示する。
なお、音声認識(ASR)部117、機械翻訳(MT)部118、テキスト・ツー・スピーチ(TTS)部119の内の少なくとも一つの機能はサーバ21によって実行してもよい。たとえば、比較的負荷の小さいテキスト・ツー・スピーチ(TTS)部119の機能を携帯型電子機器内で実行し、音声認識(ASR)部117および機械翻訳(MT)部118それぞれの機能をサーバ21によって実行してもよい。
携帯型電子機器はCPU(プロセッサ)、メモリ、無線通信部等をハードウェアコンポーネントとして備えている。テキスト・ツー・スピーチ(TTS)部119の機能は、CPUによって実行されるプログラムによって実現してもよい。また、音声認識(ASR)部117、機械翻訳(MT)部118それぞれの機能も、CPUによって実行されるプログラムによって実現してもよい。また、入力処理部110の一部または全ての機能も、CPUによって実行されるプログラムによって実現してもよい。もちろん、入力処理部110の一部または全ての機能を専用または汎用のハードウェアによって実行してもよい。
音声認識(ASR)部117および機械翻訳(MT)部118それぞれの機能をサーバ21によって実行する場合には、携帯型電子機器は、入力音声処理部110によって処理された音声信号をネットワーク20を介してサーバ21に送信し、翻訳結果をネットワーク20を介してサーバ21から受信すればよい。携帯型電子機器とネットワーク20との間の通信は、無線通信部を用いて実行することができる。
次に、図6および図7を参照して、波形補正部112によって実行される処理の例を説明する。
図6はタップ音信号を含む入力音声信号の波形例を示している。図6の横軸は時間を表し、縦軸は入力音声信号の振幅を表している。入力音声信号の処理は所定時間のフレーム単位で実行される。ここでは、連続する2つのフレームが互いに半フレーム長だけオーバーラップする半フレームシフトを利用する場合を例示する。図6においては、nフレームにタップ音信号が含まれている。
図7は、タップ音信号を除去するための音声信号補正処理の例を示している。波形補正部112は、入力音声信号の波形から、タップ音信号を含むnフレームを削除する。そして、波形補正部112は、nフレームの前後のフレーム、つまりn−1フレームとn+1フレームとを用いて、削除したnフレーム内の音声信号を補間する。この補間には、たとえば、ハニング窓のような窓関数を用いてもよい。この場合、波形補正部112は、n−1フレーム内の信号に第1の窓関数を乗じることによって得られた信号とn+1フレーム内の信号に第1の窓関数とは時間方向が逆の第2の窓関数を乗じることによって得られた信号とを加算し、その加算結果を、削除したnフレーム内の音声信号の代わりに使用してもよい。
このように、本実施形態では、入力音声信号から非定常ノイズであるタップ音信号が自動的に削除されるので、音声認識精度の低下を招くことなく、音声入力中に他の操作を実行することができる。
図8は、携帯型電子機器のシステム構成の別の例を示している。図8のシステム構成は、テキスト・ツー・スピーチ(TTS)部119によって得られた音声信号に対応する音が発生している間も音声入力を行うことを可能にするために、エコーキャンセル部201を含んでいる。エコーキャンセル部201は、たとえば、音声入力部110の前段に設けてもよい。このエコーキャンセル部201は、入力音声信号から、テキスト・ツー・スピーチ(TTS)部119から出力される音声信号がマイクに回り込んだ成分を除去する。これにより、入力音声信号に含まれる、スピーカ40からの現在の出力音が除去される。よって、たとえば、店員31は、自分の発話を認識、翻訳および音声合成することによって得られる音声出力の完了を待たずに、発話を行うことができる。
図9は、携帯型電子機器のシステム構成のさらに別の例を示している。図9のシステム構成は、任意のタイミングで音声入力を自動的に開始できるようにするために、発話区間検出部202を備えている。この発話区間検出部202は、たとえば、入力音声処理部110の後段に設けてもよい。
発話区間検出部202は、入力音声処理部110によって処理された入力音声信号を格納するバッファ(メモリ)202aを備えている。発話区間検出部202は、バッファ202aに格納された入力音声信号内の発話区間を検出する。発話区間は、話者が発話している期間である。そして、発話区間検出部202は、バッファ202aに格納された入力音声信号内に含まれ且つ検出された発話区間に属する音声信号を、認識対象の音声信号として音声認識部117へ出力する。このように、発話区間検出部202によって発話区間を検出することにより、発話開始ボタン19を押すことなく、音声認識および機械翻訳を適切なタイミングで開始することができる。
次に、図10を参照して、発話区間の検出動作の例を説明する。図10の横軸は時間を表し、縦軸は入力音声信号の信号強度レベル(パワー)を表している。入力音声信号の強度レベルはたとえばタイミングt1である基準値を超える。入力音声信号の強度レベルが基準値を超えている状態がタイミングt1からある期間T1だけ継続した場合、発話区間検出部202は、発話が開始されたことを検出する。この場合、発話区間検出部202は、たとえば、タイミングt1よりも少し前のタイミングt0から、入力音声信号の強度レベルが基準値よりも低下するタイミングt2までの期間、つまりT2で示される期間、を、発話区間として認識してもよい。発話区間検出部202は、発話区間に属する音声信号をバッファ202aからリードし、リードした音声信号を後段に出力する。
図11のフローチャートは、発話区間検出処理の手順を示している。入力音声処理部110はマイクロホン12から音声信号を入力し、その入力音声信号を処理する(ステップS11)。発話区間検出部202は、入力音声処理部110から出力される音声信号をバッファ202aにバッファリングする(ステップS12)。発話区間検出部202は、バッファリングされた音声信号の強度レベルに基づいて発話が開始されたか否かを判定する(ステップS13)。発話が開始されたならば、発話区間検出部202は、発話区間を検出し(ステップS14)、その発話区間に属する音声信号を音声認識(ASR)部117へ出力する(ステップS15)。
図12は、携帯型電子機器のシステム構成のさらに別の例を示している。図12のシステム構成は、複数人が同時に話している場合でも特定の人物の発話を入力および認識できるようにするために、複数のマイクロホン12A,12Bと話者方向推定部203を備えている。話者方向推定部203は入力音声処理部110の前段に設けてもよい。
話者方向推定部203は、マイクロホン12A,12Bと共同して、特定方向に位置する音源(話者)からの音を抽出可能なマイクロホンアレイとして機能する。話者方向推定部203は、マイクロホン12A,12Bそれぞれからの入力音声信号群を用いて、それら入力音声信号それぞれに対応する音源(話者)が位置する、携帯型電子機器の本体10に対する方向(話者方向)を推定する。たとえば、携帯型電子機器の本体10に対してたとえば左上方向に位置する話者の音声はマイクロホン12Aに先に到達し、少し遅れてマイクロホン12Bに到達する。この遅延時間と、マイクロホン12Aとマイクロホン12Bとの間の距離とから、入力音声信号に対応する音源方向(話者方向)を推定することができる。そして、この話者方向の推定結果に基づいて、話者方向推定部203は、マイクロホン12A,12Bによって入力された入力音声信号群から、携帯型電子機器の本体10に対して特定の方向からの入力音声信号を抽出(選択)する。たとえば、店員31の音声を抽出する場合には、携帯型電子機器の本体10に対してたとえば左上方向から入力される音声信号を抽出(選択)すればよい。また、外国人32の音声を抽出する場合には、携帯型電子機器の本体10に対してたとえば右上方向から入力される音声信号を抽出(選択)すればよい。入力音声処理部110は、抽出された特定の方向からの入力音声信号に対して上述の波形補正処理を施す。そして、波形補正処理された特定の方向からの入力音声信号に対して音声認識、機械翻訳、音声合成等の処理が施される。
よって、複数人が同時に話している場合でも、特定方向からの音声のみを処理することが可能となるので、店員31または外国人32以外の他の話者の音声に影響されることなく、特定の人物、たとえば、店員31または外国人32、の音声を正しく入力および認識することが可能となる。
また、代わりに、カメラを用いて携帯型電子機器の本体10の周囲に存在する各人物の顔検出を行い、店員31の顔に類似する顔が存在する方向を、店員31が位置する携帯型電子機器の本体10に対する方向として推定してもよい。また、店員31の顔に類似する顔が存在する方向とは逆の方向を、外国人32が位置する携帯型電子機器の本体10に対する方向として推定してもよい。店員31または外国人32以外の他の話者の音声は非定常ノイズであるが、図12のシステム構成によれば、店員31または外国人32のみを抽出できるので、この非定常ノイズによる影響を低減することができる。
また、携帯型電子機器においては、本体10に対して第1の方向(たとえば左上方向)から入力される音声信号に対しては第1の言語(ここでは日本語)から第2の言語(ここでは英語)へ翻訳するための機械翻訳処理が施され、本体10に対して第2の方向(たとえば右上方向)から入力される音声信号に対しては第2の言語(ここでは英語)から第1の言語(ここでは日本語)へ翻訳するための機械翻訳処理が施される。そして、左上方向から入力される音声信号に、第1の言語から第2の言語に翻訳するための機械翻訳を施すことによって得られる翻訳結果と、右上方向から入力される音声信号に、第2の言語から第1の言語に翻訳するための機械翻訳を施すことによって得られる翻訳結果とが、出力される。このように、音声信号に適用される機械翻訳の内容は、その音声信号の入力方向(話者方向)に応じて決定することができる。よって、店員31の発話および外国人の発話を英語および日本語にそれぞれ容易に翻訳することができる。
図13は、携帯型電子機器のシステム構成のさらに別の例を示している。図13のシステム構成は、複数人が同時に話している場合に、発話者ごとに音声を入力および認識できるようにするために、複数のマイクロホン12A,12Bと話者分類部204とを備えている。話者分類部204は入力音声処理部110の前段に設けてもよい。
話者分類部204もマイクロホンアレイとして機能する。この話者分類部204は話者方向推定部204aと目的音声信号抽出部204bとを含む。話者方向推定部204aは、複数のマイクロホン12A,12Bそれぞれからの入力音声信号群を用いて、それら入力音声信号それぞれに対応する音源(話者)それぞれが位置する携帯型電子機器の本体10に対する方向を推定する。目的音声信号抽出部204bは、複数の話者それぞれの方向の推定結果に基づいて、複数のマイクロホン12A,12Bそれぞれからの入力音声信号群を、話者ごと、つまり音源方向毎に、分類する。たとえば、携帯型電子機器の本体10に対してたとえば左上方向からの音声信号は、店員31の音声として決定され、話者#1バッファ205に格納される。また、携帯型電子機器の本体10に対してたとえば右上方向からの音声信号は、外国人32の音声として決定され、話者#2バッファ206に格納される。
スイッチ部207は話者#1バッファ205と話者#2バッファ206とを時分割形式で交互に選択する。これにより、入力音声処理部110は、店員31の音声信号と外国人32の音声信号とを時分割形式で交互に処理することができる。同様に、音声認識部110、機械翻訳部118、TTS部119、メッセージ表示部120の各々も、店員31の音声信号と外国人32の音声信号とを時分割形式で交互に処理することができる。店員31の音声の認識結果には日本語から英語へ翻訳するための機械翻訳が施され、その翻訳結果が音声出力またはテキスト表示によって出力される。また、外国人32の音声の認識結果には英語から日本語へ翻訳するための機械翻訳が施され、その翻訳結果が音声出力またはテキスト表示によって出力される。
なお、入力音声処理部110、機械翻訳部118、TTS部119、メッセージ表示部120をそれぞれ含む複数の音声処理ブロックを設け、複数の話者の音声信号を並列に処理してもよい。
以上説明したように、本実施形態によれば、タップ音信号のような非定常ノイズによる影響を低減することができるので、音声入力中にタップ操作を用いた他の各種操作を実行することができる。よって、たとえば店員は本実施形態の携帯型電子機器を用いて外国人との会話中においても、携帯型電子機器のタッチパネルディスプレイ11をタップ操作して、売り場の紹介のような画像をタッチパネルディスプレイ11上に表示させるといった操作を行うことができる。
なお、図8のエコーキャンセル部201、図9の発話区間検出部202、図12の話者方向推定部203、図13の話者分類部204の内の任意のいくつかまたは全てを併せ持つ構成を用いることもできる。
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…携帯型電子機器の本体、11…タッチスクリーンディスプレイ、12A,12B…マイクロホン、110…入力音声処理部、201…エコーキャンセル部、202…発話区間検出部、203…話者方向推定部、204…話者分類部。

Claims (9)

  1. タッチスクリーンディスプレイを備えた本体を具備し、前記タッチスクリーンディスプレイ上のタップ位置に対応する表示オブジェクトに関連づけられた機能を実行するように構成された携帯型電子機器であって、
    前記本体に取り付けられた少なくとも一つのマイクロホンと、
    前記本体内に設けられ、前記少なくとも一つのマイクロホンからの入力音声信号を処理する音声処理手段と、
    前記本体内に設けられ、前記音声処理手段によって処理された入力音声信号を認識および機械翻訳することによって得られる目的言語の翻訳結果を出力する翻訳結果出力手段とを具備し、
    前記音声処理手段は、前記タッチスクリーンディスプレイ上をタップすることによって発生するタップ音信号の波形を示す予め用意された検出対象音波形と前記入力音声信号の波形との間の相関を算出することによって前記入力音声信号内に含まれる前記タップ音信号を検出し、前記検出されたタップ音信号に対応する信号部分を前記入力音声信号から削除する携帯型電子機器。
  2. 前記翻訳結果出力手段は、前記目的言語の翻訳結果を示すテキストを音声信号に変換し、前記変換によって得られた音声信号に対応する音を出力する請求項1記載の携帯型電子機器。
  3. 前記翻訳結果出力手段は、前記目的言語の翻訳結果を示すテキストを音声信号に変換し、前記変換によって得られた音声信号に対応する音を出力すると共に、前記目的言語の翻訳結果を示すテキストを前記タッチスクリーンディスプレイ上に表示する請求項1記載の携帯型電子機器。
  4. 前記翻訳結果出力手段は、前記目的言語の翻訳結果を示すテキストを音声信号に変換し、少なくとも前記変換によって得られた音声信号に対応する音を含む音声信号を出力するように構成されており、
    前記変換によって得られた音声信号に対応する音を含む音声信号の出力中における音声入力を可能にするために、前記入力音声信号から前記変換によって得られた音声信号を含む音声信号成分を軽減するエコーキャンセル手段をさらに具備する請求項1記載の携帯型電子機器。
  5. 前記音声処理手段によって処理された入力音声信号を格納するバッファと、
    前記バッファに格納された入力音声信号内の発話区間を検出し、前記バッファに格納された入力音声信号内に含まれ且つ前記検出された発話区間に属する音声信号を、認識対象の音声信号として出力する発話検出手段をさらに具備する請求項1記載の携帯型電子機器。
  6. 前記本体には複数のマイクロホンが取り付けられており、
    前記複数のマイクロホンそれぞれからの入力音声信号群を用いて、それら入力音声信号それぞれに対応する話者が位置する前記本体に対する方向を推定し、前記推定結果に基づいて、前記入力音声信号群から、前記本体に対して特定の方向からの入力音声信号を抽出する話者方向推定手段をさらに具備する請求項1記載の携帯型電子機器。
  7. 前記本体には複数のマイクロホンが取り付けられており、
    前記複数のマイクロホンそれぞれからの入力音声信号群を用いて、それら入力音声信号それぞれに対応する話者が位置する前記本体に対する方向を推定し、前記推定結果に基づいて、前記複数のマイクロホンそれぞれからの入力音声信号群を前記話者ごとに分類する話者分類手段をさらに具備する請求項1記載の携帯型電子機器。
  8. タッチスクリーンディスプレイを備えた本体を具備し、前記タッチスクリーンディスプレイ上に被案内者に対する案内画面を表示すると共に、前記タッチスクリーンディスプレイ上のタップ位置に対応する表示オブジェクトに関連づけられた機能を実行するように構成された携帯型電子機器であって、
    前記本体に取り付けられた少なくとも一つのマイクロホンと、
    前記本体内に設けられ、前記少なくとも一つのマイクロホンを用いて案内者および前記被案内者それぞれからの入力音声信号を処理する音声処理手段と、
    前記本体内に設けられ、前記音声処理手段によって処理された前記案内者の入力音声信号を認識および機械翻訳することによって得られる、前記被案内者が使用する第2の言語の翻訳結果と、前記音声処理手段によって処理された前記被案内者の入力音声信号を認識および機械翻訳することによって得られる、前記案内者が使用する第1の言語の翻訳結果と出力する翻訳結果出力手段とを具備し、
    前記音声処理手段は、前記タッチスクリーンディスプレイ上をタップすることによって発生するタップ音信号の波形を示す予め用意された検出対象音波形と前記案内者および前記被案内者それぞれからの入力音声信号の波形との間の相関を算出することによって前記各入力音声信号内に含まれる前記タップ音信号を検出し、前記検出されたタップ音信号に対応する信号部分を前記各入力音声信号から削除する携帯型電子機器。
  9. 前記翻訳結果出力手段は、前記第2の言語の翻訳結果を示すテキストを第1の音声信号に変換し、前記第1の言語の翻訳結果を示すテキストを第2の音声信号に変換し、前記第1の音声信号に対応する音と前記第2の音声信号に対応する音とを出力する請求項8記載の携帯型電子機器。
JP2010242474A 2010-10-28 2010-10-28 携帯型電子機器 Expired - Fee Related JP5017441B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010242474A JP5017441B2 (ja) 2010-10-28 2010-10-28 携帯型電子機器
US13/187,390 US20120109632A1 (en) 2010-10-28 2011-07-20 Portable electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010242474A JP5017441B2 (ja) 2010-10-28 2010-10-28 携帯型電子機器

Publications (2)

Publication Number Publication Date
JP2012093641A JP2012093641A (ja) 2012-05-17
JP5017441B2 true JP5017441B2 (ja) 2012-09-05

Family

ID=45997638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010242474A Expired - Fee Related JP5017441B2 (ja) 2010-10-28 2010-10-28 携帯型電子機器

Country Status (2)

Country Link
US (1) US20120109632A1 (ja)
JP (1) JP5017441B2 (ja)

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US8494838B2 (en) 2011-11-10 2013-07-23 Globili Llc Systems, methods and apparatus for dynamic content management and delivery
JP5982922B2 (ja) * 2012-03-23 2016-08-31 日本電気株式会社 情報処理システム、情報処理方法、通信端末、通信端末の制御方法および制御プログラム、サーバ、サーバの制御方法および制御プログラム
US9436291B2 (en) * 2012-04-13 2016-09-06 Texas Instruments Incorporated Method, system and computer program product for operating a keyboard
US20130297287A1 (en) * 2012-05-07 2013-11-07 Google Inc. Display two keyboards on one tablet computer to allow two users to chat in different languages
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
JP6098072B2 (ja) * 2012-08-31 2017-03-22 日本電気株式会社 音声認識装置、音声認識方法及びプログラム
US9087046B2 (en) * 2012-09-18 2015-07-21 Abbyy Development Llc Swiping action for displaying a translation of a textual image
US9519641B2 (en) 2012-09-18 2016-12-13 Abbyy Development Llc Photography recognition translation
KR101952687B1 (ko) * 2012-10-17 2019-02-27 엘지전자 주식회사 이동단말기 및 그 제어방법
US20140222413A1 (en) * 2013-02-01 2014-08-07 Klip, Inc. Method and user interface for controlling language translations using touch sensitive display screens
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
CN104049933B (zh) * 2013-03-11 2019-07-26 联想(北京)有限公司 一种信息处理的方法及电子设备
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
EP2804113A3 (en) * 2013-05-13 2014-12-24 Facebook, Inc. Hybrid, offline/online speech translation system
US9430465B2 (en) * 2013-05-13 2016-08-30 Facebook, Inc. Hybrid, offline/online speech translation system
US9185083B1 (en) * 2013-05-23 2015-11-10 The Boeing Company Concealing data within encoded audio signals
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US20150193432A1 (en) * 2014-01-03 2015-07-09 Daniel Beckett System for language translation
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
KR20150145109A (ko) * 2014-06-18 2015-12-29 삼성전자주식회사 자동 번역을 위한 장치 및 방법
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9838791B2 (en) 2015-02-23 2017-12-05 Kenneth Wargon Portable sound generator apparatus
CA2976800C (en) * 2015-02-23 2024-01-02 Kenneth Wargon Hand carried alerting sound generator device
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US20160283469A1 (en) * 2015-03-25 2016-09-29 Babelman LLC Wearable translation device
US9521365B2 (en) 2015-04-02 2016-12-13 At&T Intellectual Property I, L.P. Image-based techniques for audio content
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US20170097930A1 (en) * 2015-10-06 2017-04-06 Ruby Thomas Voice language communication device and system
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105718449B (zh) * 2016-01-20 2018-03-16 广东欧珀移动通信有限公司 一种页面信息处理方法和装置
CN113407743A (zh) * 2016-04-08 2021-09-17 北京三星通信技术研究有限公司 物体信息翻译、以及衍生信息获取方法和装置
US10365763B2 (en) 2016-04-13 2019-07-30 Microsoft Technology Licensing, Llc Selective attenuation of sound for display devices
EP3465414B1 (en) * 2016-06-06 2023-08-16 Nureva Inc. Method, apparatus and computer-readable media for touch and speech interface with audio location
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US9922637B2 (en) 2016-07-11 2018-03-20 Microsoft Technology Licensing, Llc Microphone noise suppression for computing device
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) * 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
KR102426717B1 (ko) * 2017-06-27 2022-07-29 삼성전자주식회사 발화 인식 모델을 선택하는 시스템 및 전자 장치
CN110999317A (zh) * 2017-08-10 2020-04-10 三菱电机株式会社 杂音去除装置以及杂音去除方法
US20190095430A1 (en) * 2017-09-25 2019-03-28 Google Inc. Speech translation device and associated method
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
JP7223561B2 (ja) * 2018-03-29 2023-02-16 パナソニックホールディングス株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
JP2019211737A (ja) * 2018-06-08 2019-12-12 パナソニックIpマネジメント株式会社 音声処理装置および翻訳装置
BR112020024840A2 (pt) * 2018-06-11 2021-03-02 Sony Corporation dispositivo e método de processamento de sinal, e, programa executado por um dispositivo de processamento de informações
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10885286B2 (en) * 2018-10-12 2021-01-05 Microsoft Technology Licensing, Llc Simultaneous and real time translation and language switching across a set of features
US11068668B2 (en) * 2018-10-25 2021-07-20 Facebook Technologies, Llc Natural language translation in augmented reality(AR)
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3890288A4 (en) * 2018-11-30 2022-05-18 Panasonic Intellectual Property Management Co., Ltd. TRANSLATION DEVICE AND TRANSLATION METHOD
US11145171B2 (en) 2019-02-28 2021-10-12 Arlo Technologies, Inc. Electronic doorbell system with text communication
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
JP7295284B2 (ja) * 2019-07-01 2023-06-20 グーグル エルエルシー 適応ダイアライゼーションモデルおよびユーザインタフェース
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11074926B1 (en) * 2020-01-07 2021-07-27 International Business Machines Corporation Trending and context fatigue compensation in a voice signal
US11862168B1 (en) * 2020-03-30 2024-01-02 Amazon Technologies, Inc. Speaker disambiguation and transcription from multiple audio feeds
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN113347535A (zh) * 2021-05-26 2021-09-03 海南正东雄科技有限公司 一种扩声式激励处理器
WO2023100374A1 (ja) * 2021-12-03 2023-06-08 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
CN115798514B (zh) * 2023-02-06 2023-04-21 成都启英泰伦科技有限公司 一种敲击声检测方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0784592A (ja) * 1993-09-14 1995-03-31 Fujitsu Ltd 音声認識装置
US7233321B1 (en) * 1998-12-15 2007-06-19 Intel Corporation Pointing device with integrated audio input
ES2269137T3 (es) * 1999-05-25 2007-04-01 British Telecommunications Public Limited Company Cancelacion del eco acustico.
US6999923B1 (en) * 2000-06-23 2006-02-14 International Business Machines Corporation System and method for control of lights, signals, alarms using sound detection
JP2003108551A (ja) * 2001-09-28 2003-04-11 Toshiba Corp 携帯型機械翻訳装置、翻訳方法及び翻訳プログラム
JP3940662B2 (ja) * 2001-11-22 2007-07-04 株式会社東芝 音響信号処理方法及び音響信号処理装置及び音声認識装置
JP2003295899A (ja) * 2002-03-28 2003-10-15 Fujitsu Ltd 音声入力装置
US8041026B1 (en) * 2006-02-07 2011-10-18 Avaya Inc. Event driven noise cancellation
JP4786384B2 (ja) * 2006-03-27 2011-10-05 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
JP4817949B2 (ja) * 2006-04-18 2011-11-16 アルパイン株式会社 車載機
US20090037171A1 (en) * 2007-08-03 2009-02-05 Mcfarland Tim J Real-time voice transcription system
US8065143B2 (en) * 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
JP5282523B2 (ja) * 2008-10-23 2013-09-04 株式会社リコー 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
KR20210152028A (ko) * 2008-11-10 2021-12-14 구글 엘엘씨 멀티센서 음성 검출
US8213635B2 (en) * 2008-12-05 2012-07-03 Microsoft Corporation Keystroke sound suppression
WO2011004503A1 (ja) * 2009-07-08 2011-01-13 株式会社日立製作所 雑音除去装置及び雑音除去方法
WO2011116505A1 (en) * 2010-03-26 2011-09-29 Nokia Corporation A method, devices and a system for communication
KR20120002737A (ko) * 2010-07-01 2012-01-09 삼성전자주식회사 마이크를 이용한 휴대용 단말기의 동작 제어 방법 및 장치
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
US8849628B2 (en) * 2011-04-15 2014-09-30 Andrew Nelthropp Lauder Software application for ranking language translations and methods of use thereof
US20120310622A1 (en) * 2011-06-02 2012-12-06 Ortsbo, Inc. Inter-language Communication Devices and Methods

Also Published As

Publication number Publication date
US20120109632A1 (en) 2012-05-03
JP2012093641A (ja) 2012-05-17

Similar Documents

Publication Publication Date Title
JP5017441B2 (ja) 携帯型電子機器
US11462213B2 (en) Information processing apparatus, information processing method, and program
US8442833B2 (en) Speech processing with source location estimation using signals from two or more microphones
JP6364629B2 (ja) 翻訳装置および翻訳方法
JP2021503633A (ja) 音声ノイズ軽減方法、装置、サーバー及び記憶媒体
JP5699844B2 (ja) 残響抑制装置および残響抑制方法並びに残響抑制プログラム
US20220230658A1 (en) Voice onset detection
JP2014240940A (ja) 書き起こし支援装置、方法、及びプログラム
JP2020003925A (ja) 対話システムの制御方法、対話システム及びプログラム
WO2018034077A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN111883135A (zh) 语音转写方法、装置和电子设备
JP2011248140A (ja) 音声認識装置
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP2019020678A (ja) ノイズ低減装置および音声認識装置
JP2018045675A (ja) 情報提示方法、情報提示プログラム及び情報提示システム
US20200388268A1 (en) Information processing apparatus, information processing system, and information processing method, and program
JP6794887B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
EP2736043A2 (en) Signal processing device, method for processing signal
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
WO2017085815A1 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP2011150657A (ja) 翻訳音声再生装置およびその再生方法
CN112542157A (zh) 语音处理方法、装置、电子设备及计算机可读存储介质
JP2020024310A (ja) 音声処理システム及び音声処理方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120515

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120611

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150615

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150615

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees