JP2022059957A - Voice recognition device - Google Patents
Voice recognition device Download PDFInfo
- Publication number
- JP2022059957A JP2022059957A JP2020167873A JP2020167873A JP2022059957A JP 2022059957 A JP2022059957 A JP 2022059957A JP 2020167873 A JP2020167873 A JP 2020167873A JP 2020167873 A JP2020167873 A JP 2020167873A JP 2022059957 A JP2022059957 A JP 2022059957A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- unit
- lip movement
- recognition device
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、音声認識装置に関する。 The present invention relates to a voice recognition device.
高齢者の中には声帯を使わずに話す人が多く存在する。また、小声で話す場合には、声帯を使わずに発話が行われることがある。声帯を使わない人の発話内容を知る方法として、口の動きから言葉を認識する方法が報告されている(例えば、特許文献1)。 Many elderly people speak without using the vocal cords. Also, when speaking in a low voice, the utterance may be performed without using the vocal cords. As a method of knowing the utterance content of a person who does not use the vocal cords, a method of recognizing words from the movement of the mouth has been reported (for example, Patent Document 1).
特許文献1には、口の動きに基づいて言葉を認識する読唇装置において、話者の口形を示す口形情報に基づいて、所定の音を発する場合に予め形作る必要がある口形であって、その音の母音に対応する口形とは異なる口形である第1の口形、および、1つの音を発し終える際に形作られる口形である第2の口形を検出する第1の口形検出手段と、検出された第1の口形および第2の口形に基づいて、話者が発した言葉を認識する認識手段とを含む読唇装置が記載されている。 Patent Document 1 describes a mouth shape that needs to be formed in advance when a predetermined sound is emitted based on the mouth shape information indicating the mouth shape of a speaker in a lip reading device that recognizes words based on the movement of the mouth. A first mouth shape detecting means for detecting a first mouth shape, which is a mouth shape different from the mouth shape corresponding to a vowel of a sound, and a second mouth shape, which is a mouth shape formed when one sound is finished to be emitted. A lip reading device including a recognition means for recognizing a word spoken by a speaker based on a first mouth shape and a second mouth shape is described.
また、声帯を使わずに話したときに発せられる非可聴音から発話内容を検出する方法が報告されている(例えば、特許文献2)。 Further, a method of detecting an utterance content from an inaudible sound emitted when speaking without using a vocal cord has been reported (for example, Patent Document 2).
特許文献2には、人間の体表に聴診器型のマイクロフォンを装着させ、声帯の規則唇動を用いない発話行動に伴って調音される非可聴つぶやき音の肉伝導の振動音を採取する方法が開示されている。
In
しかしながら、日本語は同じ唇の動きをする発話が複数あり、特許文献1のようにカメラで唇の動きを解読する方法では、限られた言葉しか解読できないという問題があった。 However, Japanese has a plurality of utterances with the same lip movement, and there is a problem that only a limited number of words can be deciphered by the method of deciphering the lip movement with a camera as in Patent Document 1.
また、特許文献2に記載の方法では、予め専用のマイクを装着しなければならず、使用できるシーンが限られるという問題があった。
Further, the method described in
本発明は、話者が声帯を使わずに発話した場合であっても、発話内容を認識可能な音声認識装置を提供することを目的とする。 An object of the present invention is to provide a voice recognition device capable of recognizing the content of an utterance even when the speaker speaks without using the vocal cords.
本開示の実施形態に係る音声認識装置は、話者の発話動作中における口唇領域を含む画像を取得する撮像部と、画像から話者の唇動の軌跡を検出する唇動軌跡検出部と、話者が発話する際の音声から空中を伝搬する非可聴音を検出する非可聴音検出部と、非可聴音の周波数特性を解析し、周波数パターンを抽出する周波数パターン抽出部と、唇動の軌跡と発話内容との対応関係を予め記憶した唇動軌跡データ記憶部と、非可聴音の周波数パターンと発話内容との対応関係を予め記憶した非可聴音パターン記憶部と、唇動軌跡データ記憶部を参照して、唇動の軌跡から発話内容の候補を抽出する発話候補抽出部と、発話候補抽出部が複数の発話内容の候補を抽出した場合は、非可聴音パターン記憶部を参照して、複数の発話内容の候補の中から特定の発話内容を決定する発話決定部と、発話決定部によって決定された発話内容に関する情報を出力する出力部と、を有することを特徴とする。 The voice recognition device according to the embodiment of the present disclosure includes an imaging unit that acquires an image including a lip region during a speaker's utterance operation, a lip movement locus detection unit that detects the lip movement locus of the speaker from the image, and a lip movement locus detection unit. An inaudible sound detector that detects inaudible sound propagating in the air from the voice spoken by the speaker, a frequency pattern extractor that analyzes the frequency characteristics of the inaudible sound and extracts frequency patterns, and lip movement. The lip smacking data storage unit that stores the correspondence between the locus and the utterance content in advance, the non-audible sound pattern storage unit that stores the correspondence between the frequency pattern of the inaudible sound and the utterance content in advance, and the lip movement locus data storage. If the utterance candidate extraction unit extracts candidates for utterance content from the locus of lip movement and the utterance candidate extraction unit extracts multiple candidates for utterance content, refer to the non-audible sound pattern storage unit. It is characterized by having an utterance determination unit that determines a specific utterance content from a plurality of utterance content candidates, and an output unit that outputs information about the utterance content determined by the utterance determination unit.
上記の音声認識装置において、非可聴音検出部は、唇動軌跡検出部が検出した話者の唇動開始をトリガーとして、話者の非可聴音の検出を開始することが好ましい。 In the above voice recognition device, it is preferable that the non-audible sound detection unit starts the detection of the non-audible sound of the speaker by using the start of lip movement of the speaker detected by the lip movement locus detection unit as a trigger.
上記の音声認識装置において、非可聴音検出部は、非可聴音として、20kHz以上かつ70kHz以下の音波を検出することが好ましい。 In the above speech recognition device, the non-audible sound detection unit preferably detects sound waves of 20 kHz or more and 70 kHz or less as non-audible sounds.
上記の音声認識装置において、発話決定部は、周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置に基づいて、発話内容を決定することが好ましい。 In the above voice recognition device, it is preferable that the utterance determination unit determines the utterance content based on the presence / absence of a peak in the frequency pattern and the position of the peak generated in a specific frequency band.
上記の音声認識装置において、唇動の軌跡が略同一である複数の発話内容は、「な」、「た」、及び「だ」のうちの少なくとも2つを含んでいてもよい。 In the above voice recognition device, a plurality of utterance contents having substantially the same lip movement locus may include at least two of "na", "ta", and "da".
上記の音声認識装置において、唇動の軌跡が略同一である複数の発話内容は、「し」及び「ち」を含んでいてもよい。 In the above voice recognition device, a plurality of utterance contents in which the locus of lip movement is substantially the same may include "" and "chi".
上記の音声認識装置において、唇動の軌跡が略同一である複数の発話内容は、「あ」及び「は」を含んでいてもよい。 In the above voice recognition device, a plurality of utterance contents having substantially the same lip movement locus may include "a" and "ha".
本発明の音声認識装置によれば、話者が声帯を使わずに発話した場合であっても、発話内容を認識することができる。 According to the voice recognition device of the present invention, even when the speaker speaks without using the vocal cords, the content of the utterance can be recognized.
以下、図面を参照して、本発明に係る音声認識装置について説明する。ただし、本発明の技術的範囲はそれらの実施の形態には限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。 Hereinafter, the voice recognition device according to the present invention will be described with reference to the drawings. However, it should be noted that the technical scope of the present invention is not limited to those embodiments and extends to the inventions described in the claims and their equivalents.
図1に本開示の実施形態に係る音声認識装置1001のブロック図を示す。音声認識装置1001は、撮像部1と、唇動軌跡検出部2と、非可聴音検出部3と、周波数パターン抽出部4と、唇動軌跡データ記憶部5と、非可聴音パターン記憶部6と、発話候補抽出部7と、発話決定部8と、出力部9と、顔画像認識部10と、を有する。音声認識装置1001には、スマートフォンやタブレット端末等の情報端末を用いることができる。ただし、このような例には限られず、シングルボードコンピュータを用いた組込みモジュールとして実現することもできる。あるいは、音声認識装置1001をサーバ上に配置し、撮像部1及び非可聴音検出部3で取得したデータをサーバに送信するようにしてもよい。撮像部1はカメラにより構成され、非可聴音検出部3はマイクにより構成される。唇動軌跡データ記憶部5及び非可聴音パターン記憶部6は、ハードディスク、または半導体メモリで構成される。唇動軌跡検出部2、周波数パターン抽出部4、発話候補抽出部7、発話決定部8、出力部9、及び顔画像認識部10は、CPU、ROM及びRAMなどを含む音声認識装置1001に設けられているコンピュータにより、ソフトウエア(プログラム)として実現される。
FIG. 1 shows a block diagram of the
撮像部1は、カメラであり、CMOS(Complementary Metal Oxide Semiconductor)型又はCCD(Charge Coupled Device)型のイメージセンサを備えている。撮像部1は、話者の発話動作中における口唇領域を含む画像を取得し、撮像した画像をフレーム毎に顔画像認識部10に供給する。カメラは、スマートフォンやタブレット端末等の情報端末に予め備えられているものを利用することができ、外付けのカメラを利用することもできる。
The image pickup unit 1 is a camera and includes a CMOS (Complementary Metal Oxide Semiconductor) type or CCD (Charge Coupled Device) type image sensor. The image pickup unit 1 acquires an image including the lip region during the speech operation of the speaker, and supplies the captured image to the face
顔画像認識部10は、内蔵する顔認識のためのアプリケーションプログラムによって、話者の顔及び口唇の輪郭を識別し、自動的に追尾する機能を有している。これにより、話者が撮像部1の撮像範囲内で移動しても、話者の顔画像を捉えることができる。
The face
唇動軌跡検出部2は、撮像部1が取得した画像から話者の唇動の軌跡を検出する。図2(a)は、顔画像認識部10によって認識した顔の輪郭の例であり、図2(b)は図2(a)の顔の輪郭に含まれる口の輪郭の例である。図2(a)に示すように、顔画像認識部10により、顔21、眉22、目23、鼻24、及び口25のそれぞれの輪郭の位置を決定することができる。図2(b)に示すように、発話によって、口唇は上下方向(y方向)に開閉し、左右方向(x方向)に伸縮する。そこで、口唇の動きを示すための特徴点を、上唇の下端y1、下唇の上端y2、唇の左側端部x1、及び唇の右側端部x2とした。また、口唇の動作の特徴量を上下方向の距離(Δy=y1-y2)の時間的変化と、左右方向の距離(Δx=x2-x1)の時間的変化とした。
The lip movement
唇動軌跡データ記憶部5は、唇動の軌跡(発話唇動プロファイル)と発話内容との対応関係を予め記憶している。図3は、「な」、「た」、「だ」と発話したときの唇動の軌跡を表す図であり、図3(a)はy方向の唇動の軌跡を表し、図3(b)はx方向の唇動の軌跡を表す。図3(a)及び(b)の横軸は唇動を開始してからの時間(秒)である。図3(a)の縦軸は上下方向の距離Δy(mm)であり、図3(b)の縦軸は左右方向の距離Δx(mm)である。図3(a)において、Lny、Lty、Ldyは、それぞれ、「な」、「た」、「だ」と発話したときのy方向の唇動の軌跡を表す。また、図3(b)において、Lnx、Ltx、Ldxは、それぞれ、「な」、「た」、「だ」と発話したときのx方向の唇動の軌跡を表す。唇動軌跡データ記憶部5は、上記の例以外にも種々の発話における唇動の軌跡と発話内容との対応関係を予め記憶している。唇動軌跡データ記憶部5は、唇動の軌跡の特徴量が、どの発話内容に近いのかを人工知能(AI)を用いて機械学習により生成した学習モデルを記憶していてもよい。
The lip movement locus
発話候補抽出部7は、唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補を抽出する。図3(a)及び(b)に示した例では、「な」、「た」、「だ」と発話したときの唇動のy方向の時間的変化を表す3つの曲線(Lny、Lty、Ldy)はほぼ同じ軌跡を描き、唇動のx方向の時間的変化を表す3つの曲線(Lnx、Ltx、Ldx)がほぼ同じ軌跡を描いている。そのため、唇動のy方向の時間的変化を表す曲線が、3つの曲線(Lny、Lty、Ldy)のうちのいずれかに類似し、かつ、唇動のx方向の時間的変化を表す曲線が、3つの曲線(Lnx、Ltx、Ldx)のうちのいずれかに類似した曲線を示す発話を検出した場合、発話内容は、「な」、「た」、「だ」のいずれかであることは分かるが、これらの内のどの発話であるのかは特定できない。そこで、このような場合は、発話内容の候補は3つ抽出されることとなる。
The utterance
非可聴音検出部3は、話者が発話する際の音声から空中を伝搬する非可聴音を検出する。非可聴音検出部3として、スマートフォンやタブレット端末に内蔵されているMEMS(Micro Electro Mechanical Systems)マイクを用いることができる。MEMSマイクを用いることにより、非可聴音の周波数帯域を含めた発話を検知することができる。スマートフォン等の端末に内蔵されたMEMSマイクにおいて、ノイズ低減のために非可聴音の帯域をカットしている場合は、そのような帯域制限を解除すればよい。スマートフォン等に予め備えられているマイクを使用する代わりに、非可聴音を検出可能なマイクを外付けするようにしてもよい。非可聴音検出部3は、非可聴音として、20kHz以上かつ70kHz以下の音波を検出することが好ましい。
The inaudible
非可聴音検出部3は、唇動軌跡検出部2が検出した話者の唇動開始をトリガーとして、話者の非可聴音の検出を開始することが好ましい。非可聴音は話者が発話する場合に生じるもの以外にも、話者が体を動かした場合等によっても発生する場合があり、これがノイズとなるため、話者が発話を開始するタイミングを非可聴音のみから検出することが難しい場合もあり得る。そこで、非可聴音検出部3は、唇動軌跡検出部2が、話者の口唇が動き始めたことを検出してから非可聴音の検出を開始することが好ましい。このようにすることで、話者の発話によって生じる非可聴音を正確に検出することができる。
It is preferable that the non-audible
周波数パターン抽出部4は、非可聴音の周波数特性を解析し、周波数パターンを抽出する。図4(a)は、「な」と発話したときの音声の周波数スペクトルであり、図4(b)は、「た」と発話したときの音声の周波数スペクトルであり、図4(c)は、「だ」と発話したときの音声の周波数スペクトルである。図4(a)~(c)において、横軸は周波数(kHz)、縦軸はパワー(dB)を示す。声帯を使わずに発話が行われた場合であっても、舌使いや喉の息の出し方により、非可聴音領域の周波数分布(周波数パターン)に差異が現れる。この周波数分布の違いを利用することにより、唇動軌跡では特定しきれない発話を識別することができる。
The frequency
非可聴音パターン記憶部6は、非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。即ち、非可聴音パターン記憶部6は、唇動軌跡が略同一の複数の発話のそれぞれを識別するための、周波数パターンにおける特徴点として、特定の周波数においてピークが発生するか否か、及びピークが発生する場合は、特定の周波数帯域において生じるピークの位置に関する情報を記憶している。例えば、非可聴音パターン記憶部6は、「な」、「た」、「だ」のそれぞれの非可聴音の周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置を記憶していることが好ましい。具体的には、図4(a)に示すように、「な」と発話した場合、舌全体を上顎に軽く押し当てるため、20kHz~30kHzの範囲の周波数パターンには明確なピークは現れない。また、図4(b)に示すように、「た」と発話した場合、舌先を上顎に弾くように強く当てるため、周波数パターンには25kHz~30kHzの範囲にピークPtが現れる。さらに、図4(c)に示すように、「だ」と発話した場合、濁音のため「た」の場合より舌先を上顎に軽く当てるため、周波数パターンには「た」よりも低い20kHz~25kHzの範囲にピークPdが現れる。このように、非可聴音パターン記憶部6は、発話内容が「な」の場合は20kHz~30kHzの範囲の周波数パターンには明確なピークは現れないこと、発話内容が「た」の場合は周波数パターンには25kHz~30kHzの範囲にピークが現れること、及び、発話内容が「だ」の場合は周波数パターンには20kHz~25kHzの範囲にピークが現れることを記憶している。このように、非可聴音パターン記憶部6は、唇動軌跡が略同一の複数の発話のそれぞれについて、非可聴音の周波数パターンにおいて、特定の周波数においてピークが発生するか否か、及びピークが発生する場合は、どの周波数帯域にピークが生じるかという情報を予め記憶している。ただし、非可聴音パターン記憶部6は、これら以外にも、「し」及び「ち」、並びに「あ」及び「は」のように、唇動の軌跡が略同一で非可聴音の周波数パターンが異なる発話の他の組み合わせについても記憶している。
The non-audible sound
発話決定部8は、発話候補抽出部7が複数の発話内容の候補を抽出した場合は、非可聴音パターン記憶部6を参照して、複数の発話内容の候補の中から特定の発話内容を決定する。例えば、発話候補抽出部7が3つの発話内容の候補「な」、「た」、及び「だ」を抽出した場合は、非可聴音パターン記憶部6を参照して、上記3つの発話内容の候補の中から特定の発話内容を決定する。上述した通り、唇動軌跡検出部2が検出した唇動の軌跡が図3(a)及び(b)に類似した曲線となった場合には、発話候補抽出部7は、唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補として「な」、「た」、及び「だ」を抽出する。次に、発話決定部8は、非可聴音パターン記憶部6を参照して、検出した非可聴音の周波数パターンを3つの発話内容の候補(「な」、「た」、「だ」)のそれぞれの周波数パターンと照合することにより、3つの発話内容の候補の中から特定の発話内容を決定する。
When the utterance
発話決定部8は、周波数パターンにおける特定の周波数帯域において発生するピークの有無及びピークの位置に基づいて、発話内容を決定することができる。例えば、図4(a)のように、20kHz~30kHzの範囲の周波数においてパワーのピークが検出されなかった場合には、検出した発話は「な」であると判定することができる。また、図4(b)のように、25kHz~30kHzの範囲の周波数においてパワーのピークPtが検出された場合には、検出した発話は「た」であると判定することができる。あるいは、図4(c)のように、20kHz~25kHzの範囲の周波数においてパワーのピークPdが検出された場合には、検出した発話は「だ」であると判定することができる。以上のようにして、発話決定部8は、発話候補抽出部7が3つの発話内容の候補(「な」、「た」、「だ」)を抽出した場合は、非可聴音パターン記憶部6を参照して、3つの発話内容の候補の中から特定の発話内容として「な」、「た」、及び「だ」のいずれか1つを決定する。
The
発話決定部8は、発話候補抽出部7が1つの発話内容の候補を抽出した場合は、非可聴の周波数パターンを参照せずに、当該候補を話者が発した発話内容と決定することができる。この場合は、非可聴の周波数パターンを参照する工程を省略することができるため、話者が発した発話の内容を迅速に決定することができ、音声認識装置1001における処理負荷を低減することができる。ただし、発話決定部8は、能力的に問題無ければ、検出した音声の周波数パターンと、非可聴音パターン記憶部6に記憶した周波数パターンとの比較を行うようにしてもよい。これにより、この発音決定の信頼性を上げることが可能となる。
When the utterance
出力部9は、発話決定部8によって決定された発話内容に関する情報を出力する。出力部9に表示装置を接続した場合には、表示装置の画面に検出した発話内容を文字情報として表示することができる。また、出力部9に音声再生装置を接続した場合には、検出した発話内容を音声として出力することができる。例えば、画面表示の他に、イヤホンなどでの音声出力も併用するようにしてもよい。
The
次に、本実施形態に係る音声認識装置の動作手順について説明する。図5は、本開示の実施形態に係る音声認識装置の動作手順を説明するためのフローチャートである。まず、ステップS101において、撮像部1であるカメラを作動させる。カメラは、話者の発話動作中における口唇領域を含む画像を取得する。 Next, the operation procedure of the voice recognition device according to the present embodiment will be described. FIG. 5 is a flowchart for explaining the operation procedure of the voice recognition device according to the embodiment of the present disclosure. First, in step S101, the camera, which is the image pickup unit 1, is operated. The camera acquires an image including the lip region during the speaker's speech movement.
次に、ステップS102において、顔画像認識部10が、話者の顔及び口唇の輪郭を識別する。
Next, in step S102, the face
次に、ステップS103において、唇動軌跡検出部2が、カメラが撮像した画像から話者の唇動の軌跡を検出する。
Next, in step S103, the lip movement
次に、ステップS104において、発話候補抽出部7が、唇動の軌跡と発話内容との対応関係を予め記憶した唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補を抽出する。
Next, in step S104, the utterance
一方、カメラが作動し、話者の口唇が動き始めたことを検出した後、これをトリガーとして、ステップS105において非可聴音検出部3である非可聴音センサが作動し、話者が発話する際の音声から空中を伝播する非可聴音を検出する。
On the other hand, after the camera is activated and it is detected that the speaker's lips have started to move, the inaudible sound sensor, which is the inaudible
次に、ステップS106において、周波数パターン抽出部4が、非可聴音の周波数特性を解析し、ステップS107において周波数パターンを抽出する。
Next, in step S106, the frequency
次に、ステップS108において、発話候補抽出部7がステップS104において抽出した発話候補が複数個であるか1つであるかを判断する。発話候補が1つのみである場合は、ステップS109において、発話決定部8が、話者による発話を単独の発話候補に決定する。発話候補が1つのみである場合の例として、例えば、母音等がある。この場合は、唇動の軌跡のみで発話内容を決定することができる。従って、発話候補が1つのみである場合は、非可聴音の周波数パターンを参照する必要がないため、効率的に発話内容を決定することができる。ただし、発話決定部8は、能力的に問題無ければ、検出した音声の周波数パターンと、非可聴音パターン記憶部6に記憶した周波数パターンとの比較を行うようにしてもよい。これにより、この発音決定の信頼性を上げることが可能となる。
Next, in step S108, the utterance
一方、発話候補抽出部7が複数の発話内容の候補を抽出した場合は、ステップS110において、発話決定部8が、非可聴音の周波数パターンと発話内容との対応関係を予め記憶した非可聴音パターン記憶部6を参照して、複数の発話内容の候補の中から周波数パターンに基づいて特定の発話内容を決定する。
On the other hand, when the utterance
次に、ステップS111において、出力部9が、決定した発話内容を出力する。
Next, in step S111, the
上記の説明においては、唇動軌跡から抽出される複数の発話候補として、「な」、「た」、及び「だ」の組み合わせを例示したが、このような例には限られない。即ち、唇動の軌跡が略同一である複数の発話内容が、「な」、「た」、及び「だ」のうちの2つの組み合わせである場合において、その2つの組み合わせの中から1つの発話内容を決定するようにしてもよい。さらに、複数の発話候補の他の例として、「し」及び「ち」の組み合わせ、並びに「あ」及び「は」の組み合わせがあり、これらの組み合わせから、特定の発話を決定する方法について以下に説明する。 In the above description, the combination of "na", "ta", and "da" is exemplified as a plurality of utterance candidates extracted from the lip movement locus, but the present invention is not limited to such an example. That is, when a plurality of utterance contents having substantially the same lip movement trajectory are two combinations of "na", "ta", and "da", one utterance is made from the two combinations. You may decide the content. Furthermore, as another example of multiple utterance candidates, there are a combination of "shi" and "chi", and a combination of "a" and "ha", and the method of determining a specific utterance from these combinations is described below. explain.
まず、複数の発話候補が「し」及び「ち」の組み合わせである場合について説明する。図6は、「し」及び「ち」と発話したときの唇動の軌跡を表す図であり、図6(a)はy方向の唇動の軌跡を表し、図6(b)はx方向の唇動の軌跡を表す。図6(a)において、Lsy及びLcyは、それぞれ、「し」及び「ち」と発話したときにおける、図2(b)に示したy方向の唇動(Δy=y1-y2)の軌跡を表す。また、図6(b)において、Lsx及びLcxは、それぞれ、「し」及び「ち」と発話したときのx方向の唇動(Δx=x2-x1)の軌跡を表す。 First, a case where a plurality of utterance candidates are a combination of "shi" and "chi" will be described. FIG. 6 is a diagram showing the locus of lip movement when uttering “shi” and “chi”, FIG. 6 (a) shows the locus of lip movement in the y direction, and FIG. 6 (b) shows the locus of lip movement in the x direction. Represents the trajectory of lip movement. In FIG. 6A, Lsy and Lcy follow the locus of lip movement (Δy = y1-y2) in the y direction shown in FIG. 2B when uttering “shi” and “chi”, respectively. show. Further, in FIG. 6B, Lsx and Lcx represent the locus of lip movement (Δx = x2-x1) in the x direction when uttering “shi” and “chi”, respectively.
発話候補抽出部7は、唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補を抽出する。図6(a)及び(b)に示した例では、「し」、「ち」と発話したときの唇動のy方向の時間的変化を表す曲線LsyとLcyがほぼ同じ曲線であり、かつ、唇動のx方向の時間的変化を表す曲線LsxとLcxがほぼ同じ曲線である。唇動軌跡検出部2が検出した唇動のy方向の軌跡が図6(a)に示した曲線に類似し、かつ、唇動のx方向の軌跡が図6(b)に示した曲線に類似している場合には、発話候補抽出部7は、唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補として「し」及び「ち」を抽出する。従って、この場合、発話内容は、「し」及び「ち」のいずれかであることは分かるが、これらの内のどの発話であるのかは特定できない。そこで、このような場合は、発話内容の候補は2つ抽出されることとなる。
The utterance
周波数パターン抽出部4は、非可聴音の周波数特性を解析し、周波数パターンを抽出する。図7(a)は、「し」と発話したときの音声の周波数スペクトルであり、図7(b)は、「ち」と発話したときの音声の周波数スペクトルである。
The frequency
非可聴音パターン記憶部6は、非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。例えば、図7(a)に示すように、「し」と発話した場合、40kHz近傍の周波数パターンには明確なピークは現れない。一方、図7(b)に示すように、「ち」と発話した場合、舌の中央を上顎に押し付けることにより、周波数パターンには40kHz近傍にピークPcが現れる。このように、非可聴音パターン記憶部6は、「し」及び「ち」の非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。
The non-audible sound
次に、発話決定部8は、非可聴音パターン記憶部6を参照して、検出した非可聴音の周波数パターンを2つの発話内容の候補(「し」、「ち」)のそれぞれの周波数パターンと照合することにより、2つの発話内容の候補の中から特定の発話内容を決定する。
Next, the
発話決定部8は、周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置に基づいて、発話内容を決定することができる。図7(a)のように、40kHz近傍の周波数においてパワーのピークが検出されなかった場合には、検出した発話は「し」であると判定することができる。また、図7(b)のように、40kHz近傍においてパワーのピークPcが検出された場合には、検出した発話は「ち」であると判定することができる。以上のようにして、発話決定部8は、発話候補抽出部7が2つの発話内容の候補(「し」、「ち」)を抽出した場合は、非可聴音パターン記憶部6を参照して、2つの発話内容の候補の中から特定の発話内容として「し」及び「ち」のいずれか1つを決定する。
The
次に、複数の発話候補が「あ」及び「は」の組み合わせである場合について説明する。図8は、「あ」及び「は」と発話したときの唇動の軌跡を表す図であり、図8(a)はy方向の唇動の軌跡を表し、図8(b)はx方向の唇動の軌跡を表す。図8(a)において、Lay及びLhyは、それぞれ、「あ」及び「は」と発話したときにおける、図2(b)に示したy方向の唇動(Δy=y1-y2)の軌跡を表す。また、図8(b)において、Lax及びLhxは、それぞれ、「あ」及び「は」と発話したときのx方向の唇動(Δx=x2-x1)の軌跡を表す。 Next, a case where a plurality of utterance candidates are a combination of "a" and "ha" will be described. FIG. 8 is a diagram showing the locus of lip movement when uttering “a” and “ha”, FIG. 8 (a) shows the locus of lip movement in the y direction, and FIG. 8 (b) shows the locus of lip movement in the x direction. Represents the trajectory of lip movement. In FIG. 8 (a), Lay and Lhy follow the locus of lip movement (Δy = y1-y2) in the y direction shown in FIG. 2 (b) when uttering “a” and “ha”, respectively. show. Further, in FIG. 8 (b), Lax and Lhx represent the locus of lip movement (Δx = x2-x1) in the x direction when uttering “a” and “ha”, respectively.
発話候補抽出部7は、唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補を抽出する。図8(a)及び(b)に示した例では、「あ」、「は」と発話したときの唇動のy方向の時間的変化を表す曲線LayとLhyがほぼ同じ曲線であり、かつ、唇動のx方向の時間的変化を表す曲線LaxとLhxがほぼ同じ曲線である。唇動軌跡検出部2が検出した唇動のy方向の軌跡が図8(a)に示した曲線に類似し、かつ、唇動のx方向の軌跡が図8(b)に示した曲線に類似している場合には、発話候補抽出部7は、唇動軌跡データ記憶部5を参照して、唇動の軌跡から発話内容の候補として「あ」及び「は」を抽出する。従って、この場合、発話内容は、「あ」及び「は」のいずれかであることは分かるが、これらの内のどの発話であるのかは特定できない。そこで、このような場合は、発話内容の候補は2つ抽出されることとなる。
The utterance
周波数パターン抽出部4は、非可聴音の周波数特性を解析し、周波数パターンを抽出する。図9(a)は、「あ」と発話したときの音声の周波数スペクトルであり、図9(b)は、「は」と発話したときの音声の周波数スペクトルである。
The frequency
非可聴音パターン記憶部6は、非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。例えば、図9(a)に示すように、「あ」と発話した場合、舌全体を上顎に軽く押し当てるため、20kHz近傍の周波数パターンには明確なピークは現れない。また、図9(b)に示すように、「は」と発話した場合、舌の中央を上顎に押し付けることにより、周波数パターンには20kHz近傍にピークPhが現れる。このように、非可聴音パターン記憶部6は、「あ」及び「は」の非可聴音の周波数パターンと発話内容との対応関係を予め記憶している。
The non-audible sound
次に、発話決定部8は、非可聴音パターン記憶部6を参照して、検出した非可聴音の周波数パターンを2つの発話内容の候補(「あ」、「は」)のそれぞれの周波数パターンと照合することにより、2つの発話内容の候補の中から特定の発話内容を決定する。
Next, the
発話決定部8は、周波数パターンにおけるピークの有無及び特定の周波数帯域において発生するピークの位置に基づいて、発話内容を決定することができる。図9(a)のように、20kHz近傍の周波数パターンにおいてパワーのピークが検出されなかった場合には、検出した発話は「あ」であると判定することができる。また、図9(b)のように、20kHz近傍の周波数パターンにおいてパワーのピークが検出された場合には、検出した発話は「は」であると判定することができる。以上のようにして、発話決定部8は、発話候補抽出部7が2つの発話内容の候補(「あ」、「は」)を抽出した場合は、非可聴音パターン記憶部6を参照して、2つの発話内容の候補の中から特定の発話内容として「あ」及び「は」のいずれか1つを決定する。
The
上記の通り、唇動の軌跡が略同一である複数の発話内容の例として、「な」、「た」、及び「だ」の組み合わせ、「し」及び「ち」の組み合わせ、並びに「あ」及び「は」の組み合わせを示したが、このような例には限られず、唇動の軌跡が略同一である他の複数の発話内容の組み合わせに対しても、本開示の実施形態に係る音声認識装置を用いることができる。 As described above, examples of multiple utterance contents in which the locus of lip movement is substantially the same are a combination of "na", "ta", and "da", a combination of "shi" and "chi", and "a". And "ha" are shown, but the present invention is not limited to such an example, and the voice according to the embodiment of the present disclosure is also applied to a combination of a plurality of other utterance contents having substantially the same lip movement trajectory. A recognition device can be used.
以上説明したように本開示の実施形態に係る音声認識装置によれば、声帯を使わない発話(呟き声)を非接触で判定することができ、唇動軌跡から予測発話の粗候補を抽出し、非可聴音による周波数パターンから予測候補の中から話者による発話を確定することができる。さらに、唇動によるパターン判定と非可聴音による判定を組み合わせることにより、発話内容の予測精度を向上させることができる。本開示の実施形態に係る音声認識装置によれば、声帯を使わずに発話される高齢者の会話を解読することができる。また、静寂が求められる乗り物内等において、声帯を使わずに小声で行われる通話内容を把握することができる。この場合、非可聴音によって会話を行うことができるため、プライバシーを保護し、あるいは情報漏洩を防ぎながら、会話を行うことができる。さらに、予め話者に専用機材を装着する必要が無いため、多目的な用途に使用することができる。 As described above, according to the voice recognition device according to the embodiment of the present disclosure, it is possible to determine utterances (murmurs) that do not use vocal cords in a non-contact manner, and rough candidates for predicted utterances are extracted from the lip movement locus. , It is possible to confirm the utterance by the speaker from the prediction candidates from the frequency pattern by the inaudible sound. Further, by combining the pattern determination based on lip movement and the determination based on inaudible sound, the accuracy of predicting the utterance content can be improved. According to the voice recognition device according to the embodiment of the present disclosure, it is possible to decipher the conversation of an elderly person spoken without using the vocal cords. In addition, it is possible to grasp the contents of a call made in a low voice without using a vocal cord in a vehicle or the like where silence is required. In this case, since the conversation can be performed by an inaudible sound, the conversation can be performed while protecting privacy or preventing information leakage. Further, since it is not necessary to equip the speaker with special equipment in advance, it can be used for various purposes.
[実施例1]
次に、実施例1に係る音声認識装置について説明する。図10は、実施例1に係る音声認識装置を用いた会話システムの構成概略図である。話者(120、220)が高齢者等である場合、声帯を使わずに話すことにより、互いに相手の話す内容が聞き取れず、その結果うまくコミュニケーションを取ることができないという問題が生じうる。実施例1に係る音声認識装置(100、200)は、自己が発した言葉の内容を自己が所持した音声認識装置に表示させて相手に見せることでコミュニケーションを取るものである。
[Example 1]
Next, the voice recognition device according to the first embodiment will be described. FIG. 10 is a schematic configuration diagram of a conversation system using the voice recognition device according to the first embodiment. When the speaker (120, 220) is an elderly person or the like, speaking without using the vocal cords may cause a problem that the contents spoken by each other cannot be heard, and as a result, communication cannot be performed well. The voice recognition device (100, 200) according to the first embodiment communicates by displaying the content of the words spoken by the self on the voice recognition device possessed by the self and showing it to the other party.
ここで、第1話者120が第1の音声認識装置100を持ち、第2話者220が第2の音声認識装置200を持つものとする。第1の音声認識装置100及び第2の音声認識装置200にはタブレット端末等の情報端末を用いることができる。第1話者120は、第1の音声認識装置100を首から下げて表示部113を第2話者220に向けると共に、撮像部101が第2話者220の口唇領域220mの画像を撮像できるようにする。同様に、第2話者220は、第2の音声認識装置200を首から下げて表示部213を第1話者120に向けると共に、撮像部201が第1話者120の口唇領域120mの画像を撮像できるようにする。
Here, it is assumed that the
まず、第2話者220が発話した際の画像及び非可聴音を第1の音声認識装置100で解析した後、解析結果を第2の音声認識装置200の表示部213に表示させる手順について説明する。図11は、実施例1に係る音声認識装置(100、200)のブロック図である。第1の音声認識装置100及び第2の音声認識装置200は、図1に示した音声認識装置1001の構成に加えて、受信部(111、211)、送信部(112、212)、及び表示部(113、213)を備えている。その他の構成は、図1に示した音声認識装置1001の構成と同様である。
First, a procedure will be described in which an image and an inaudible sound when the
第1の音声認識装置100の撮像部101は、第2話者220が「今日のゴハンは?」と声帯を使わずに発話しているときの口唇領域220mを含む画像を取得する。また、非可聴音検出部103は、第2話者220が発話する際の音声から空中を伝搬する非可聴音を検出する。
The
第1の音声認識装置100は、取得した口唇領域220mの画像及び非可聴音から第2話者220の発話内容は「今日のゴハンは?」であると決定し、決定した結果を出力部109が送信部112に出力する。送信部112は、第2話者220の発話内容に関する情報を第2の音声認識装置200の受信部211に送信する。
The first
第2の音声認識装置200の受信部211は、発話内容に関する情報を受信し、表示部213に送信する。表示部213は取得した情報に基づいて、表示画面に「今日のゴハンは?」と表示する。第1話者120は、第2の音声認識装置200の表示部213を視認することにより、第2話者220が発話した内容は「今日のゴハンは?」であることを認識する。このとき、第2話者220の発話が一旦終了し、第1話者120からの回答を待っていることを表示部213に表示することにより、第1話者120が発話するタイミングを取りやすくするようにしてもよい。
The receiving
次に、第1話者120が発話した際の画像及び非可聴音を第2の音声認識装置200で解析した後、解析結果を第1の音声認識装置100の表示部113に表示させる手順について説明する。第2の音声認識装置200の撮像部201は、第1話者120が「カレーよ」と声帯を使わずに発話しているときの口唇領域120mを含む画像を取得する。また、非可聴音検出部203は、第1話者120が発話する際の音声から空中を伝搬する非可聴音を検出する。
Next, the procedure for displaying the analysis result on the
第2の音声認識装置200は、取得した口唇領域120mの画像及び非可聴音から第1話者120の発話内容は「カレーよ」であると決定し、決定した結果を出力部209が送信部212に出力する。送信部212は、第1話者120の発話内容に関する情報を第1の音声認識装置100の受信部111に送信する。
The second
第1の音声認識装置100の受信部111は、発話内容に関する情報を受信し、表示部113に送信する。表示部113は取得した情報に基づいて、表示画面に「カレーよ」と表示する。第2話者220は、第1の音声認識装置100の表示部113を視認することにより、第1話者120が発話した内容は「カレーよ」であることを認識する。
The receiving
以上のようにして、実施例1に係る音声認識装置を用いることにより、第1話者120と第2話者220が声帯を使わずに発話した場合でも互いに相手の発話内容を把握することができ、コミュニケーションを取ることができる。
As described above, by using the voice recognition device according to the first embodiment, even when the
次に、実施例1の変形例として、第2話者220が発話した際の画像及び非可聴音に関する情報を第1の音声認識装置100´で取得した後、取得した情報を第2の音声認識装置200´に送信し、第2の音声認識装置200´で解析し、解析結果を表示させる手順について説明する。図12に実施例1の変形例に係る音声認識装置のブロック図を示す。
Next, as a modification of the first embodiment, after the first voice recognition device 100'acquires information on the image and the inaudible sound when the
第1の音声認識装置100´の撮像部101は、第2話者220が「今日のゴハンは?」と声帯を使わずに発話しているときの口唇領域220mを含む画像を取得する。また、非可聴音検出部103は、第2話者220が発話する際の音声から空中を伝搬する非可聴音を検出する。
The
第1の音声認識装置100´の撮像部101が取得した画像データ及び非可聴音検出部103が取得した非可聴音のデータは送信部112に供給され、送信部112はこれらのデータを第2の音声認識装置200´の受信部211に送信する。
The image data acquired by the
第2の音声認識装置200´は、受信部211が受信した口唇領域220mの画像及び非可聴音から第2話者220の発話内容は「今日のゴハンは?」であると決定し、決定した結果を表示部213に表示する。
The second voice recognition device 200'determines that the utterance content of the
第1話者120は、第2の音声認識装置200´の表示部213を視認することにより、第2話者220が発話した内容は「今日のゴハンは?」であることを認識する。このとき、第2話者220の発話が一旦終了し、第1話者120からの回答を待っていることを表示部213に表示することにより、第1話者120が発話するタイミングを取りやすくするようにしてもよい。
By visually recognizing the
次に、第1話者120が発話した内容を第2の音声認識装置200´で取得した後、取得した情報を第1の音声認識装置100´に送信し、第1の音声認識装置100´で解析し、表示させる手順について説明する。
Next, after the content spoken by the
第2の音声認識装置200´の撮像部201は、第1話者120が「カレーよ」と声帯を使わずに発話しているときの口唇領域120mを含む画像を取得する。また、非可聴音検出部203は、第1話者120が発話する際の音声から空中を伝搬する非可聴音を検出する。
The
第2の音声認識装置200´の撮像部201が取得した画像データ及び非可聴音検出部203が取得した非可聴音のデータは送信部212に供給され、送信部212はこれらのデータを第1の音声認識装置100´の受信部111に送信する。
The image data acquired by the
第1の音声認識装置100´は、受信部111が受信した口唇領域120mの画像及び非可聴音から第1話者120の発話内容は「カレーよ」であると決定し、決定した結果を表示部113に表示する。
The first voice recognition device 100'determines that the utterance content of the
第2話者220は、第1の音声認識装置100´の表示部113を視認することにより、第1話者120が発話した内容は「カレーよ」であることを認識する。
By visually recognizing the
以上のようにして、実施例1の変形例に係る音声認識装置を用いることにより、第1話者120と第2話者220が声帯を使わずに発話した場合でも互いに相手の発話内容を把握することができ、コミュニケーションを取ることができる。
As described above, by using the voice recognition device according to the modified example of the first embodiment, even when the
[実施例2]
次に、実施例2に係る音声認識装置について説明する。図13は、実施例2に係る音声認識装置1002を用いた通訳装置の構成概略図である。介護士30は、話者である高齢者40の感情を会話内容から把握しようとするが、高齢者40が声帯を使わずに話す場合、発話した内容を聞き取ることができず、感情を把握することが難しい場合がある。実施例2に係る音声認識装置1002は、高齢者40が声帯を使わずに発話した内容を表示部13に表示させることにより高齢者40の発話内容を認識するものである。
[Example 2]
Next, the voice recognition device according to the second embodiment will be described. FIG. 13 is a schematic configuration diagram of an interpreter using the
図14は、実施例2に係る音声認識装置1002のブロック図である。実施例2に係る音声認識装置1002は、図1に示した音声認識装置1001に加えて表示部13を備えている。その他の構成は、音声認識装置1001における構成と同様である。
FIG. 14 is a block diagram of the
音声認識装置1002の撮像部1は、話者である高齢者40が声帯を使わずに発話しているときの口唇領域40mを含む画像を取得する。また、非可聴音検出部3は、高齢者40が発話する際の音声から空中を伝搬する非可聴音を検出する。
The image pickup unit 1 of the
音声認識装置1002は、取得した口唇領域40mを含む画像及び検出した非可聴音に基づいて、高齢者40の発話内容を決定し、出力部9が決定した発話内容に関するデータを表示部13に出力する。表示部13は、取得したデータに基づいて発話内容を表示する。
The
実施例2に係る音声認識装置1002によれば、高齢者40が声帯を使わずに発話した場合であっても発話内容を表示部13に表示することができるため、高齢者40の発話内容を認識することができる。
According to the
[実施例3]
次に、実施例3に係る音声認識装置について説明する。図15は、実施例3に係る音声認識装置1003を用いた音声機器操作システムの構成概略図である。近年、音声で家電を操作したり、自動車のナビシステムを制御したりする装置が開発されている。これらの装置は、受信した音声を認識することで制御が可能となるが、高齢者等が声帯を使わずに発話して操作しようとしても、これらの装置はそのような声帯を使わずに発せられた音声を認識することができないという問題がある。実施例3に係る音声認識装置1003は、高齢者50が声帯を使わずに発話した内容を認識し、可聴音声に変換して、家電等の機器60に可聴音声に変換した音声を認識させるものである。
[Example 3]
Next, the voice recognition device according to the third embodiment will be described. FIG. 15 is a schematic configuration diagram of a voice device operation system using the
図16は、実施例3に係る音声認識装置1003のブロック図である。実施例3に係る音声認識装置1003は、図1に示した音声認識装置1001に加えて音声再生部14を備えている。その他の構成は、音声認識装置1001における構成と同様である。
FIG. 16 is a block diagram of the
音声認識装置1003の撮像部1は、話者である高齢者50が声帯を使わずに発話しているときの口唇領域50mを含む画像を取得する。また、非可聴音検出部3は、高齢者50が発話する際の音声から空中を伝搬する非可聴音を検出する。
The image pickup unit 1 of the
音声認識装置1003は、取得した口唇領域50mを含む画像及び検出した非可聴音に基づいて、高齢者50の発話内容を決定し、出力部9が音声再生部14に発話内容を出力する。音声再生部14は、高齢者50の発話内容を可聴音として再生し、機器60は、再生された可聴音を認識して、所定の制御を実行する。
The
実施例3に係る音声認識装置1003によれば、高齢者50が声帯を使わずに発話した場合であっても、発話内容を可聴音に変換して音声再生部14から出力することができるため、機器60における音声認識精度を向上させることができる。
According to the
1 撮像部
2 唇動軌跡検出部
3 非可聴音検出部
4 周波数パターン抽出部
5 唇動軌跡データ記憶部
6 非可聴音パターン記憶部
7 発話候補抽出部
8 発話決定部
9 出力部
10 顔画像認識部
13 表示部
14 音声再生部
1
Claims (7)
前記画像から話者の唇動の軌跡を検出する唇動軌跡検出部と、
前記話者が発話する際の音声から空中を伝搬する非可聴音を検出する非可聴音検出部と、
前記非可聴音の周波数特性を解析し、周波数パターンを抽出する周波数パターン抽出部と、
前記唇動の軌跡と発話内容との対応関係を予め記憶した唇動軌跡データ記憶部と、
非可聴音の周波数パターンと発話内容との対応関係を予め記憶した非可聴音パターン記憶部と、
前記唇動軌跡データ記憶部を参照して、前記唇動の軌跡から発話内容の候補を抽出する発話候補抽出部と、
前記発話候補抽出部が複数の発話内容の候補を抽出した場合は、前記非可聴音パターン記憶部を参照して、前記複数の発話内容の候補の中から特定の発話内容を決定する発話決定部と、
前記発話決定部によって決定された発話内容に関する情報を出力する出力部と、
を有することを特徴とする音声認識装置。 An image pickup unit that acquires an image including the lip region during the speaker's utterance operation,
A lip movement locus detection unit that detects the locus of the speaker's lip movement from the image,
An inaudible sound detection unit that detects an inaudible sound propagating in the air from the voice when the speaker speaks,
A frequency pattern extraction unit that analyzes the frequency characteristics of the inaudible sound and extracts a frequency pattern,
A lip movement locus data storage unit that previously stores the correspondence between the lip movement locus and the utterance content,
An inaudible sound pattern storage unit that stores in advance the correspondence between the frequency pattern of the inaudible sound and the utterance content,
With reference to the lip movement locus data storage unit, an utterance candidate extraction unit that extracts utterance content candidates from the lip movement locus, and a speech candidate extraction unit.
When the utterance candidate extraction unit extracts a plurality of utterance content candidates, the utterance determination unit determines a specific utterance content from the plurality of utterance content candidates with reference to the inaudible sound pattern storage unit. When,
An output unit that outputs information about the utterance content determined by the utterance determination unit, and an output unit.
A speech recognition device characterized by having.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020167873A JP2022059957A (en) | 2020-10-02 | 2020-10-02 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020167873A JP2022059957A (en) | 2020-10-02 | 2020-10-02 | Voice recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022059957A true JP2022059957A (en) | 2022-04-14 |
Family
ID=81124903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020167873A Pending JP2022059957A (en) | 2020-10-02 | 2020-10-02 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022059957A (en) |
-
2020
- 2020-10-02 JP JP2020167873A patent/JP2022059957A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101818980B1 (en) | Multi-speaker speech recognition correction system | |
JP6819672B2 (en) | Information processing equipment, information processing methods, and programs | |
EP1503368B1 (en) | Head mounted multi-sensory audio input system | |
JP4713111B2 (en) | Speaking section detecting device, speech recognition processing device, transmission system, signal level control device, speaking section detecting method | |
CN111432303B (en) | Monaural headset, intelligent electronic device, method, and computer-readable medium | |
CN110097875B (en) | Microphone signal based voice interaction wake-up electronic device, method, and medium | |
CN110223711B (en) | Microphone signal based voice interaction wake-up electronic device, method, and medium | |
US10438609B2 (en) | System and device for audio translation to tactile response | |
CN110428806B (en) | Microphone signal based voice interaction wake-up electronic device, method, and medium | |
JP6585733B2 (en) | Information processing device | |
WO2020244411A1 (en) | Microphone signal-based voice interaction wakeup electronic device and method, and medium | |
WO2007138503A1 (en) | Method of driving a speech recognition system | |
EP4002363A1 (en) | Method and apparatus for detecting an audio signal, and storage medium | |
JP2009178783A (en) | Communication robot and its control method | |
JP2004199053A (en) | Method for processing speech signal by using absolute loudness | |
KR20140067687A (en) | Car system for interactive voice recognition | |
JP2007142957A (en) | Remote interaction method and apparatus | |
JP2022059957A (en) | Voice recognition device | |
JP2018149625A (en) | Communication robot, program, and system | |
JP2018075657A (en) | Generating program, generation device, control program, control method, robot device and telephone call system | |
KR102000282B1 (en) | Conversation support device for performing auditory function assistance | |
JP7172120B2 (en) | Speech recognition device and speech recognition method | |
KR20170029390A (en) | Method for voice command mode activation | |
KR20080061901A (en) | System and method of effcient speech recognition by input/output device of robot | |
JP4219129B2 (en) | Television receiver |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230926 |