JP2000311077A - 音声情報入力装置 - Google Patents

音声情報入力装置

Info

Publication number
JP2000311077A
JP2000311077A JP11120944A JP12094499A JP2000311077A JP 2000311077 A JP2000311077 A JP 2000311077A JP 11120944 A JP11120944 A JP 11120944A JP 12094499 A JP12094499 A JP 12094499A JP 2000311077 A JP2000311077 A JP 2000311077A
Authority
JP
Japan
Prior art keywords
voice
input
speech
speaker
spoken language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11120944A
Other languages
English (en)
Inventor
Hirotaro Furuta
大太郎 古田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP11120944A priority Critical patent/JP2000311077A/ja
Publication of JP2000311077A publication Critical patent/JP2000311077A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Telephone Function (AREA)

Abstract

(57)【要約】 【課題】 騒音などの外部音声の有無にかかわらず、話
者が発声した有効な会話音声を選択的かつ漏れなく入力
する音声情報入力装置を提供する。 【解決手段】 話者が発声した会話音声を含む音声を表
す音声情報として入力する音声入力手段111と、話者
の口唇に近接して配置され、話者が音声を発声する際の
口唇の形状パターンを表す口話画像を入力する口話画像
入力手段112と、口話画像を受け取り、話者の口唇の
形状パターンに対応する音声を認識して、音声を表す音
声情報を認識結果として送出する口話パターン認識手段
113と、音声入力手段111からの音声情報と口話パ
ターン認識手段113による認識結果とを比較する比較
手段114と、比較手段114による比較結果に応じ
て、音声入力手段111からの音声情報と口話パターン
認識手段113による認識結果とのいずれかを入力音声
情報として選択する選択手段115とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者の口の付近に
受話部を備え、話者によって発声された音声を音声情報
として入力する音声情報入力装置に関するものである。
携帯電話などの普及に伴い、利用者が音声通信サービス
を利用する環境は著しく多様化しており、例えば、電車
の中や都市部の雑踏の中など騒音の多い環境において
も、自由に音声情報を入力して送信することが求められ
ている。このためには、外部音声の有無にかかわらず、
話者によって発声された音声を表す音声情報を選択的か
つ正確に入力するための技術が必要である。
【0002】
【従来の技術】従来の音声情報入力装置の例として、携
帯電話などに用いられている音声符号化処理部について
説明する。従来の携帯電話では、図7に示すように、話
者によって発声された音声は、受話部401に備えられ
たマイクによって集音され、音声符号化処理部410に
そのまま入力されており、この音声符号化処理部410
によって得られた符号化音声情報がそのまま送信されて
いた。
【0003】この音声符号化処理部410は、例えば、
帯域圧縮符号化方式の1つであるCELP(Code Exited
Linear Prediction)技術を適用して、サンプリングさ
れた入力音声を符号化する構成となっている。図7に示
した音声符号化処理部410において、駆動波形テーブ
ル411は、声道モデルを駆動するための相異なる複数
の駆動波形を保持しており、駆動波形探索部412から
の動波形を音声合成部413に送出する構成となってい
る。
【0004】一方、図7に示した声道パラメータ分析部
414は、入力音声を分析して声道モデルを示す声道パ
ラメータを求め、音声合成部413に送出する構成とな
っている。この音声合成部413は、駆動波形との入力
に応じて、上述した声道パラメータで示される声道モデ
ルをこの駆動波形によって駆動して合成音声を生成し、
誤差測定部415による合成音声と入力音声との誤差測
定処理に供する構成となっている。
【0005】この誤差測定部415によって得られた合
成音声と入力音声との誤差に基づいて、駆動波形探索部
412は、最も誤差を小さくする最適駆動波形を探索す
る構成となっており、この最適駆動波形を示す駆動波形
番号と上述した声道パラメータとからなる音声情報を後
段の送信処理に供することにより、音声情報の送信に要
する帯域を圧縮していた。
【0006】また、このようにして符号化された音声情
報の送受信装置に、エコーキャンセラや誤り訂正技術な
どを適用することにより、符号化音声情報を正確に伝達
するシステムが実現されている。
【0007】
【発明が解決しようとする課題】ところで、従来の音声
符号化処理部410は、上述したように、受話部401
で捉えられた音声をそのまま受け取っており、話者が発
声した有効な会話音声と外部から混入した雑音とを全く
区別していなかった。
【0008】このように、話者によって発声された有効
な会話音声と周囲の騒音とが同等に扱われているため
に、電車の中や雑踏、工場のように、騒音の多い環境で
は、騒音のために話者の会話音声がかき消されてしまう
場合があり、会話音声の全てを入力することはできなか
った。本発明は、騒音などの外部音声の有無にかかわら
ず、話者が発声した有効な会話音声を選択的かつ漏れな
く入力する音声情報入力装置を提供することを目的とす
る。
【0009】
【課題を解決するための手段】図1に、本発明の原理ブ
ロック図を示す。請求項1の発明は、話者が発声した会
話音声を含む音声を収集し、音声を表す音声情報として
入力する音声入力手段111と、話者の口唇に近接して
配置され、話者が音声を発声する際の口唇の形状パター
ンを表す口話画像を入力する口話画像入力手段112
と、口話画像を受け取り、話者の口唇の形状パターンに
対応する音声を認識して、音声を表す音声情報を認識結
果として送出する口話パターン認識手段113と、音声
入力手段111によって入力された音声情報と口話パタ
ーン認識手段113による認識結果とを比較する比較手
段114と、比較手段114による比較結果に応じて、
音声入力手段111によって入力された音声情報と口話
パターン認識手段113による認識結果とのいずれかを
選択し、入力音声情報として後段の処理手段に送出する
選択手段115とを備えたことを特徴とする。
【0010】請求項1の発明は、口話画像入力手段11
2を介して受け取った口話画像に基づいて、口話パター
ン認識手段113が動作することにより、話者の口唇の
形状パターンに対応する会話音声を認識し、この会話音
声に対応する音声情報と音声入力手段111によって入
力された音声情報とともに、比較手段114および選択
手段115の処理に供することにより、音声入力手段1
11を介して入力された音声情報の一部に代えて、口話
画像に基づいて得られた音声情報の該当する部分を後段
の処理手段に音声情報として入力することができる。
【0011】これにより、例えば、音声入力手段111
を介して入力された音声においては、周囲の音声によっ
て話者による会話音声が消されていた場合などに、口話
画像に基づいて得られた音声によって、欠けた部分の音
声情報を補うことができる。請求項2の発明は、請求項
1に記載の音声情報入力装置において、口話画像の入力
に応じて、話者の口唇の動きを検出する動き検出手段1
16を備え、選択手段115は、動き検出手段116に
よる検出結果と比較手段114による比較結果とに応じ
て、入力音声情報を選択する構成であることを特徴とす
る。
【0012】請求項2の発明は、動き検出手段116に
より、口唇の動きの有無に基づいて、会話音声の発声の
有無を判定することができるので、この検出結果に応じ
て選択手段115が動作することにより、会話音声に対
応する音声情報のみを選択的に入力することが可能とな
る。請求項3の発明は、請求項1に記載の音声情報入力
装置において、音声入力手段111は、話者によって発
声された音声を適切なサンプリング周期でサンプリング
するサンプリング手段121と、サンプリング手段12
1によってサンプリングされた音声の入力に応じて音声
の特徴評価処理を行い、音声の特徴を表すパラメータを
音声情報として出力する特徴評価手段122とを備えた
構成であり、口話パターン認識手段113は、入力が予
想される音声それぞれについて、標準的な発音がなされ
る際の口唇の形状パターンを口話テンプレートとして保
持するテンプレート保持手段123と、口話テンプレー
トそれぞれに対応して、該当する音声の特徴を表すパラ
メータを保持するパラメータ保持手段124と、入力さ
れた口話画像とテンプレート保持手段123に保持され
た口話テンプレートそれぞれとの類似度を求め、最も類
似度の高い口話テンプレートを探索する探索手段125
と、探索手段125による探索結果に基づいて、パラメ
ータ保持手段124から該当する口話テンプレートに対
応するパラメータを検索し、口話画像に対応する認識結
果として出力する検索手段126とを備えた構成である
ことを特徴とする。
【0013】請求項3の発明は、音声入力手段111に
備えられたサンプリング手段121および特徴評価手段
122と、口話パターン認識手段113に備えられた探
索手段125および検索手段126とが、それぞれ動作
することにより、入力音声の特徴を表すパラメータと口
話画像に対応する音声の特徴を表すパラメータとがそれ
ぞれ得ることができる。
【0014】したがって、比較手段114は、これらの
パラメータを相互に比較することにより、入力音声と口
話画像に対応する音声とが一致しているか否かを判定す
ることが可能となり、比較手段114の構成を簡略化す
ることができる。
【0015】
【発明の実施の形態】以下、図面に基づいて、本発明の
実施形態について詳細に説明する。
【0016】図2に、本発明の音声入力装置の実施形態
を示す。図2に示した音声情報入力装置において、画像
入力部201は、請求項1で述べた口話画像入力手段1
12に相当するものであり、例えば、受話部401に備
えられたマイクに近接してCCD撮像素子を配置するこ
とにより、このCCD素子によって話者の口唇の動きを
表す動画像を捉え、この動画像を動画像処理部211を
介して口話音声作成処理部212の処理に供する構成と
なっている。
【0017】一方、受話部401によって捉えられた入
力音声は、遅延回路202およびセレクタ203を介し
て音声符号化処理部410に入力されている。この音声
符号化処理部410は、タイミング制御部204からの
指示に応じて、遅延回路202を介して受け取った入力
音声に対して従来と同等の符号化処理を行い、得られた
駆動波形番号をセレクタ205を介して送出し、入力音
声の特徴を示すパラメータとして後段の処理に供する構
成となっている。
【0018】図2に示した動画像処理部211におい
て、画像サンプリング部213は、タイミング制御部2
04からの指示に応じて、画像入力部201によって捉
えられた動画像をサンプリングし、パターン抽出部21
4の処理に供する構成となっている。このパターン抽出
部214は、画像サンプリング部213からサンプリン
グ画像を受け取り、このサンプリング画像に捉えられた
話者の口唇の形状を示す口話パターンを切り出して、口
話音声作成処理部212の処理に供する構成となってい
る。
【0019】この口話音声作成処理部212は、請求項
1で述べた口話パターン認識手段113に相当するもの
であり、パターン抽出部214から受け取った口話パタ
ーンに基づいて、該当する口唇の形状によって発声され
る音声を認識し、対応する駆動波形番号を上述したセレ
クタ205を介して後段の処理に供する構成となってい
る。
【0020】また、図2において、一致判定部206
は、この口話音声作成処理部212によって得られた駆
動波形番号と音声符号化処理部410によって得られた
駆動波形番号とを比較し、これらが一致しているか否か
を示す判定結果を出力する構成となっており、上述した
2つのセレクタ203、205は、この判定結果に応じ
て、選択動作を行う構成となっている。
【0021】図2に示した口話音声作成処理部212に
おいて、口話テンプレートデータベース221は、入力
が予想される各音声を発声する際の口唇の典型的な形状
を示す口話テンプレートに対応して、該当する音声を出
力するために声道モデルに入力すべき駆動波形を示す駆
動波形番号を登録しており、類似度算出部222は、上
述した口話パターンと各口話テンプレートとの類似度を
求める構成となっている。
【0022】例えば、口話テンプレートデータベース2
21に、図3に示すように、各音声に対応する口唇の形
状を表すモデルを作成するためのポリゴンデータを口話
テンプレートとして登録しておき、類似度算出部222
は、口話パターンと口話テンプレートに基づいて作成し
たモデルとの類似度を算出する構成とすればよい。この
とき、各音声に対応する口話テンプレートとして、様々
な特徴を持つ口唇モデルに対応するポリゴンデータを登
録しておけば、話者に口唇の形状の特徴に柔軟に対応し
て、正確な認識を行うことができる。
【0023】また、この口話音声作成処理部212にお
いて、最適テンプレート検出部223は、各口話テンプ
レートについて得られた類似度に基づいて、最も類似度
の高い口話テンプレートを検出し、得られた最適テンプ
レートに対応して口話テンプレートデータベース221
に保持された駆動波形番号を波形番号保持部224に保
持する構成となっている。
【0024】上述したように、口話テンプレートデータ
ベース221に口話テンプレートとこれに適応する駆動
波形番号との組み合わせを登録する構成とすることによ
り、この口話テンプレートデータベース221により、
請求項3で述べたテンプレート保持手段123およびパ
ラメータ保持手段124の機能を併せて実現することが
できる。
【0025】したがって、上述したように、口話パター
ンの入力に応じて、類似度算出部222と最適テンプレ
ート検出部223とが動作することにより、請求項3で
述べた探索手段125および検索手段126の機能を併
せて実現し、入力された口話パターンに基づいて、話者
が発声した音声を認識し、該当する音声を声道モデルを
用いて再現するためのパラメータである駆動波形番号を
得て、波形番号保持部224を介して、セレクタ205
に送出することができる。
【0026】また、図2に示した音声データベース22
5は、口話テンプレートデータベース221に登録され
た各口話テンプレートに対応して、該当する口唇の形状
から発声される音声を表す音声情報を格納する構成とな
っており、口話音声変換部226は、上述した最適テン
プレートに対応する音声情報に基づいて、適切な音声を
生成し、セレクタ203を介して音声符号化処理部41
0に送出する構成となっている。
【0027】一方、図2に示した動画像処理部211に
おいて、動き検出部215は、請求項2で述べた動き検
出手段116に相当するものであり、例えば、各サンプ
リング画像から抽出された口話パターンの変化を検出す
ることにより、話者の口唇の動きを検出し、この検出結
果を上述した音声符号化処理部410および口話音声作
成処理部212に備えられた波形番号保持部224に送
出する構成となっている。
【0028】ここで、上述した動き検出部215と口話
音声作成処理部212とは、独立に動作可能であり、ま
た、これらの各部と音声符号化処理部410ともまた、
独立に動作可能である。したがって、遅延回路202に
よって、口話音声作成処理212による処理に要する時
間を考慮した遅延を入力音声に与えるとともに、タイミ
ング制御部204により、画像サンプリング処理部21
3、口話音声作成処理部212および音声符号化処理部
410それぞれの動作タイミング調整することにより、
入力音声に対応して得られる駆動波形番号と、この音声
が発声されたときの口話画像に対応する駆動波形番号と
を同期してセレクタ205に入力することが可能であ
る。
【0029】例えば、図4(a),(b)に示すように、口
話音声作成処理部212と動き検出部215とが、サン
プリング画像の入力に応じて並行して動作する構成と
し、これらの各部による口話画像に関する処理動作と並
行して、図5(a)に示すように、音声符号化処理部41
0が、遅延回路202を介して受け取った音声入力に応
じてサンプリング手段121および特徴評価手段122
として動作し、後述するように、タイミング制御部20
4からの指示に応じて、口話画像に対応する駆動波形番
号と入力音声に対応する駆動波形番号とをセレクタ20
5に入力する構成とすればよい。
【0030】例えば、話者が音声「あ」、「い」、
「う」、「え」を発声してから、一時発声を停止した後
に、再び音声「お」を発声したときに、図2に示した動
画像処理部211のサンプリング処理部213およびパ
ターン抽出部214が動作することにより、図6(a)に
示すように、音声「あ」、「い」、「う」、「え」、
「お」に対応する口話パターン(図6(a)において、符
号で示した「あ」、「い」、「う」、「え」、「お」)
とともに、話者が発声を停止している無音区間に対応す
る口話パターン(図6(a)において、符号「無」で示し
た)が抽出され(図4に示したステップ301、30
2)、口話音声作成処理部212の処理に供される。
【0031】これらの口話パターンの入力に応じて、類
似度算出部222および最適テンプレート検出部223
により、口話テンプレートデータベース221において
最適テンプレートを探索する処理が行われ(ステップ3
03)、得られた最適テンプレートに対応する駆動波形
番号が波形番号保持部224に保持される。一方、上述
した処理と並行して、図4(b)に示したステップ311
における口話画像の入力に応じて、動き検出部215
(図2参照)が動作し(ステップ312)、図6(a)に
おいて、符号「あ」、「い」、「う」、「え」、「お」
で示された口話パターンについては、話者の口唇に動き
がある旨の検出結果がそれぞれ送出される(ステップ3
13)。
【0032】このように、話者の口唇に動きがある旨の
検出結果が得られた場合は、図4(a)に示した各口話パ
ターンについての処理において、ステップ305の肯定
判定となる。この場合に、波形番号保持部224は、最
適テンプレート検出部223から受け取った駆動波形番
号をそのまま保持し、タイミング制御部204からの指
示に応じて、この駆動波形番号をセレクタ205に送出
(ステップ306)し、その後、該当する口話パターン
に関する口話音声作成処理を終了すればよい。
【0033】一方、図6(a)において、符号「無」で示
した口話パターンについては、動き検出部215によ
り、話者の口唇に動きがない旨の検出結果が得られ、そ
の旨が波形番号保持部224に送出され、これに応じ
て、図4(a)に示したステップ305の否定判定とな
る。この場合に、波形番号保持部224は、自身が保持
していた駆動波形番号を削除し(ステップ307)、そ
の後、ステップ306に進み、タイミング制御部202
からの指示に応じて無音状態を表す情報として送出し、
該当する口話パターンについての口話音声作成処理を終
了すればよい。
【0034】上述した口話画像に関する処理と並行し
て、図2に示した受話部401からの入力音声(図6
(c)参照)に関する処理が実行される。初期状態におい
ては、図2に示したセレクタ203により、遅延回路2
02によって遅延された音声(図6(d)参照)が選択的
に音声符号化処理部410に入力され(図5(a)に示し
たステップ321)、これに応じて、従来と同等の音声
符号化処理が行われて(ステップ322)、得られた駆
動波形番号が音声符号化処理部410内部に保持され
る。
【0035】例えば、図6(d)において斜線を付して示
した区間で、話者による音声が雑音によってかき消され
てしまった場合に、この区間に対応するサンプリング周
期(図6において、サンプリング周期3から5として示
す)における入力音声に応じて、音声符号化処理部41
0によってこれらの入力音声の特徴を示すパラメータと
して得られる駆動波形番号は、当然ながら、雑音を符号
化して得られた無効な駆動波形番号となっている(図6
(e)参照)。
【0036】一方、話者が発声した音声「あ」、「い」
に対応するサンプリング周期1、2とその後の音声
「お」に対応するサンプリング周期6のように、良好な
入力音声が得られた場合は、この入力音声を音声符号化
処理部410によってそのまま符号化することにより、
音声「あ」、「い」および音声「お」に対応する駆動波
形番号が得られる(図6(e)参照)。
【0037】このようにして、各サンプリング周期に対
応する駆動波形番号を得た後に、音声符号化処理部41
0は、図5(a)に示すように、図2に示した動き検出部
215による検出結果の入力を受け(ステップ32
3)、該当するサンプリング周期において、話者の口唇
に動きがあったか否かを判定する(ステップ324)。
図6(a)に示したように、サンプリング周期1〜4とサ
ンプリング周期6については、話者の口唇に動きがある
旨の検出結果が入力されるので、これに応じて、音声符
号化処理部410は、ステップ324の肯定判定とし
て、ステップ325に進み、タイミング制御部204か
らの指示に応じて、ステップ322で得た駆動波形番号
をセレクタ205に送出した後に、このサンプリング周
期の入力音声に関する符号化処理を終了すればよい。
【0038】一方、サンプリング周期5においては、話
者の口唇の動きが検出されなかった旨の検出結果が入力
されるので、これに応じて、音声符号化処理部410
は、ステップ324の否定判定として、内部的に保持し
た駆動波形を削除し(ステップ326)、その後、ステ
ップ325に進んで無音状態を情報を出力し、このサン
プリング周期の入力音声に関する符号化処理を終了すれ
ばよい。
【0039】したがって、この場合は、図6(f)に示す
ように、サンプリング周期1〜4およびサンプリング周
期6については、音声符号化処理部410における従来
の符号化処理よって得られた駆動波形番号が、雑音に相
当するものも含めてセレクタ205に送出され、サンプ
リング周期5については、雑音に相当する駆動波形番号
に代えて、無音状態を示す情報が送出される。
【0040】このようにして、入力音声に対応する駆動
波形番号と口話画像に対応する駆動波形番号とを求めた
場合は、図5(b)に示すように、ステップ331、33
2において2組の駆動波形番号を一致判定部206(図
2参照)に入力し、この一致判定部206が動作するこ
とにより(ステップ333)、請求項1で述べた比較手
段114の機能を実現し、入力音声と口話画像を認識し
て得られた音声とが一致しているか否かを判定すること
ができる。
【0041】この場合は、入力音声と口話画像を認識し
て得られた音声とを比較する処理を駆動波形番号の比較
処理に置き換えることができるので、一致判定部206
の構成を単純化し、例えば、単に数値を比較する比較器
を用いて構成することができる。ところで、2組の駆動
波形番号が一致した場合には、上述したステップ333
の肯定判定として、一致判定部206は、請求項1で述
べた選択手段115に相当するセレクタ205を介して
入力音声から得られた駆動波形番号を選択的に出力し
(ステップ334)、このサンプリング周期についての
処理を終了すればよい。
【0042】一方、2組の駆動波形番号が不一致である
場合(ステップ333の否定判定)に、一致判定部20
6は、セレクタ205を介して口話画像から得られた駆
動波形番号を選択的に出力し(ステップ335)、この
サンプリング周期についての処理を終了すればよい。例
えば、各サンプリング周期において、図6(b)、(f)に
示した2組の駆動波形番号が入力されると、サンプリン
グ周期1、2においては、一致判定部206により、2
組の駆動波形番号が一致する旨の判定結果が得られるの
で、一致判定部206およびセレクタ205の動作によ
り、入力音声を音声符号化処理部410によって符号化
して得られた符号化結果がそのまま出力される(図6
(g)参照)。
【0043】一方、図6(b)、(f)から分かるように、
サンプリング周期3、4においては、雑音のために話者
が発声した音声がかき消されてしまったために、2組の
駆動波形番号は一致しない。このように、周囲から紛れ
込んだ雑音のために、本来入力されるべき話者の音声が
入力音声として得られなかった場合に、一致判定部20
6およびセレクタ205の動作により、口話画像から得
られた駆動波形番号を符号化結果として選択して出力す
ることにより(図6(g)参照)、話者の口唇の形状から
読み取った音声を示す音声情報によって、入力音声を補
完することが可能となる。
【0044】これにより、周囲の雑音の有無にかかわら
ず、話者が発声した音声を正確に漏れなく入力し、後段
の処理に供することができる。ここで、特に、携帯電話
システムのような音声通信システムでは、受け手側とな
る人間により無意識的な類推処理が行われるので、前後
の音声に基づいて補完した部分の不自然さが緩和される
と期待できる。
【0045】したがって、上述した音声情報入力装置
は、このような音声通信システムにおいて特に有用であ
り、利用者が、周囲の環境に左右されることなく、自由
に音声を入力して送信可能とすることができる。更に、
一致判定部206からの指示に応じてセレクタ203が
動作し、入力音声に代えて、口話音声作成処理部212
の口話音声変換部226によって得られた合成音声を音
声符号化処理部410に入力すれば、上述した駆動波形
番号とともに、口話画像に基づいて得られた認識結果に
対応する声道パラメータを符号化結果として送出するこ
とが可能である。
【0046】
【発明の効果】以上に説明したように、請求項1の発明
によれば、話者の口唇の形状から求めた音声情報によっ
て、入力音声を補完することが可能となるので、周囲の
騒音にかかわらず、話者の音声に対応する音声情報を選
択的かつ漏れなく入力することができる。
【0047】また、請求項2の発明によれば、話者の口
唇の動きの有無に応じて、入力音声情報を選択すること
により、話者の口唇の動きを伴わない無効な雑音音声を
排除することができる。一方、請求項3の発明によれ
ば、音声入力手段において、入力音声の特徴を表すパラ
メータを求めるとともに、口話パターン認識手段におい
て、口話画像に対応する音声の特徴を表すパラメータを
求め、これらのパラメータを一致判定処理に供する構成
とすることにより、比較手段の構成を簡略化することが
できる。
【図面の簡単な説明】
【図1】本発明の原理ブロック図である。
【図2】本発明の音声情報入力装置の実施形態を示す図
である。
【図3】口話テンプレートの例を示す図である。
【図4】口話画像処理動作を表す流れ図である。
【図5】音声符号化処理動作および入力選択処理動作を
表す流れ図である。
【図6】音声情報入力処理動作を表すタイミング図であ
る。
【図7】音声符号化処理部の構成例を示す図である。
【符号の説明】
111 音声入力手段 112 口話画像入力手段 113 口話パターン認識手段 114 比較手段 115 選択手段 116 動き検出手段 121 音声サンプリング手段 122 特徴評価手段 123 テンプレート保持手段 124 パラメータ保持手段 125 探索手段 126 検索手段 201 画像入力部 202 遅延回路 203、205 セレクタ 204 タイミング制御部 206 一致判定部 211 動画像処理部 212 口話音声作成処理部 213 画像サンプリング部 214 パターン抽出部 215 動き検出部 221 口話テンプレートデータベース 222 類似度算出部 223 最適テンプレート検出部 224 波形番号保持部 225 音声データベース 226 口話音声変換部 401 受話部 410 音声符号化処理部 411 駆動波形テーブル 412 駆動波形探索部 413 音声合成部 414 声道パラメータ分析部 415 誤差測定部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 話者が発声した会話音声を含む音声を収
    集し、前記音声を表す音声情報として入力する音声入力
    手段と、 前記話者の口唇に近接して配置され、前記話者が音声を
    発声する際の口唇の形状パターンを表す口話画像を入力
    する口話画像入力手段と、 前記口話画像を受け取り、前記話者の口唇の形状パター
    ンに対応する音声を認識して、前記音声を表す音声情報
    を認識結果として送出する口話パターン認識手段と、 前記音声入力手段によって入力された音声情報と前記口
    話パターン認識手段による認識結果とを比較する比較手
    段と、 前記比較手段による比較結果に応じて、前記音声入力手
    段によって入力された音声情報と前記口話パターン認識
    手段による認識結果とのいずれかを選択し、入力音声情
    報として後段の処理手段に送出する選択手段とを備えた
    ことを特徴とする音声情報入力装置。
  2. 【請求項2】 請求項1に記載の音声情報入力装置にお
    いて、 前記口話画像の入力に応じて、前記話者の口唇の動きを
    検出する動き検出手段を備え、 選択手段は、前記動き検出手段による検出結果と前記比
    較手段による比較結果とに応じて、入力音声情報を選択
    する構成であることを特徴とする音声情報入力装置。
  3. 【請求項3】 請求項1に記載の音声情報入力装置にお
    いて、 音声入力手段は、 話者によって発声された音声を適切なサンプリング周期
    でサンプリングするサンプリング手段と、 前記サンプリング手段によってサンプリングされた音声
    の入力に応じて前記音声の特徴評価処理を行い、前記音
    声の特徴を表すパラメータを音声情報として出力する特
    徴評価手段とを備えた構成であり、 口話パターン認識手段は、 入力が予想される音声それぞれについて、標準的な発音
    がなされる際の口唇の形状パターンを口話テンプレート
    として保持するテンプレート保持手段と、 前記口話テンプレートそれぞれに対応して、該当する音
    声の特徴を表すパラメータを保持するパラメータ保持手
    段と、 入力された口話画像と前記テンプレート保持手段に保持
    された口話テンプレートそれぞれとの類似度を求め、最
    も類似度の高い口話テンプレートを探索する探索手段
    と、 前記探索手段による探索結果に基づいて、前記パラメー
    タ保持手段から該当する口話テンプレートに対応するパ
    ラメータを検索し、口話画像に対応する認識結果として
    出力する検索手段とを備えた構成であることを特徴とす
    る音声情報入力装置。
JP11120944A 1999-04-28 1999-04-28 音声情報入力装置 Withdrawn JP2000311077A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11120944A JP2000311077A (ja) 1999-04-28 1999-04-28 音声情報入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11120944A JP2000311077A (ja) 1999-04-28 1999-04-28 音声情報入力装置

Publications (1)

Publication Number Publication Date
JP2000311077A true JP2000311077A (ja) 2000-11-07

Family

ID=14798844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11120944A Withdrawn JP2000311077A (ja) 1999-04-28 1999-04-28 音声情報入力装置

Country Status (1)

Country Link
JP (1) JP2000311077A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020057046A (ko) * 2000-12-30 2002-07-11 구자홍 무선 단말기의 음성인식 방법
JP2005244394A (ja) * 2004-02-25 2005-09-08 Nec Corp 撮像機能付き携帯電話機
JP2006079456A (ja) * 2004-09-10 2006-03-23 Nippon Signal Co Ltd:The 発話識別方法及びこれを用いたパスワード照合装置
JP2015220684A (ja) * 2014-05-20 2015-12-07 株式会社ニコン 携帯端末装置および読唇処理プログラム
WO2018128014A1 (ja) * 2017-01-06 2018-07-12 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020057046A (ko) * 2000-12-30 2002-07-11 구자홍 무선 단말기의 음성인식 방법
JP2005244394A (ja) * 2004-02-25 2005-09-08 Nec Corp 撮像機能付き携帯電話機
JP2006079456A (ja) * 2004-09-10 2006-03-23 Nippon Signal Co Ltd:The 発話識別方法及びこれを用いたパスワード照合装置
JP4553667B2 (ja) * 2004-09-10 2010-09-29 日本信号株式会社 発話識別方法及びこれを用いたパスワード照合装置
JP2015220684A (ja) * 2014-05-20 2015-12-07 株式会社ニコン 携帯端末装置および読唇処理プログラム
WO2018128014A1 (ja) * 2017-01-06 2018-07-12 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10965815B2 (en) 2017-01-06 2021-03-30 Sony Corporation Information processing apparatus and information processing method
US11503162B2 (en) 2017-01-06 2022-11-15 Sony Corporation Information processing apparatus and information processing method

Similar Documents

Publication Publication Date Title
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
US9430467B2 (en) Mobile speech-to-speech interpretation system
JP4796309B2 (ja) モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
US7801726B2 (en) Apparatus, method and computer program product for speech processing
US8473099B2 (en) Information processing system, method of processing information, and program for processing information
US9711135B2 (en) Electronic devices and methods for compensating for environmental noise in text-to-speech applications
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
CN109074806A (zh) 控制分布式音频输出以实现语音输出
JP2018049143A (ja) 音声取得システムおよび音声取得方法
KR20210114518A (ko) 종단간 음성 변환
CN110149805A (zh) 双向语音翻译系统、双向语音翻译方法和程序
CN108346425A (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
US20030171932A1 (en) Speech recognition
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
KR20190032557A (ko) 음성 기반 통신
JP5988077B2 (ja) 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
CN113228167B (zh) 一种语音控制方法及装置
JP2000311077A (ja) 音声情報入力装置
JP2003241788A (ja) 音声認識装置及び音声認識システム
JP2000206986A (ja) 言語情報検出装置
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
CN112823047A (zh) 用于控制网络应用程序的系统和设备
JP6680125B2 (ja) ロボットおよび音声対話方法
JP2005107384A (ja) 音声認識装置および方法、プログラム並びに記録媒体
JP2006276470A (ja) 音声通話装置および音声通話システム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060704