JPH02109100A

JPH02109100A - 音声入力装置

Info

Publication number: JPH02109100A
Application number: JP63261417A
Authority: JP
Inventors: Hiroshi Tanaka; 宏田中
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1988-10-19
Filing date: 1988-10-19
Publication date: 1990-04-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［概　要〕装置の使用者が発声した音声をＸＥＳＬ、その認２Ｎ結
果を合成音声によって上記使用者に示すよう構成された
音声入力装置に関し、従来の音声入力装置では、使用者の音声が装置で認識さ
れなかワた場合に、使用者にとって、自分の音声が装置
にどのように間こえているかの判断が困難であり、再び
発声してもやはり認識されないということが多かったと
いう問題の解決を目的とし、使用者により発声された入力音声をそのまま保持する手
段と、音声認２結果の尤度を判定する手段とを設け、認
識結果の尤度が低い場合か、または認識できなかった場
合には、合成音声の代わりに使用者の入力音声をそのま
ま出力するか、あるいは認識結果の光度に応じて合成音
質の声質を変えて出力するよう構成する。

［産業上の利用分野］本発明は、装置の使用者が発声した音声を認識し、その
認識結果を合成音声によって上記使用者に示すよう構成
された音声入力装置に関するものである。

［従来の技術］従来から見られる音声入力装置の多くは、入力された音
声の！ｊ２識結果をデイスプレィ画面上に表示していた
。しかしそのような装置では、容易に画面を見る事ので
きない状況では使用が困難であった。

そこで、本発明の従来例として挙げるような、認識結果
を合成音声で示す装置が有用となる。

これにより、音声を入力する際に、必ずしも画面を見る
必要はなくなる。

第１０図は従来技術の音声入力装置について説明する図
を示しており、入力音声は装置内の音声認：Ｊ１邪５１
で認識処理がされ、その認識結果をそのまま音声合成部
５２に入力し、該認２結果をそのまま音声に変換して出
力するように構成されていた。

そのため、認識できない音声が入力された場合には、認
識できｆＪ、い旨を使用者に示すだめの特別ｔＩ音、あ
るいは特定のメツセージを出力していた。

［発明が解決しようとする課８］しかしながら、従来の音声入力＊置では、使用者の音声
が装置で認２されなかった場合に、使用者にとって、自
分の音声がｉｉにどのように聞こえているかの判断が困
難であり、再び発声してもやはりＸＥ、２されないとい
う事が多かっまた、合成音声によって認識結果を示すよ
うな装置では認識結果の得点が示されないため、次に発
声する時に使用者がどの程度注意して発声すべきかが判
断できなかった。

本発明は上記問題点に鑑みなされたものであり、使用者
が発声した音声を、装置がどの程度はっきりと認識した
かを使用者自身に知らせることにより、再発声時の１１
！ａ率の向上を達成する音声入力装置を提供することを
目的とする。

［課題を解決するだめの手段］第１図は本発明の詳細な説明する図を示しており、ｌは
音声認識部、２は音声合成部、４はメモリ等の入力音声
をそのまま保持する手段（以下、単に「メモリ」という
）、５は判定部を表わしている。

入力された音声は、従来通り音声認識部１に渡されて認
識処理されるが、同時にメモリ４にその発声内容が保持
される。音声のｆｊｌ結果は判定部５に渡され、認識結
果の得点が調べられる。

ここで、得点が非常に低いか、あるいは認識不能である
という結果が示されていた場合は、メモリ４に信号を送
って、その保持内容をそのまま出力させる。そうでない
場合は、認識結果を音声合成部２に渡し、合成音声によ
って認識結果を使用者に示す。

以上の説明は特許請求の範囲の請求項１に対応するもの
であり、請求項２〜５に記載の発明については、第１図
の他に第２図を用いて説明される。

第２図は声質の選択が可能な音声合成部の動作について
説明する図を示しており、３は声質選択が可能な音声合
成品の全体、３−１は音声合成部、３−２は複数の声質
の異なる音声データの保持部、３−２−１〜３−２−ｎ
は各声質の音声データ、３−３は各声質の音声データ選
択手段（以下、単に「スイッチｊともいう）を表わして
いる。

すなわち、請求項２〜５に記載の発明については、判定
Ｒ５の指示により、合成音声の声質を適宜選択する手段
を用いて構成する。

そのために、第２図に示したような構成を持った音声合
成品が必要となる。これは、判定Ｓ５の指示がスイッチ
３−３に入力され、それに従って、音声合成に用いる音
声データを変更できるようなものである。各音声データ
の声質はあらかじめ分かっているので、結局請求項２〜
５に記載の発明の差は、判定部５における指示の出し方
による。

すなわち、請求項２記載の発明については、請求項１記
載の発明において、声質の異なる複数種類の合成音声を
選択して出力する音声合成品を設け、合成音声としては
、発声者自身の声と明確に区別し得る声質の合成音声を
出力し、また、請求項３記載の発明については、請求項
２記載の発明において、発声者が男性であるか女性であ
るかを判断する手段を設け、発声者とは異なった性別の
合成音声を出力し、さらに、請求項４記載の発明につい
ては、請求項１記較の発明において、声質の異なる複数
種類の合成音声を選択して出力する音声合成部を設け、
認２結果の尤度に相応して合成音声の声質を選んで出力
し、またさらに、請求項５記載の発明については、請求項４
記載の発明において、発声者が男性であるか女性である
かを判断する手段を設け、認識結果の尤度が所定の基準
以上の場合には、発声者とは異なる性別の合成音声を出
力し、尤度が所定の基準以下の場合には、発声者と同じ
性別の合成音声を出力する音声入力装置である。

［作　用］本発明では、装置使用者が発声した入力音声を音声圧：
Ａ部に入力し、該音声認識部の上皿結果の尤度を判定部
により判断し、その判断結果に応じて、使用者に示される音声を変化さ
せる。

これにより、認識困難・不能の場合には自分自身の声を
返し、それ以外の時には合成音声によるｌＲｍ結果を返
す。また、請求項２〜５に記載の発明については、認識
結果の尤度に応じて合成音声の声質を変化させる。

「実施例コ以下に説明する実施例では、音声認識及び音声合成の実
現の方式については、特に限定しない。音声上２部の機
能は、−発声単位の音声を認通処理し、認識結果である
文字列または辞書項目の番号と、それに対する得点を出
力する事である。また、音声合成品の機能は、入力され
た文字列を音声信号に変換して出力することである。以
上の機能を実現できる方式であれば、どんなものであっ
ても、本発明中の音声！！識品及び音声合成品として用
いる事ができる。

また、音声の認識単位についても、特に限定しない。た
だし、ここでは簡単のために、ＩＩＬ語音原音声定して
説明する。

本発明の実施例について説明する前に、まず音声上２部
および音声合成部の一構成例について説明する。

第３図は音声ｕｔｍ部の一構成例を示す図であり、１−
１は分析部、１−２はマツチング部、１−３は辞書、１
−４はソーティング部、１−５は閾値判別部を表わして
いる。

入力された音声は、まず分析Ｂ１−１で一定時間毎にス
ペクトル分析され、フレームと呼ばれるベクトル値の列
に変換される。これは、例えば、Ａ／Ｄ変挟及びＦＦＴ
分析により実現される。

次にマツチング部１−２で、辞書１−３に記憶されてい
る各標準パターンとのマツチングが行なわれ、入力音声
のスペクトル分析されたパターンと上記各標準パターン
とのＤＰ￥離が求められる。

これは、例えば、端点固定型ＤＰマツチングの手法によ
り寥易に計算できる。

ここで得られた結果は、ソーティング部１−４でソーテ
ィングされ、距離の小さい順に並べられる。

最後に、閾値判別部１−５で、あらかじめ設定された閾
値よりもＤＰ距離の大きいものは削除され、残りが出力
される。

第４図は、音声合６．部の一構成例を示す図であり、２
−１はコントローラ、２−２は音声データ部、２−３は
Ｄ／Ａ変換部を表わしている。

入力信号は音声認識部の認識結果である単語の番号であ
り、まずコントローラ２−１が単語番号を受は取ると、
そのパターンを音声データ部２−２から読み出し、該パ
ターンをＤ／Ａ変換５２−３が受は取り、Ｄ／Ａ変換し
て出力する。

なお、辞書１−３と音声データ部２−２はどちらも音声
データを保持する部分であるが、辞書１−３はスペクト
ル分析されたデータを保有し、音声データ部２−２は音
声を単にＡ／Ｄ変換しただけのデータを保有している。

以上説明した音声認識お及び音声合成部の例は、以下に
説明する各実施例のすべてに共通のものであり（但し、
第２図に示す音声合成品では音声データの選択ができる
）、以下各実施例では音声！！ｌ識部及び音声合成品の
内部には言及しない。

まず、第一の実施例について説明する。

本実施例の全体構成は、第１図の原理構成図に示され、
また音声認識部は第３図に、音声合成部は第４図に示さ
れている。

従って、判定部５の実現方法、及びメモリ４０例につい
て以下に説明する。

第５図に、本発明の第一の実施例における判定部の動作
フローチャートを示しており、このフローチャートは請
求項３記載の発明に直接相当するものであるが、同時に
請求項１，２に記載の発明にも相当するものである。

最初に認識結果がφ（集合論では１空“を意味し、ここ
では認識結果の第１位の候補のＤＰ距離が、予め決めら
れた閾値よりも大きい場合を意味する）であるか否かが
調べられ、φであればメモリ中の入力音声を出力させる
。

φでなかったら、まず入力音声が男性の声か女性の声か
を判断する。入力音声の性別を判断する方法については
、第６図にフローチャートが示しである。

ここでは音声のピッチを求め、その平均を計算する事に
よって得られる声の高さを、性別判定のパラメータとし
て用いている。すなわち、声の高さがある閾値より高け
れば女性の声、低ければ男性の声だと判断する。そして
入力が女性の声であれば、合成音声の声として男性の声
を指示し、入力が男性の声であれば、女性の声を指示す
る。

音声合成部には、第２図に示すようなスイッチング機構
（図中の３−３で示す部分）が設けであるので、指示さ
れた声質のデータを接続する事により、望みの声質の合
成音声が得られる。

次に、本発明の第二の実施例について説明する。

この実施例は請求項２に記載の発明に相当するもののう
ち、請求項３に記載の発明には含まれないものである。

本実施例では、音声認：Ａ邪の認識方式として、一つの
単語に複数のパターンを用いるマルチテンプレート方式
を仮定している。

本実施例では、第３図に示す認識用辞書として、音声合
成に用いる音声データと同じ発声であるものを用いる。

そして、認識結果としては、単語番号及びＤＰ距離の他
に、音声データの番号も出力するものとする。例えば、
声質の異なるｎ種のデータを認識に用い、最小の距離を
第ｍｌのデータで得たとすると、その第ｍ番という番号
も同時に出力する。

判定部には、各音声データ番号毎に、そのデータと最も
異なるデータの番号が記されている。

ここでは、そのデータが記述された表の事を判定表と呼
び、−例を第７図に示す。第８図には、本実施例におけ
る判定部のフローチャートを示す。

該フローチャートに示した動作手順により、ｍ識結果を
示す合成音声の声質は、使用者の声ともっとも異なるも
のが選ばれるようになる。

さらに、本発明の第三の実施例について説明する。

２′）実施例は請求項５に記載の発明１こ相当するもの
であり、これはまた同時に請求項１及び請求項４に記載
の発明にも相当するものである。

基本的な動作は上記２つの実施例と同じであり、入力音
声の声質にしたがって、出力する合成音声の声質を変化
させるものである。異なる部分は判定部のアルゴリズム
である。そのフローチャートを第９図に示す。

本実施例では、まず認識結果がφかどうかを調べ、φで
ない場合、入力音声の性別を判断する。

ここまでは第一の実施例と同じである。その後、入力音
声の認識尤度（得点）を調べ、尤度があらかじめ設定し
た閾値より高ければ、入力音声と異なる性別の合成音声
を選び、低ければ入力音声と同じ性別の合成音声を選ぶ
。

［発明の効果］本発明によると、装置が入力音声を［ｋできなかった場
合に使用者本人の声をそのまま返すため、発声の何処が
悪かったかを使用者が判断しやすく、再発声の時の認識
率が向上する。

また、認議結果を合成音声で示す時に、入力音声と紛ら
れしいような声質の音声が用いられる事を避けるので、
使用者による認識結果の判断がしやすくなる。

更に、認識結果の得点に応じた声質を選ぶ事により、使
用者に上２得点の高さに関する情報を供し、次の発声を
どの程度注意して発声すれば良いかの判断を可能とする
。

従って、音声入力装置の使い勝手、及び認識性能の向上
に役立つ。

【図面の簡単な説明】

第１図は本発明の詳細な説明する図、第２図は音声合成部の声質選択について説明する図、男３図は音声認識部の一構成例を示す図、第４図は音声
合成部の一構成例を示す図、簗５図は本発明の第一の実
施例の判定部の動作フローチャート、第６図は入力音声の性別を判断する動作フローチャート
、第７図は声質データの判定表を示す図、軍８図は本発明
の第二の実施例の判定部の動作フローチャート、第９図は本発明の第三の実施例の判定部の動作フローチ
ャート、第１Ｏ図は従来技術の音声入力装置について説明する図
である。ｌ・・・・・・音声認識部、２・・・・・・音声合成部
、３・・・・・・声質選択が可能な音声合成品の全体、
４・・・・・・メモリ、５・・・・・・判定部、１−１・・・・・・分析能、１−２・・・・・・マツチ
ング部、ｌ−３・・・・・・辞書、ｌ−４，・・・ソー
ティング部、１−５・・・・・・闇値判別部、２−１・・・・・・コントローラ、２−２・・・・・・
音声データ部、２−３・・・・・・Ｄ／Δ変換部、３−
１・・・・・・音声合成品、３−２・・・・・・声質デ
ータ保持部、３−２−１〜３−２−ｎ・・・・・・各声
質の音声データ、３−３・・・・・・スイッチ

Claims

【特許請求の範囲】１、使用者が発声した音声を認識する音声認識部と、該
音声認識部の認識結果を合成音声で出力する音声合成部
とを有し、装置の使用者が発声した音声を認識し、該認
識結果を合成音声で使用者に示すよう構成された音声入
力装置において、該装置中には、使用者により発声された入力音声をそのまま保持する手段と、音声認識部での認識結果の尤度を判定する手段とを設け、音声認識部での認識結果の尤度が所定の基準以下の場合か、または認識できなかった場合には、合成音声の代わりに、使用者により発声された入力音声そのものを出力することを特徴とする音声
入力装置。２、声質の異なる複数種類の合成音声を選択して出力す
る音声合成部を設け、合成音声としては、発声者自身の声と明確に区別し得る声質の合成音声を出力することを特徴とす
る請求項１記載の音声入力装置。３、発声者が男性であるか女性であるかを判断する手段
を設け、発声者とは異なった性別の合成音声を出力することを特徴とする請求項２記載の音声入力装置。４、声質の異なる複数種類の合成音声を選択して出力す
る音声合成部を設け、声質の異なる合成音声を複数種類出力する手段を設け、認識結果の光度に相応して合成音声の声質を選んで出力することを特徴とする請求項１記載の音声
入力装置。５、発声者が男性であるか女性であるかを判断する手段
を設け、認識結果の尤度が所定の基準以上の場合には、発声者とは異なる性別の音声を出力し、尤度が所定
の基準以下の場合には、発声者と同じ性別の音声を出力
することを特徴とする請求項４記載の音声入力装置。