JPH1124695A

JPH1124695A - 音声認識処理装置および音声認識処理方法

Info

Publication number: JPH1124695A
Application number: JP9172123A
Authority: JP
Inventors: Masakazu Hattori; 雅一服部; Yasuhiko Kato; 靖彦加藤; Takashi Toyoda; 崇豊田; Naohiro Yokoo; 直弘横尾
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1997-06-27
Filing date: 1997-06-27
Publication date: 1999-01-29

Abstract

(57)【要約】【課題】音声入力を効率的に行い得るようにする。【解決手段】入力音声を分析部２３で分析して分析デー
タを得る。ＣＰＵ２４は、この分析データとＲＡＭ２５
に記憶されている認識用辞書データとを比較し、所定個
数の認識候補を用意する。ＣＰＵ３１は、この所定個数
の認識候補の情報をＲＡＭ３２に記憶させ、上位候補を
表示や音声でユーザに提示し、１個の認識候補を選択さ
せる。所望の認識候補がなく、ユーザが、アプリケーシ
ョン画面上でタッチペンによりある範囲を指定して認識
対象語を絞り、その後再処理を指示する場合、第１のモ
ードでは、認識対象語を絞る前と同じ分析データと絞っ
た後の認識用辞書データとを比較して所定個数の認識候
補を得、その上位候補を選択対象とし、第２のモードで
は、認識対象語を絞る前の所定個数の認識候補より認識
対象語を絞った結果残った認識候補のうち、上位候補を
選択対象とする。音声入力のやり直しは不要となる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、例えばデータベ
ースより音声入力によって必要な情報を得る際に適用し
て好適な音声認識処理装置および音声認識処理方法に関
する。詳しくは、提示される複数個の認識候補の中に所
望の認識候補がなく、認識対象語を絞った後に再処理を
する際、音声入力のやり直しをせずに保存データを利用
して提示される複数の認識候補を得ることによって、音
声入力を効率的に行い得るようにした音声認識処理装置
および音声認識処理方法に係るものである。

【０００２】

【従来の技術】従来、例えばデータベースより音声入力
によって必要な情報を得るデータベースシステムが提案
されている。例えば、地図情報を有するデータベース
に、地域名を音声で入力し、その地域名に該当する地図
情報を得るものである。また例えば、電話番号情報を有
するデータベースに企業名や個人名を音声で入力し、そ
の企業名や個人名に該当する電話番号情報を得るもので
ある。

【０００３】

【発明が解決しようとする課題】音声認識は認識率が１
００％ではないため、音声認識を利用する上述したデー
タベースシステム等では、誤認識を修正する機能を持っ
ている。例えば、ある音声入力に対して所定個数の認識
候補を提示し、最終的な決定をユーザに任せる方法があ
る。この場合、提示された認識候補に所望の認識候補が
ないとき、音声入力のやり直しをする必要があった。ま
た、認識率を上げるために認識対象語を絞る場合であっ
ても、同様に音声入力のやり直しをする必要があった。

【０００４】そこで、この発明では、音声入力を効率的
に行うことができ、ユーザの使い勝手を向上し得る音声
認識処理装置および音声認識処理方法を提供することを
目的とする。

【０００５】

【課題を解決するための手段】この発明に係る音声認識
処理装置は、入力音声を分析して音声認識処理に必要な
分析データを得る音声分析手段と、分析データを認識対
象語に対応した認識用辞書データと比較し、認識対象語
より所定個数の認識候補を得る音声認識処理手段と、所
定個数の認識候補より１個の認識候補を選択するための
認識候補選択手段と、認識対象語を絞る認識対象絞り手
段とを備える音声認識処理装置であって、認識対象絞り
手段で認識対象語を絞る操作を行った場合、音声認識処
理手段は、認識対象語を絞る前と同じ分析データを使用
して所定個数の認識候補を得るものである。

【０００６】この発明に係る音声認識処理方法は、入力
音声を分析して音声認識処理に必要な分析データを得る
音声分析ステップと、分析データを認識対象語に対応し
た認識用辞書データと比較し、認識対象語より所定個数
の認識候補を得る音声認識処理ステップと、所定個数の
認識候補より１個の認識候補を選択するための認識候補
選択ステップと、認識対象語を絞る認識対象絞りステッ
プとを備える音声認識処理方法であって、認識対象絞り
ステップで認識対象語を絞る操作を行った場合、音声認
識処理ステップでは認識対象語を絞る前と同じ分析デー
タを使用して所定個数の認識候補を得るものである。

【０００７】入力音声が分析されて音声認識処理に必要
な分析データが得られる。例えば、マイクロホンからの
入力音声信号を所定の周波数帯域毎にフィルタリング
し、この各周波数帯域毎のフィルタリング結果から入力
音声信号の各周波数帯域毎の特徴量を得、この各周波数
帯域毎の特徴量をベクトル化することで分析データが得
られる。

【０００８】この分析データと認識対象語に対応した認
識用辞書データとが比較され、分析データにできるだけ
近い辞書データに対応した所定個数の認識対象語が認識
候補とされる。そして、例えば、この所定個数の認識候
補のうち上位から一定個数の認識候補を選択対象として
１個の認識候補が選択される。

【０００９】例えば、選択対象としての認識候補に所望
の認識候補がなく、認識確率を高くするために認識対象
語を絞って再処理を行わせる場合、認識対象語を絞る前
と同じ分析データと絞った後の認識対象語に対応した認
識用辞書データとが比較されて所定個数の認識候補が得
られる。そして、この所定個数の認識候補のうち上位か
ら一定個数の認識候補選択の対象として、再度認識候補
の選択が行われることとなる。

【００１０】このように、認識対象語を絞って再処理を
行わせる場合、認識対象語を絞る前と同じ分析データを
使用して所定個数の認識候補を得るものであり、音声入
力のやり直しをする必要がなくなる。この場合、認識対
象語を絞ったことによって、選択対象となる一定個数の
認識候補が変化し、その一定個数の認識候補に所望の認
識候補が含まれることが期待される。

【００１１】なお、認識候補選択手段は、所定個数の認
識候補のうち上位から一定個数の記載候補を１個ずつ表
示する認識候補表示部と、この認識候補表示部に表示さ
れる認識候補を次候補に変更する認識候補変更手段と、
この認識候補表示部に表示された認識候補を１個の認識
候補として確定する認識候補確定手段とを有してなるも
のであってもよい。

【００１２】また、認識候補選択手段は、所定個数の認
識候補のうち上位から一定個数の認識候補を１個ずつ音
声出力する認識候補音声出力部と、この認識候補音声出
力部より音声出力される認識候補を次候補に変更する認
識候補変更手段と、この認識候補音声出力部より音声出
力された認識候補を１個の認識候補として確定する認識
候補確定手段とを有してなるものであってもよい。

【００１３】この発明に係る音声認識処理装置は、入力
音声を分析して音声認識処理に必要な分析データを得る
音声分析手段と、分析データを認識対象語に対応した認
識用辞書データと比較し、認識対象語より所定個数の認
識候補を得る音声認識処理手段と、所定個数の認識候補
より１個の認識候補を選択するための認識候補選択手段
と、認識対象語を絞る認識対象絞り手段とを備える音声
認識処理装置であって、認識候補選択手段は所定個数の
認識候補のうち上位から一定個数の認識候補を対象とし
て１個の認識候補を選択し、認識対象絞り手段で認識対
象語を絞る操作を行った場合、認識候補選択手段は、所
定個数の認識候補より認識対象語を絞った結果残った認
識候補のうち上位から一定個数の認識候補を対象として
上記１個の認識候補を選択するものである。

【００１４】この発明に係る音声認識処理装置は、入力
音声を分析して音声認識処理に必要な分析データを得る
音声分析ステップと、分析データを認識対象語に対応し
た認識用辞書データと比較し、認識対象語より所定個数
の認識候補を得る音声認識処理ステップと、所定個数の
認識候補より１個の認識候補を選択するための認識候補
選択ステップと、認識対象語を絞る認識対象絞りステッ
プとを備える音声認識処理方法であって、認識候補選択
ステップでは所定個数の認識候補のうち上位から一定個
数の認識候補を対象として１個の認識候補を選択し、認
識対象絞りステップで認識対象語を絞る操作を行った場
合、認識候補選択ステップでは、所定個数の認識候補よ
り認識対象語を絞った結果残った認識候補のうち上位か
ら一定個数の認識候補を対象として１個の認識候補を選
択するものである。

【００１５】入力音声が分析されて音声認識処理に必要
な分析データが得られる。この分析データと認識対象語
に対応した認識用辞書データとが比較され、分析データ
にできるだけ近い辞書データに対応した所定個数の認識
対象語が認識候補とされる。そして、この所定個数の認
識候補のうち上位から一定個数の認識候補を対象として
１個の認識候補が選択される。

【００１６】例えば、所定個数の認識候補に所望の認識
候補がなく、認識確率を高くするために認識対象語を絞
って再処理を行わせる場合、認識対象語を絞る前の所定
個数の認識候補より認識対象語を絞った結果残った認識
候補のうち上位から一定個数の認識候補が選択の対象と
される。

【００１７】このように、認識対象語を絞って再処理を
行わせる場合、認識対象語を絞る前の所定個数の認識候
補より認識対象語を絞った結果残った認識候補のうち上
位から一定個数の認識候補が選択の対象とされるもので
あり、音声入力のやり直しをする必要がなく、また分析
データと認識対象語に対応した認識用辞書データとの比
較による音声認識処理をする必要もなくなる。この場
合、認識対象語を絞った結果残った認識候補の上位候補
に、所望の認識候補が含まれることが期待される。

【００１８】この発明に係る音声認識処理装置は、入力
音声を分析して音声認識処理に必要な分析データを得る
音声分析手段と、分析データを認識対象語に対応した認
識用辞書データと比較し、認識対象語より所定個数の認
識候補を得る音声認識処理手段と、所定個数の認識候補
のうち上位から一定個数の認識候補より１個の認識候補
を選択するための認識候補選択手段と、認識対象語を絞
る認識対象絞り手段とを備える音声認識処理装置であっ
て、認識対象絞り手段で認識対象語を絞る操作を行った
後、第１のモードまたは第２のモードのいずれかを選択
するモード選択手段を有するものである。そして、第１
のモードが選択される場合、認識候補選択手段は所定個
数の認識候補より認識対象語を絞った結果残った認識候
補のうち上位から一定個数の認識候補を対象として１個
の認識候補を選択すると共に、第２のモードが選択され
る場合、音声認識処理手段は認識対象語を絞る前と同じ
分析データを使用して所定個数の認識候補を得るもので
ある。

【００１９】この発明に係る音声認識処理方法は、入力
音声を分析して音声認識処理に必要な分析データを得る
音声分析ステップと、分析データを認識対象語に対応し
た認識用辞書データと比較し、認識対象語より所定個数
の認識候補を得る音声認識処理ステップと、所定個数の
認識候補のうち上位から一定個数の認識候補より１個の
認識候補を選択するための認識候補選択ステップと、認
識対象語を絞る認識対象絞りステップとを備える音声認
識処理方法であって、認識対象絞りステップで認識対象
語を絞る操作を行った後に、第１のモードまたは第２の
モードのいずれかを選択するモード選択ステップをさら
に有するものである。そして、第１のモードが選択され
る場合、認識候補選択ステップで所定個数の認識候補よ
り認識対象語を絞った結果残った認識候補のうち上位か
ら一定個数の認識候補を対象として１個の認識候補を選
択すると共に、第２のモードが選択される場合、音声認
識処理ステップで認識対象語を絞る前と同じ分析データ
を使用して所定個数の認識候補を得るものである。

【００２０】入力音声が分析されて音声認識処理に必要
な分析データが得られる。この分析データと認識対象語
に対応した認識用辞書データとが比較され、分析データ
にできるだけ近い辞書データに対応した所定個数の認識
対象語が認識候補とされる。そして、所定個数の認識候
補のうち上位から一定個数の認識候補を対象として１個
の認識候補が選択される。

【００２１】例えば、所定個数の認識候補に所望の認識
候補がなく、認識確率を高くするために認識対象語を絞
って再処理を行わせる場合を考える。第１のモードが選
択される場合、認識対象語を絞る前の所定個数の認識候
補より認識対象語を絞った結果残った認識候補のうち上
位から一定個数の認識候補が選択の対象とされる。一
方、第２のモードが選択される場合、認識対象語を絞る
前と同じ分析データと絞った後の認識対象語に対応した
認識用辞書データとが比較されて所定個数の認識候補が
得られ、その所定数の認識候補のうち上位から一定個数
の認識候補が選択の対象とされる。

【００２２】このように、第１のモードが選択される場
合、認識対象語を絞る前の所定個数の認識候補より認識
対象語を絞った結果残った認識候補のうち上位から一定
個数の認識候補が選択の対象とされるものであり、音声
入力のやり直しをする必要がなく、また分析データと認
識対象語に対応した認識用辞書データとの比較による音
声認識処理をする必要もなくなる。この場合、認識対象
語を絞った結果残った認識候補の上位候補に、所望の認
識候補が含まれることが期待される。

【００２３】一方、第２のモードが選択される場合、認
識対象語を絞って再処理を行わせる場合、認識対象語を
絞る前と同じ分析データを使用して所定個数の認識候補
を得るものであり、音声入力のやり直しをする必要がな
くなる。この場合、認識対象語を絞ったことによって、
選択の対象となる一定個数の認識候補が変化し、その一
定個数の認識候補に所望の認識候補が含まれることが期
待される。

【００２４】

【発明の実施の形態】以下、図面を参照しながら、この
発明の実施の形態について説明する。図１は、この発明
の実施の形態としての音声入力機能を備えたデータベー
スシステム１０の外観を示している。

【００２５】このシステム１０は、音声を入力するため
のマイクロホン１１と、合成音声信号による音声を出力
するためのスピーカ１２と、液晶表示素子等で構成さ
れ、アプリケーションプログラムのＧＵＩ（Graphical
User Interface）を表示するためのアプリケーション画
面表示部１３と、この画面表示部１３に表示されるアプ
リケーション画面内のメニューを選択したりするための
選択キー１４と、選択した内容を確定するため等に使用
する決定キー１５、アプリケーション画面内のメニュー
の選択をやり直したり、後述する認識候補表示部に表示
される認識候補を次候補に変更するため等に使用するキ
ャンセルキー１６を有している。

【００２６】また、システム１０は、液晶表示素子等で
構成され、各項目毎に音声認識処理によって得られる認
識候補を順に１個ずつ表示する認識候補表示部１７ａ〜
１７ｅを有している。本実施の形態では、５個の認識候
補表示部１７ａ〜１７ｅを持っているため、最大５項目
の認識候補が同時に表示される。図示せずも、アプリケ
ーション画面表示部１３および認識候補表示部１７ａ〜
１７ｅの表面にはタッチパネルが配されている。タッチ
ペン１８によって、認識候補表示部１７ａ〜１７ｅより
いずれかの項目を選択できる。

【００２７】また、アプリケーション画面上で、タッチ
ペン１８により、メニューを選択できる。例えば、図１
に示すようなアプリケーション画面が表示されている場
合には、「電話番号」、「地図」、「英和」よりいずれ
かを選択できる。なお、「地図」が選択された場合に
は、アプリケーション画面表示部１３には、例えば図２
に示すように日本全域の地図が表示される。

【００２８】また、アプリケーション画面上で、タッチ
ペン１８によりある範囲を指定することで、音声認識の
対象、すなわち認識対象語を絞ることができる。例え
ば、メニュで「地図」が選択され、図２に示すようにア
プリケーション画面表示部１３に日本全域の地図が表示
されている場合には、日本全域の都市名が認識対象語と
なっているが、タッチペン１８である地域が指定される
と、その指定された地域内の都市名のみが認識対象語と
なる。

【００２９】図１に示すデータベースシステム１０を使
用する場合、まず選択キー１４またはタッチペン１８で
メニューを選択する。そして、メニューが選択された状
態で、ユーザはマイクロホン１１に向かってしゃべって
音声入力をする。最初は、認識対象語は画面表示部１３
に表示されているアプリケーション画面に関連する全て
の語である。例えば、上述したようにメニューより「地
図」が選択され、画面表示部１３に日本全域が表示され
ている場合には、日本全域の都市名が認識対象語となっ
ている。

【００３０】音声入力があると、システム内部で音声認
識処理が起動し、終了したところで、その結果である認
識候補を出力する。図示せずも、画面表示部１３に表示
されているアプリケーション画面上で、選択キー１４ま
たはタッチペン１８を使用して、音声出力モードまたは
表示出力モードが選択される。

【００３１】音声認識は一般に誤認識を伴うため、認識
の結果として所定個数の認識候補が用意される。そし
て、ユーザによって所定個数の認識候補のうち一定個数
の上位候補より１個の認識候補が選択される。例えば、
音声認識処理によって５０個の認識候補が決定され、上
位候補としての５個の認識候補が選択対象とされる。

【００３２】表示出力モードが選択されている場合につ
いて説明する。この場合、上述した選択対象としての認
識候補のうち最上位のものが認識１位候補として認識候
補表示部１７ａに表示される。表示出力モードが選択さ
れている場合、ユーザはさらに４項目の音声入力を行う
ことができ、各項目における選択対象としての認識候補
のうち最上位のものが認識１位候補として認識候補表示
部１７ｂ〜１７ｅにそれぞれ表示される。なお、その後
にユーザがさらに音声入力を行った場合には、古いもの
から順次更新されていく。ユーザは、選択キー１４ｄや
タッチペン８を使用して、認識候補表示部１７ａ〜１７
ｅのいずれかを選択することで項目を選択し、その後に
選択操作をする。

【００３３】例えば、認識候補表示部１７ａが選択され
た場合を例にとって選択操作を説明する。選択キー１４
ｃを押す毎に、認識候補表示部１７ａには順次次候補が
表示され、選択対象としての認識候補の最下位候補まで
表示された次には最上位候補が表示された最初の状態に
戻る。認識候補表示部１７ａに所望の認識候補が表示さ
れている状態で決定キー１５を押すことで、１個の認識
候補の選択が確定する。このように認識候補が確定した
状態で、再度決定キー１５を押すことで、画面表示部１
３には、その認識候補に対応した情報が表示される。例
えば、メニューより「地図」が選択されているときは、
確定した１個の認識候補に対応した都市名の地図が画面
表示部１３に表示されることとなる。なお、画面表示部
１３には認識候補に対応した情報が表示されている状態
で、例えばキャンセルキー１６を押すことで、前の画面
に戻り、他の項目に関しての選択操作等を行うことが可
能となる。そして、さらに例えばキャンセルキー１５を
押すことで、画面表示部１３は最初のメニュー画面に戻
る。

【００３４】次に、音声出力モードが選択されている場
合について説明する。この場合、まず、上述した選択対
象としての認識候補のうち最上位のものが認識１位候補
としてスピーカ１２より音声で出力される。この認識候
補が所望の認識候補でないとき、ユーザがキャンセルキ
ー１６を押すことで、スピーカ１２より次候補が音声で
出力される。以下同様に、キャンセルキー１６を押す毎
にスピーカ１２より次候補が音声で出力され、選択対象
としての認識候補の最下位候補まで音声出力された次に
は最上位候補が出力されて最初の状態に戻る。所望の認
識候補がスピーカ１２より音声で出力された後に決定キ
ー１５を押すことで、１個の認識候補の選択が確定す
る。このように認識候補が確定すると、画面表示部１３
には、その認識候補に対応した情報が表示される。な
お、この音声出力モードが選択されている場合であって
も、画面表示部１３に情報が表示された状態からキャン
セルキー１６を押すことで前の画面に戻すことができ
る。

【００３５】ところで、表示出力モードの場合であって
も音声出力モードの場合であっても、選択対象としての
認識候補に所望の認識候補がなかった場合、単純には、
ユーザがマイクロホン１１に向かって言い直すという方
法がとられるが、ユーザの声の特性により音声認識しに
くい場合には、何度しゃべっても所望の音声認識結果は
得られない。

【００３６】音声認識の精度が悪い場合、認識対象語を
減らせば認識率が上がるので、認識対象語を画面表示部
１３に表示されているアプリケーション画面に関連する
全ての語から、その一部の語に絞って、もう一度しゃべ
るという方法もとることができる。この場合は、タッチ
ペン１８でアプリケーション画面上のある範囲を指定し
てからもう一度マイクロホン１１に向かってしゃべれば
よい。

【００３７】しかし、いずれの方法の場合も、誤認識に
対して音声入力をやり直すものであり、ユーザに負担が
かかると共に、音声認識処理を最初からやり直すことに
なるので、システムにとっての負担も大きい。また、誤
認識を避けるために、しゃべる前に毎回、タッチペン１
８でアプリケーション画面上の範囲を指定するのも面倒
である。

【００３８】そこで、本実施の形態では、タッチペン１
８でアプリケーション画面上のある範囲を指定して認識
対象語を絞った後に、選択キー１４ａまたは１４ｂを押
して選択対象の再出力を指示した場合、以下のように動
作する。

【００３９】選択キー１４ａを押した場合、第１のモー
ドが選択される。この場合、システム内部で音声認識処
理は起動せず、認識対象語を絞る前に音声認識処理で用
意された所定数の認識候補より認識対象語を絞った結果
残った認識候補のうち上位から一定個数の認識候補が選
択対象とされる。そして、上述したと同様に、ユーザ
は、この選択対象から１個の認識候補を選択する操作を
することになる。この場合、認識対象語を絞る前の所定
個数の認識候補より認識対象語を絞った結果残った認識
候補の上位候補を選択対象とするものであり、この選択
対象に所望の認識候補が含まれることが期待される。

【００４０】一方、選択キー１４ｂを押した場合、第２
のモードが選択される。この場合、システム内部で音声
認識処理が起動するが、この音声認識処理では認識対象
語を絞る前と同じ音声入力の分析データと認識対象語に
対応した認識用辞書データとを比較して所定数の認識候
補を用意する。そして、上述したと同様に、ユーザは、
その所定数の認識候補のうち上位から一定個数の認識候
補を対象として１個の認識候補を選択する操作をするこ
とになる。この場合、音声入力のやり直しをせずに、認
識対象語を絞る前の分析データを使用して音声認識処理
をするものであるが、認識対象語を絞っているので、用
意された所定数の認識候補に所望の認識候補が含まれる
ことが期待される。

【００４１】図３は、図１に示すデータベースシステム
１０の回路構成を示している。このデータベースシステ
ム１０は、ユーザが音声を入力するためのマイクロホン
１１と、このマイクロホン１１からの入力音声信号をデ
ィジタル信号に変換するＡ／Ｄコンバータ２２と、この
Ａ／Ｄコンバータ２２の出力信号を分析して音声認識処
理に必要な分析データを得るためのデータ分析部２３と
を有している。データ分析部２３では、例えば、マイク
ロホン１１からの入力音声信号を所定の周波数帯域毎に
フィルタリングし、この各周波数帯域毎のフィルタリン
グ結果から入力音声信号の各周波数帯域毎の特徴量を
得、この各周波数帯域毎の特徴量をベクトル化すること
で分析データが得られる。

【００４２】また、データベースシステム１０は、デー
タ分析部２３より出力される分析データを使用して音声
認識処理をするためのＣＰＵ（central processing uni
t）２４、データを一時的に格納しておくためのＲＡＭ
（random access memory）２５と、音声認識処理に必要
な音声学習データが記憶されているＲＯＭ（read only
memory）２６とを有している。ＲＡＭ２５およびＲＯＭ
２６は、ＣＰＵ２４に接続されている。

【００４３】また、データベースシステム１０は、選択
キー１４、決定キー１５、キャンセルキー１６が配され
たキー操作部２７と、このキー操作部２７からのキー入
力を検出するためのキー入力検出部２８と、アプリケー
ション画面表示部１３および認識候補表示部１７ａ〜１
７ｅの表面に配されたタッチパネル２９と、このタッチ
パネル２９からのパネル入力を検出するためのパネル入
力検出部３０とを有している。

【００４４】また、データベースシステム１０は、キー
入力検出部２８およびパネル入力検出部３０の検出出力
に基づいて、アプリケーションプログラムや、後述する
ように複数の認識候補より１個の認識候補をユーザに選
択してもらうためのインタフェースプログラムを実行す
るＣＰＵ３１と、データを一時的に格納しておくための
ＲＡＭ３２と、アプリケーションプログラムやインタフ
ェースプログラムが記憶されているＲＯＭ３３とを有し
ている。ＲＡＭ３２およびＲＯＭ３３は、ＣＰＵ３１に
接続されている。キー入力検出部２８よりＣＰＵ３１に
供給される検出出力は、キー操作部２７に配されている
各キーが押されているか否かの情報を持っている。ま
た、パネル入力検出部３０よりＣＰＵ３１に供給される
検出出力は、タッチパネル２９が押されたとき、その位
置座標の情報をもっている。

【００４５】また、データベースシステム１０は、アプ
リケーション画面表示部１３および認識候補表示部１７
ａ〜１７ｅを構成する表示パネル３４と、この表示パネ
ル３４を駆動する表示回路３５と、音声出力を行うため
のスピーカ１２と、このスピーカ１２に供給される音声
信号を合成して出力するための音声合成回路３７とを有
している。この場合、ＣＰＵ３１より表示すべき文字、
記号、図形等の情報が表示回路３５に供給され、この表
示回路３５よりその情報が変換された駆動信号が表示パ
ネル３４に供給される。一方、ＣＰＵ３１より音声出力
すべきテキスト情報が音声合成回路３７に供給され、こ
の音声合成回路３７よりそのテキスト情報が変換された
音声信号がスピーカ１２に供給される。

【００４６】次に、図３に示すデータベースシステム１
０の動作を説明する。

【００４７】ユーザがマイクロホン１１に向かってしゃ
べることによって音声を入力すると、マイクロホン１１
よりその音声に対応した入力音声信号が得られ、この入
力音声信号はＡ／Ｄコンバータ２２でディジタル信号に
変換されてデータ分析部２３に供給される。データ分析
部２３では入力音声信号の分析が行われて音声認識処理
に必要な分析データが得られ、この分析データはＣＰＵ
２４に供給される。そして、ＣＰＵ２４は、その分析デ
ータをＲＡＭ２５に記憶させ、後述する音声認識処理に
使用する。

【００４８】また、ＣＰＵ２４には、ＣＰＵ３１より認
識対象語を特定するテキスト辞書情報が供給される。こ
こで、認識対象語は、選択キー１４によって選択された
メニューによって異なると共に、各メニューのアプリケ
ーション画面上でタッチペン１８によって範囲指定され
ることで絞られる。ＣＰＵ２４は、上述したテキスト辞
書情報に基づき、ＲＯＭ２６に記憶されている音声学習
データを用いて認識対象語に対応した認識用辞書データ
を生成してＲＡＭ２５に記憶させる。

【００４９】ＣＰＵ２４は、ＲＡＭ２５に記憶されてい
る認識対象語に対応した認識用辞書データを分析データ
と比較し、所定個数の認識候補を決定する。この場合、
ＣＰＵ２４は、分析データにできるだけ近い認識用辞書
データに対応した所定個数の認識対象語を認識候補とす
る。そして、ＣＰＵ２４よりＣＰＵ３１に、その所定個
数の認識候補の情報が送られる。

【００５０】ＣＰＵ３１は、ＣＰＵ２４より上述したよ
うに所定個数の認識候補の情報が供給されるとき、その
情報をＲＡＭ３２に記憶させ、認識候補をユーザに示し
て選択してもらうためのインタフェースプログラムの実
行を開始する。この場合、上述した所定個数の認識候補
のうち上位から一定個数の認識候補のみが選択対象とな
る。

【００５１】上述したように、表示出力モードが選択さ
れている場合、ユーザはマイクロホン１１より複数項目
の音声を連続的に入力でき、各項目の音声入力信号に対
してＣＰＵ２４は上述したように所定個数の認識候補を
決定し、その情報をＣＰＵ３１に供給する。そして、Ｃ
ＰＵ３１は、各項目の所定個数の認識候補の情報をＲＡ
Ｍ３２に記憶させ、同様に各項目毎に認識候補をユーザ
に示して選択してもらうためのインタフェースプログラ
ムの実行を開始する。

【００５２】表示出力モードが選択されている場合の選
択動作を説明する。最初に、各項目における選択対象と
しての認識候補のうち最上位のものを認識１位候補とし
て認識候補表示部１７ａ〜１７ｅにそれぞれ表示するよ
うに表示回路３５を制御する。この場合、選択操作をす
べき項目は、最後の音声入力に係る項目に自動的に移っ
ているが、ユーザによって選択キー１４ｄが押される毎
に、ＣＰＵ３１は選択操作をすべき項目を移動させてい
く。また、タッチペン１８で認識候補表示部１７ａ〜１
７ｅのいずれかが押されるとき、ＣＰＵ３１は押された
認識候補表示部に対応する項目を選択操作すべき項目と
する。

【００５３】例えば、認識候補表示部１７ａに対応する
項目が選択された場合を例にとって説明する。選択キー
１４ｃが押される毎に、ＣＰＵ３１は認識候補表示部１
７ａに次候補を表示するように表示回路３５を制御し、
選択対象としての認識候補の最下位候補まで表示した次
には最上位候補を表示する最初の状態に戻るようにす
る。認識候補表示部１７ａに所望の認識候補が表示され
ている状態で決定キー１５が押されるとき、ＣＰＵ３１
はそのとき認識候補表示部１７ａに表示されている認識
候補を１個の認識候補として確定する。

【００５４】このように認識候補が確定した状態で、再
度決定キー１５が押されると、ＣＰＵ３１は、アプリケ
ーション画面表示部１３にその認識候補に対応した情報
を表示するように表示回路３５を制御する。例えば、メ
ニューより「地図」が選択されているときは、確定した
１個の認識候補に対応した都市名の地図が画面表示部１
３に表示されることとなる。

【００５５】なお、画面表示部１３に認識候補に対応し
た情報を表示している状態で、キャンセルキー１６が押
されると、ＣＰＵ３１は画面表示部１３に前の画面を表
示するように表示回路３５を制御する。これにより、ユ
ーザは、他の項目に関しての選択操作等を行うことが可
能となる。そして、さらにキャンセルキー１６が押され
ると、画面表示部１３に最初のメニュー画面を表示する
ように表示回路３５を制御する。

【００５６】次に、音声出力モードが選択されている場
合の選択動作について説明する。最初に、ＣＰＵ３１
は、選択対象としての認識候補のうち最上位候補に係る
音声信号が出力されるように音声合成回路３７を制御
し、スピーカ１２よりその最上位候補に対応した音声を
出力させる。その後、キャンセルキー１６が押される
と、ＣＰＵ３１は音声合成回路３７を制御し、スピーカ
１２より次候補に対応した音声を出力させる。以下同様
に、キャンセルキー１６が押される毎に、スピーカ１２
より次候補に対応した音声を出力させ、選択対象として
の認識候補の最下位候補に対応した音声を出力させた次
には最上位候補に対応した音声を出力させる最初の状態
に戻るようにする。

【００５７】また、スピーカ１２より所定の認識候補に
対応する音声を出力させた後に、決定キー１５が押され
ると、ＣＰＵ３１は、その所定の認識候補を１個の認識
候補として確定する。このように認識候補が確定した
後、ＣＰＵ３１は、アプリケーション画面表示部１３に
その認識候補に対応した情報を表示するように表示回路
３５を制御する。

【００５８】なお、画面表示部１３に認識候補に対応し
た情報を表示している状態で、キャンセルキー１６が押
されると、ＣＰＵ３１は画面表示部１３に前の画面を表
示するように表示回路３５を制御する。これにより、ユ
ーザは、次の項目の音声入力を行うことが可能となる。
そして、さらにキャンセルキー１６が押されると、それ
がキー入力検出部２８で検出され、画面表示部１３に最
初のメニュー画面を表示するように表示回路３５を制御
する。

【００５９】また、表示出力モードの場合であっても音
声出力モードの場合であっても、選択対象としての認識
候補に所望の認識候補がなく、ユーザがタッチペン１８
でアプリケーション画面上のある範囲を指定して認識対
象語を絞った後に、認識候補の再処理を指示する場合に
ついて説明する。

【００６０】アプリケーション画面上でタッチペン１８
によって範囲が指定される場合、それがパネル入力検出
部３０で検出され、その範囲情報がＣＰＵ３１に供給さ
れる。ＣＰＵ３１は、この範囲情報に対応したテキスト
辞書情報をＣＰＵ２４に供給する。ＣＰＵ２４は、その
テキスト辞書情報に基づき、ＲＯＭ２６に記憶されてい
る音声学習データを使用して、範囲指定によって絞られ
た認識対象語に対応した辞書データを生成してＲＡＭ２
５に記憶させる。

【００６１】この状態で、選択キー１４ａが押され、再
処理（第１のモード）が指示されると、それがキー入力
部２８で検出される。ＣＰＵ３１は、ＲＡＭ３２に記憶
されている所定個数の認識候補より認識対象語を絞った
結果残る認識候補のうち上位から一定個数の候補をユー
ザに示して選択してもらう、上述したインタフェースプ
ログラムの実行を開始する。

【００６２】一方、選択キー１４ｂが押され、再処理
（第２のモード）が指示されると、それがキー入力部２
８で検出され、ＣＰＵ３１は、ＣＰＵ２４に、再度音声
認識処理をして、所定個数の認識候補を決定するように
指示する。これに対して、ＣＰＵ２４は、ＲＡＭ２５に
記憶されている範囲指定で絞られた後の認識対象語に対
応した辞書データを、ＲＡＭ２５に記憶されている認識
対象語を絞る前と同じ入力音声の分析データと比較し、
所定個数の認識候補を決定する。この所定個数の認識候
補の情報は、ＣＰＵ２４よりＣＰＵ３１に送られる。Ｃ
ＰＵ３１は、その所定個数の認識候補の情報をＲＡＭ３
２に記憶させ、所定個数の認識候補のうち上位から一定
個数の認識候補をユーザに示して選択してもらう、上述
したインタフェースプログラムの実行を開始する。

【００６３】以下、同様に、アプリケーション画面上で
タッチペン１８により範囲が指定され、その後に選択キ
ー１４ａまたは１４ｂが押されて再処理が指示される毎
に、上述した同様に、第１モードあるいは第２のモード
の動作をすることとなる。

【００６４】図４は、上述したデータベースシステム１
０の処理の流れを示すオブジェクト相関図である。

【００６５】音声入力処理オブジェクト４１は、マイク
ロホン１１から音声の入力があると、それをサンプリン
グ、Ａ／Ｄ変換し、分析処理オブジェクト４２に対して
Message１を送る。分析処理オブジェクト４２は、Messa
ge１を受けると起動され、音声入力処理オブジェクト４
１のＡ／Ｄ変換データを、音声認識オブジェクト４３で
使用できるように分析してデータ変換する。分析処理オ
ブジェクト４２は、処理が終わると、音声認識オブジェ
クト４３にMessage２を送る。

【００６６】音声認識オブジェクト４３は、Message２
を受けると起動され、分析処理オブジェクト４２で生成
された分析データと認識用辞書オブジェクト４９で生成
された辞書データを比較して認識処理を行い、認識結果
として複数の認識候補を用意する。音声認識オブジェク
ト４３は、処理が終わると、その結果を添えてMessage
３を候補出力オブジェクト４４に送る。なお、ここで使
用した分析データは後で再び必要になる場合があるの
で、ＲＡＭ２５に保存しておく。

【００６７】候補出力オブジェクト４４はMessage３を
受けると起動され、音声認識オブジェクト４３から送ら
れてきた認識候補のデータをＲＡＭ３２に保存すると共
に、認識候補表示部１７ａ〜１７ｅに表示し、あるいは
スピーカ１２から音声出力し、その後のユーザのリアク
ションを待つ。

【００６８】ユーザ選択オブジェクト４５は、候補出力
オブジェクト４４が起動しているときに、ユーザが選択
キー１４ａ，１４ｃ，１４ｄ、決定キー１５、キャンセ
ルキー１６を押すか、認識候補表示部１７ａ〜１７ｅの
項目をタッチペン１８で触るかした場合、そのアクショ
ンの情報を添えて、候補出力オブジェクト４４にMessag
e４を送る。

【００６９】また、ユーザ選択オブジェクト４５は、ユ
ーザが選択キー１４ｂを押した時は、音声認識オブジェ
クト４３にMessage１０を送り、それを受けた音声認識
オフジェクト４３は、今ＲＡＭ２５にある分析処理オブ
ジェクト４２と認識用辞書オブジェクト４９の結果を使
って、認識処理を再実行する。

【００７０】Message４を受けた候補出力オブジェクト
４４は、決定キー１５が押されたことを知らされたら、
その時点の認識１位候補を添えて、Message５をアプリ
ケーションプログラムのデータ入力オブジェクト４６に
送ると共に、自身の処理を終了する。キャンセルキー１
６が押されたことを知らされたら、認識候補表示部１７
ａ〜１７ｅに認識候補を表示していた場合は、そのまま
自身の処理を終了し、認識候補を音声出力していた場合
は、次の候補を１位候補として音声出力する。

【００７１】また、選択キー１４ａが押されたことを知
らされたら、今ＲＡＭ３２にある認識候補のうち、テキ
スト辞書オブジェクト４８で生成されたテキスト辞書デ
ータに合まれるものだけを抽出して、再出力する。その
他の場合は、ユーザからの認識１位候補の変更要求なの
で、１位候補を対応するものに変更する。

【００７２】フォーカス処理オブジェクト４７は、ユー
ザがアプリケーション画面をタッチペン１８で触った位
置情報を計算し、それを添えてMessage６をテキスト辞
書オブジェクト４８に送る。テキスト辞書オブジェクト
４８は、Message６を受けると、その時点のアプリケー
ション画面内でユーザの指定した部分に関連する語だけ
を含むテキスト辞書を再構築し、そのデータをＲＡＭ３
２に保存する。テキスト辞書が変わると、テキスト辞書
オブジェクト４８は、候補出力オブジェクト４４にはMe
ssage７を送り、認識用辞書オブジェクト４９には再構
築したテキスト辞書の情報を添えてMessage８を送る。

【００７３】なお、テキスト辞書オブジェクト４８でテ
キスト辞書を変更するのはMessage６を受けたときだけ
なく、その時々のアプリケーションプログラムの実行状
態によっても変更処理を行う。

【００７４】認識用辞書オブジェクト４９は、Message
８を受けると起動し、アプリケーションのテキスト辞書
の変更に合わせて、認識用辞書を再構築する。処理終了
時には、音声認識オブジェクト４３にMessage９を送っ
て、認識用辞書が変わったことを知らせる。

【００７５】図５は、上述した図４に示すオブジェクト
相関図における各オブジェクトのアクション等をまとめ
て示したものである。

【００７６】以上説明したように本実施の形態において
は、認識効率を上げるためにアプリケーション画面上で
タッチペン１８により範囲を指定して認識対象語を絞っ
た後は、選択キー１４ａまたは１４ｂを押して再処理を
指示するのみで、ユーザーの選択対象となる認識候補が
新たに得られる状態となる。したがって、音声入力のや
り直しをする必要がなく、音声入力を効率的に行うこと
ができ、ユーザの使い勝手が向上するという利益があ
る。

【００７７】なお、上述実施の形態においては、アプリ
ケーション画面表示部１３の上にタッチパネルが配さ
れ、音声認識の認識対象の絞り込み操作として、アプリ
ケーション画面上のある範囲をタッチペン１８で指定す
るという方法をとったが、代わりにマウスやトラックボ
ールなどのポインティングデバイスを使用したり、キー
の操作性を工夫するなどして、タッチパネル無しでも、
別の手段で範囲指定を行うことが可能である。

【００７８】

【発明の効果】この発明によれば、提示される複数個の
認識候補の中に所望の認識候補がなく、認識対象語を絞
った後に再処理をする際、音声入力のやり直しをせずに
保存データを利用して提示される複数の認識候補を得る
ものであり、音声入力を効率的に行うことができ、ユー
ザーの使い勝手が向上するという利益がある。

【００７９】また、認識対象語を絞って再処理を行わせ
る場合、認識対象語を絞る前と同じ分析データを使用し
て所定個数の認識候補を得るようにすることで、認識対
象語を絞ったことにより選択対象としての一定個数の認
識候補が変化し、その一定個数の認識候補に所望の認識
候補が含まれることを期待できる。

【００８０】また、認識対象語を絞って再処理を行わせ
る場合、認識対象語を絞る前の所定個数の認識候補より
認識対象語を絞った結果残った認識候補のうち一定個数
の上位候補を選択対象とすることで、その選択対象に所
望の認識候補が含まれることを期待でき、しかも音声認
識処理をしないためシステムの負担を軽減できる。

【図面の簡単な説明】

【図１】実施の形態としてのデータベースシステムの外
観を示す図である。

【図２】メニューで「地図」が選択された場合のアプリ
ケーション画面表示部の表示例を示す図である。

【図３】実施の形態としてのデータベースシステムの回
路構成を示すブロック図である。

【図４】実施の形態としてのデータベースシステムの処
理の流れを示すオブジェクト相関図である。

【図５】図４に示すオブジェクト相関図おける各オブジ
ェクトのアクション等をまとめて示した図である。

【符号の説明】

１０・・・データベースシステム、１１・・・マイクロ
ホン、１２・・・スピーカ、１３・・・アプリケーショ
ン画面表示部、１４（１４ａ〜１４ｃ）・・・選択キ
ー、１５・・・決定キー、１６・・・キャンセルキー、
１７ａ〜１７ｅ・・・認識候補表示部、１８・・・タッ
チペン、２２・・・Ａ／Ｄコンバータ、２３・・・デー
タ分析部、２４，３１・・・ＣＰＵ，２５，３２・・・
ＲＡＭ、２６，３３・・・ＲＯＭ、２７・・・キー操作
部、２８・・・キー入力検出部、２９・・・タッチパネ
ル、３０・・・パネル入力検出部、３４・・・表示パネ
ル、３５・・・表示回路、３７・・・音声合成回路、４
１・・・音声入力処理オブジェクト、４２・・・分析処
理オブジェクト、４３・・・音声認識オブジェクト、４
４・・・候補出力オブジェクト、４５・・・ユーザ選択
オブジェクト、４６・・・データ入力オブジェクト、４
７・・・フォーカス処理オブジェクト、４８・・・テキ
スト辞書オブジェクト、４９・・・認識用辞書オブジェ
クト

フロントページの続き (72)発明者横尾直弘東京都品川区北品川６丁目７番35号ソニー株式会社内

Claims

【特許請求の範囲】

【請求項１】入力音声を分析して音声認識処理に必要
な分析データを得る音声分析手段と、上記分析データを認識対象語に対応した認識用辞書デー
タと比較し、上記認識対象語より所定個数の認識候補を
得る音声認識処理手段と、上記所定個数の認識候補より１個の認識候補を選択する
ための認識候補選択手段と、上記認識対象語を絞る認識対象絞り手段とを備える音声
認識処理装置であって、上記認識対象絞り手段で上記認識対象語を絞る操作を行
った場合、上記音声認識処理手段は、上記認識対象語を
絞る前と同じ上記分析データを使用して上記所定個数の
認識候補を得ることを特徴とする音声認識処理装置。
【請求項２】上記認識候補選択手段は、上記所定個数の認識候補のうち上位から一定個数の認識
候補を１個ずつ表示する認識候補表示部と、上記認識候補表示部に表示される認識候補を次候補に変
更する認識候補変更手段と、上記認識候補表示部に表示された認識候補を上記１個の
認識候補として確定する認識候補確定手段とを有してな
る請求項１に記載の音声認識処理装置。
【請求項３】上記認識候補選択手段は、上記所定個数の認識候補のうち上位から一定個数の認識
候補を１個ずつ音声出力する認識候補音声出力部と、上記認識候補音声出力部より音声出力される認識候補を
次候補に変更する認識候補変更手段と、上記認識候補音声出力部より音声出力された認識候補を
上記１個の認識候補として確定する認識候補確定手段と
を有してなる請求項１に記載の音声認識処理装置。
【請求項４】入力音声を分析して音声認識処理に必要
な分析データを得る音声分析ステップと、上記分析データを認識対象語に対応した認識用辞書デー
タと比較し、上記認識対象語より所定個数の認識候補を
得る音声認識処理ステップと、上記所定個数の認識候補より１個の認識候補を選択する
ための認識候補選択ステップと、上記認識対象語を絞る認識対象絞りステップとを備える
音声認識処理方法であって、上記認識対象絞りステップで上記認識対象語を絞る操作
を行った場合、上記音声認識処理ステップでは、上記認
識対象語を絞る前と同じ上記分析データを使用して上記
所定個数の認識候補を得ることを特徴とする音声認識処
理方法。
【請求項５】入力音声を分析して音声認識処理に必要
な分析データを得る音声分析手段と、上記分析データを認識対象語に対応した認識用辞書デー
タと比較し、上記認識対象語より所定個数の認識候補を
得る音声認識処理手段と、上記所定個数の認識候補より１個の認識候補を選択する
ための認識候補選択手段と、上記認識対象語を絞る認識対象絞り手段とを備える音声
認識処理装置であって、上記認識候補選択手段は上記所定個数の認識候補のうち
上位から一定個数の認識候補を対象として１個の認識候
補を選択し、上記認識対象絞り手段で上記認識対象語を絞る操作を行
った場合、上記認識候補選択手段は、上記所定個数の認
識候補より上記認識対象語を絞った結果残った認識候補
のうち上位から一定個数の認識候補を対象として上記１
個の認識候補を選択することを特徴とする音声認識処理
装置。
【請求項６】上記認識候補選択手段は、上記一定個数の認識候補を１個ずつ表示する認識候補表
示部と、上記認識候補表示部に表示される認識候補を次候補に変
更する認識候補変更手段と、上記認識候補表示部に表示された認識候補を上記１個の
認識候補として確定する認識候補確定手段とを有してな
る請求項５に記載の音声認識処理装置。
【請求項７】上記認識候補選択手段は、上記一定個数の認識候補を１個ずつ音声出力する認識候
補音声出力部と、上記認識候補音声出力部より音声出力される認識候補を
次候補に変更する認識候補変更手段と、上記認識候補音声出力部より音声出力された認識候補を
上記１個の認識候補として確定する認識候補確定手段と
を有してなる請求項５に記載の音声認識処理装置。
【請求項８】入力音声を分析して音声認識処理に必要
な分析データを得る音声分析ステップと、上記分析データを認識対象語に対応した認識用辞書デー
タと比較し、上記認識対象語より所定個数の認識候補を
得る音声認識処理ステップと、上記所定個数の認識候補より１個の認識候補を選択する
ための認識候補選択ステップと、上記認識対象語を絞る認識対象絞りステップとを備える
音声認識処理方法であって、上記認識候補選択ステップでは上記所定個数の認識候補
のうち上位から一定個数の認識候補を対象として１個の
認識候補を選択し、上記認識対象絞りステップで上記認識対象語を絞る操作
を行った場合、上記認識候補選択ステップでは、上記所
定個数の認識候補より上記認識対象語を絞った結果残っ
た認識候補のうち上位から一定個数の認識候補を対象と
して上記１個の認識候補を選択することを特徴とする音
声認識処理方法。
【請求項９】入力音声を分析して音声認識処理に必要
な分析データを得る音声分析手段と、上記分析データを認識対象語に対応した認識用辞書デー
タと比較し、上記認識対象語より所定個数の認識候補を
得る音声認識処理手段と、上記所定個数の認識候補のうち上位から一定個数の認識
候補より１個の認識候補を選択するための認識候補選択
手段と、上記認識対象語を絞る認識対象絞り手段とを備える音声
認識処理装置であって、上記認識対象絞り手段で上記認識対象語を絞る操作を行
った後、第１のモードまたは第２のモードのいずれかを
選択するモード選択手段を有し、上記第１のモードが選択される場合、上記認識候補選択
手段は、上記所定個数の認識候補より上記認識対象語を
絞った結果残った認識候補のうち上位から一定個数の認
識候補を対象として上記１個の認識候補を選択すると共
に、上記第２のモードが選択される場合、上記音声認識
処理手段は、上記認識対象語を絞る前と同じ上記分析デ
ータを使用して上記所定個数の認識候補を得ることを特
徴とする音声認識処理装置。
【請求項１０】入力音声を分析して音声認識処理に必
要な分析データを得る音声分析ステップと、上記分析データを認識対象語に対応した認識用辞書デー
タと比較し、上記認識対象語より所定個数の認識候補を
得る音声認識処理ステップと、上記所定個数の認識候補のうち上位から一定個数の認識
候補より１個の認識候補を選択するための認識候補選択
ステップと、上記認識対象語を絞る認識対象絞りステップとを備える
音声認識処理方法であって、上記認識対象絞りステップで上記認識対象語を絞る操作
を行った後に、第１のモードまたは第２のモードのいず
れかを選択するモード選択ステップをさらに有し、上記モード選択ステップで上記第１のモードが選択され
る場合、上記認識候補選択ステップでは上記所定個数の
認識候補より上記認識対象語を絞った結果残った認識候
補のうち上位から一定個数の認識候補を対象として上記
１個の認識候補を選択すると共に、上記モード選択ステ
ップで上記第２のモードが選択される場合、上記音声認
識処理ステップでは上記認識対象語を絞る前と同じ上記
分析データを使用して上記所定個数の認識候補を得るこ
とを特徴とする音声認識処理方法。