JP2002014693A

JP2002014693A - 音声認識システム用辞書提供方法、および音声認識インタフェース

Info

Publication number: JP2002014693A
Application number: JP2000199326A
Authority: JP
Inventors: Yuzo Maruta; 裕三丸田; Yoshiharu Abe; 芳春阿部; Hirotaka Goi; 啓恭伍井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2000-06-30
Filing date: 2000-06-30
Publication date: 2002-01-18

Abstract

(57)【要約】【課題】ユーザの登録作業を軽減することができ、ユ
ーザが語彙を登録しなくても、自動的に語彙が増える音
声認識システム用辞書作成方法を実現する。【解決手段】ネットワーク６上の大量のテキストを自
動的に解析して未知語を抽出し、抽出された未知語の表
記からその発音を推定して、それら抽出された未知語の
表記と推定された発音とをユーザに提供し、また、その
未知語について、ユーザが作成したテキストまたはユー
ザの発話に基づいて、言語的な特徴をデータとして保存
している、音声認識システム用辞書１２の表記辞書およ
び発音辞書の更新を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は音声認識システム
にて用いられる音声認識システム用辞書を提供する音声
認識システム用辞書提供の作成方法、および提供された
音声認識システム用辞書を用いた音声認識インタフェー
スに関するものである。

【０００２】

【従来の技術】図５は、例えば特開平１０−１８７１８
４号公報に開示された、従来の音声認識システムの構成
を示すブロック図である。図において、１は音声認識処
理を行うディクテーションコンポーネント、２は認識し
た結果を編集するディクテーション編集コンポーネン
ト、３はアプリケーションプログラムである。また、図
６はこのように構成された従来の音声認識システムにお
いて、誤った認識部分を修正し、未知の単語を登録する
場合に動作するディクテーション編集コンポーネント２
の動作を示したフローチャートである。

【０００３】次に動作について説明する。ここでは、上
記図５と図６とを用いて、誤った認識部分を修正する場
合の動作について説明する。まずステップＳＴ１におい
て、ディクテーションが完了したか否かを判定し、完了
した場合には、ディクテーション編集コンポーネント２
の処理が終了となる。完了していなければ、ステップＳ
Ｔ２において次の発音を入力してステップＳＴ３へ処理
を進める。ディクテーションコンポーネント１はこのス
テップＳＴ３において発音の認識処理を行い、ディクテ
ーション編集コンポーネント２はディクテーションコン
ポーネント１から認識されたワードのリストを受け取
る。次に、ステップＳＴ４にてワードを修正するか否か
が判定され、話された発音が、ユーザにより誤って認識
されたワードを修正するよう試みられる場合、ディクテ
ーション編集コンポーネント２はステップＳＴ５に分岐
し、さもなくば、ステップＳＴ６に分岐する。

【０００４】ステップＳＴ５では、ディクテーション編
集コンポーネント２は、認識されたワードのリストから
修正されているワード以外のワードを選択してステップ
ＳＴ７に遷移する。また、ステップＳＴ６では、ディク
テーション編集コンポーネント２は、認識されたワード
のリストから最も確率の高いワードを選択してステップ
ＳＴ７に遷移する。ディクテーション編集コンポーネン
ト２はこのように選択されたワードを、ステップＳＴ７
において表示する。次に、ステップＳＴ８において、話
し手が修正モードに入ることを指示したか否かについて
判定し、指示があった場合、ディクテーション編集コン
ポーネント２はステップＳＴ９に処理を進め、さもなく
ば、ステップＳＴ１に処理を戻して、ディクテーション
の完了判定以降の処理を繰り返す。

【０００５】ステップＳＴ９では、ディクテーション編
集コンポーネント２が、表示されたワードに対する修正
を受け取る。次にステップＳＴ１０において、その修正
がキーボードよりタイプ打ち入力されたものであるか否
かの判定が行われる。タイプ打ちされたものである場合
には、ディクテーション編集コンポーネント２はステッ
プＳＴ１１に処理を進め、さもなくば、ステップＳＴ１
へ処理を戻して、ディクテーションの完了判定以降の処
理を繰り返す。ステップＳＴ１１ではタイプ打ちされた
ワードが既に語彙にあるか否かが判定され、ない場合に
はステップＳＴ１２の処理を行った後、また、ある場合
には直接、ステップＳＴ１３へ処理が遷移する。ディク
テーション編集コンポーネント２は、ステップＳＴ１２
ではタイプ打ちされたワードを語彙に加え、ステップＳ
Ｔ１３ではタイプ打ちされたワードに対して認識システ
ムのトレーニングを行う。ステップＳＴ１３の処理が終
了するとステップＳＴ１へ戻り、ディクテーションの完
了判定以降の処理を繰り返す。

【０００６】なお、このような従来の音声認識システム
に関連のある記載がなされている文献としては、この他
にも、例えば、特開平７−９２９９１号公報、特開２０
００−２００９２号公報などがある。

【０００７】

【発明が解決しようとする課題】従来の音声認識システ
ムは以上のように構成されているので、登録されていな
い語彙に対しては表記と発音を登録する作業が必要であ
り、また、ユーザが語彙を登録しなければ、語彙が増え
ることはないという課題があった。

【０００８】この発明は上記のような課題を解決するた
めになされたもので、ユーザの登録作業を軽減すること
ができ、ユーザが語彙を登録しなくても、自動的に語彙
が増える音声認識システム用辞書提供方法を得ることを
目的とする。

【０００９】また、この発明はユーザの言語の特性を検
出して、それに適応した個人辞書をもった音声認識イン
タフェースを得ることを目的とする。

【００１０】

【課題を解決するための手段】この発明に係る音声認識
システム用辞書提供方法は、ネットワークを巡回して、
ネットワーク上のテキストを自動解析することにより未
知語の表記を抽出して、その未知語の発音を推定し、そ
れら未知語の表記と発音とをユーザに提供するようにし
たものである。

【００１１】この発明に係る音声認識システム用辞書提
供方法は、テキストの自動解析によって未知語の表記を
抽出し、その未知語の発音を、ユーザの作成したテキス
トまたは発話に基づいて決定し、それら未知語の表記と
発音とをユーザに提供するようにしたものである。

【００１２】この発明に係る音声認識インタフェース
は、上記方法で提供された音声認識システム用辞書を用
いるようにしたものである。

【００１３】この発明に係る音声認識インタフェース
は、ネットワークより音声データを取得してその認識処
理を行い、その認識結果をネットワークに送信するよう
にしたものである。

【００１４】この発明に係る音声認識インタフェース
は、各ユーザが個別に音声認識システム用辞書をもつよ
うにしたものである。

【００１５】この発明に係る音声認識インタフェース
は、ネットワークを介して認識結果の修正情報を受信
し、各音声認識システム用辞書の更新を、その修正情報
とユーザからの音声データをもとに行うようにしたもの
である。

【００１６】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１を示すブ
ロック図である。図において、４は入力された音声の認
識処理を行って、その認識結果を出力する音声認識シス
テムである。５は携帯電話機、ウェアラブルコンピュー
タなどの音声入力手段（図示省略）を備えた端末であ
る。６はこれら音声認識システム４や端末５などが収容
されたネットワークであり、ここでは代表的なネットワ
ークであるインターネットが用いられている。

【００１７】また、音声認識システム４内において、１
１は音声認識の処理を行う音声認識手段である。１２は
音声認識システム用辞書としての個人辞書であり、音響
的な特徴をデータとして保持する音響モデルと、言語的
な特徴をデータとして保持する言語モデルとから構成さ
れており、その言語モデルはユーザ毎に適応された表記
辞書および発音辞書および単語の出現確率情報などから
なっている。なお、この音声認識システム用辞書として
の個人辞書は、例えば特開平７−９２９９１号公報に開
示されているような公知のものが使用可能である。１３
はインターネット６を自動巡回してインターネット６上
の大量のテキストを自動的に解析し、登録されていない
未知語（新語）を抽出する自動巡回ソフトウェアであ
る。１４はこの自動巡回ソフトウェア１３にて抽出され
た未知語の表記からその発音を推定する発音推定手段を
備え、当該未知語の表記および推定されたその読みが登
録される大規模音声辞書である。１５はユーザの作成し
た文書またはユーザの発話から、個人辞書の単語の出現
確率情報などを更新し、さらに抽出された未知語の表記
と発音を個人辞書に追加提供する自動適応化手段であ
る。

【００１８】なお、図２はこのように構成された実施の
形態１において、音声を認識し、個人辞書１２を更新す
る動作を示したフローチャートであり、図３はこの実施
の形態１において、インターネット６を自動巡回し、語
彙を更新する動作を示したフローチャート、図４はこの
語彙の更新動作における未知語の読みの推定処理の動作
を示した説明図である。なお、図４において、２１は単
漢字によるサブワード、および複数の漢字でひとまとま
りの読みをなす語によるサブワードが、それぞれの読み
とともに登録されているサブワード辞書である。２２は
単語の読みに関する知識や統計データ、撥音便や促音便
のルールなどが登録されている知識・統計辞書である。

【００１９】次に動作について説明する。まず、インタ
ーネット６からの音声データの認識処理を行い、個人辞
書１２を更新する動作について、上記図１および図２を
用いて説明する。ユーザは暗証番号などの認証手段（図
示省略）により、ユーザを特定するための情報をインタ
ーネット６を通じて音声認識システム４に送出する。そ
の後、ステップＳＴ２１において、ユーザは端末５の音
声入力手段（図示省略）に音声を入力し、それがインタ
ーネット６を通じて音声認識システム４に入力される。
音声認識システム４はステップＳＴ２２において、この
端末５よりインターネット６を介して受け取った音声デ
ータを一時的に記憶する。次にステップＳＴ２３に進
み、音声認識システム４は音声認識手段１１において、
上記暗証番号などで特定されているユーザに対応する個
人辞書１２を用いて、記憶している上記音声データの認
識処理を実行する。

【００２０】この音声認識の処理が終了すると、音声認
識手段１１はステップＳＴ２４において、認識結果をイ
ンターネット６に出力する。この認識結果はインターネ
ット６を通じて端末５に転送されてその表示手段（図示
省略）に表示される。ユーザはこの表示された認識結果
をステップＳＴ２５で確認して、必要であればその修正
を行う。なお、この修正はユーザの作成したテキストま
たはユーザの発話による修正情報の端末５への入力によ
って行われる。修正が行われた場合、その修正情報がス
テップＳＴ２６に遷移して、端末５よりインターネット
６を通じて音声認識システム４に転送される。これによ
って音声認識インタフェースをとることができる。

【００２１】修正情報を受け取った音声認識システム４
では、自律適応化手段１５がステップＳＴ２７におい
て、はじめに認識した認識結果とユーザが修正した修正
情報とを付きあわせることにより、使用頻度の高い単語
や、連鎖の可能性の高い単語列を検出して、そのユーザ
に対応付けられた個人辞書１２の単語の出現確率情報な
どを更新する。次にステップＳＴ２８に遷移して、自律
適応化手段１５はユーザが修正した修正情報に、そのユ
ーザの個人辞書１２にない語彙が存在するか否かを、大
規模音声辞書１４を参照しながら調べる。そのユーザの
個人辞書１２にない語彙が存在する場合には、ステップ
ＳＴ２９においてその読みを大規模音声辞書１４から推
定し、その語彙を当該ユーザの個人辞書１２に追加す
る。このようにして、個人辞書１２の表記辞書と発音辞
書の更新が行われる。

【００２２】次に、大規模音声辞書１４が自動的に最新
の語彙を維持する動作について、図１および図３、図４
を用いて説明する。図３のステップＳＴ３１にて、自動
巡回ソフトウエア１３は定期的にインターネット６上の
各ホームページを巡回しており、ステップＳＴ３２にお
いて、このインターネット６のホームページ上にあるテ
キストを取得する。この自動巡回ソフトウェア１３で取
得されたテキストは大規模音声辞書１４に送られ、大規
模音声辞書１４は、ステップＳＴ３３においてそのテキ
ストを単語毎に分割する。次にステップＳＴ３４に遷移
し、当該大規模音声辞書１４内にまだ登録されていない
単語（未知語）があるか否かを調べる。その結果、未知
語が存在している場合にはステップＳＴ３５に進み、大
規模音声辞書１４は内蔵する発音推定手段（図示省略）
を用いて、既に登録されている当該未知語の構成漢字と
同一の漢字の読みから、その未知語の読みを推定する。

【００２３】ここで、このステップＳＴ３５による未知
語の読みの推定動作について、図４を用いて詳細に説明
する。まず、ステップＳＴ４１において未知語を入力
し、ステップＳＴ４２において、その未知語をサブワー
ド辞書２１中に存在するサブワードに分割する。サブワ
ード辞書２１にはサブワードとして、「未」「知」など
の各単漢字による語と、「長谷」のような複数の漢字で
ひとまとまりの読みをなす語とが登録されており、それ
らとともにその読みも登録されている。今、図４のよう
に、ステップＳＴ４１で「弾性」という単語（未知語）
が入力されると、それがステップＳＴ４２において
「弾」と「性」という単漢字によるサブワードに分割さ
れる。

【００２４】次にステップＳＴ４３において、このよう
にして分割されたサブワードについて、サブワード辞書
２１からそれぞれの読みを検索し、ステップＳＴ４４に
おいて、もとの未知語「弾性」の読み候補を作成する。
図４に示すように、サブワード辞書２１にはサブワード
の読みとして、「弾」には「ダン」…「はじ（く）」…
などが存在し、「性」には「セイ」…「さが」…などが
存在するので、ステップＳＴ４４では「弾性」の読み候
補として、「ダンセイ」「ダンショウ」…「はじセイ」
…などが作成される。

【００２５】次にステップＳＴ４５に進み、知識・統計
辞書２２の知識や統計データを用いて、上記ステップＳ
Ｔ４４で作成された未知語「弾性」読み候補の中から尤
もらしい読みの選択を行う。すなわち、この知識・統計
辞書２２に入っている、“２文字熟語は音読みの連続が
多い”、“「性」が末尾にある場合には「セイ」と読む
ことが多い”といった知識や統計データに従って、入力
された未知語「弾性」に対して、音読みの連続で、
「性」を「セイ」と読む、「ダンセイ」という読みを選
択して付与する。

【００２６】なお、端末５にて入力されたユーザの発話
（この場合は「だんせい」という発話）を利用して、未
知語の読みを付与することも可能である。さらに、本実
施例では、ユーザは未知語を実際に発声や修正した後に
個人辞書１２に追加しているが、ユーザの言語のくせを
表わしている個人辞書１２の単語の出現確率情報などと
大規模音声辞書１４をつきあわせることにより、今後の
ユーザが発声するであろう未知語について、発声を確定
してあらかじめ個人辞書１２に登録しておくことも可能
である。

【００２７】図３のステップＳＴ３５にて、大規模音声
辞書１４の発音推定手段が図４に示す手順で推定された
未知語の読みは、ステップＳＴ３６において、当該未知
語の表記とともに大規模音声辞書１４に登録される。以
下、処理はステップＳＴ３１に戻ってこの一連の動作が
繰り返される。

【００２８】以上のように、この実施の形態１によれ
ば、大規模音声辞書１４には常に最新の語彙が登録され
ており、ユーザが未知語をいちいち登録しなくても、こ
の大規模音声辞書１４を参照することによって個人辞書
１２の言語モデルを更新することが可能であり、また、
個人辞書１２は各ユーザごとに存在するので、ユーザの
言語的な癖や特徴などを各ユーザごとに反映させた最適
な辞書を構築することができるなどの効果が得られる。

【００２９】また、この発明の実施の形態１によれば、
ユーザの言語的な特徴を解析することにより、今後この
ユーザが新たに使用するであろう未知語を大規模音声辞
書１４から選択し、予め自動的に個人辞書１２に登録す
ることができ、さらに、個人辞書１２のうちの音響辞書
も個人ごとに適応させることにより、ユーザの音響的な
癖や特徴などを各ユーザに反映させた最適な辞書を構築
することも可能となるとともに、認識処理そのものは端
末５では行っていないので、端末５の処理の負担増もな
く、ハードウエア／ソフトウエアの追加が不要となって
機器のコストアップなどを招かないという効果も得られ
る。

【００３０】

【発明の効果】以上のように、この発明によれば、抽出
した未知語の表記と、それより推定したその未知語の発
音とをユーザに提供するように構成したので、大規模音
声辞書には常に最新の語彙が登録されており、ユーザが
未知語をいちいち登録しなくても、大規模音声辞書を参
照することによって、音声認識システム用辞書の言語モ
デルを更新することが可能となり、いちいち未知語を登
録する手順が不要な音声認識システム用辞書の提供方法
が得られるという効果がある。

【００３１】また、この発明によれば、ユーザのテキス
トまたは発話に基づいて、未知語の発音を決定するよう
に構成したので、大規模音声辞書に登録されている未知
語に加えて、ユーザの作成したテキストやユーザの発話
から、ユーザ独自の単語を登録したり、大規模音声辞書
に登録されている未知語にユーザの作成したテキストま
たはユーザの発話を用いて独自な読みを付与することが
可能となり、各ユーザ独自の音声認識システム用辞書を
作成することができる音声認識システム用辞書提供方法
が得られるという効果がある。

【００３２】また、この発明によれば、上記方法で提供
された音声認識システム用辞書を用いるように構成した
ので、いちいち未知語を登録しなくても、未知語を認識
することができる音声認識インタフェースが得られると
いう効果がある。

【００３３】また、この発明によれば、ネットワークよ
り取得した音声データの認識結果をネットワークに送信
するように構成したので、いちいち未知語を登録しなく
ても未知語を認識することができる、ネットワークを介
した音声認識インタフェースが得られるという効果があ
る。

【００３４】また、この発明によれば、音声認識システ
ム用辞書を各ユーザ毎に個別にもたせるように構成した
ので、複数のユーザがそれぞれの使用状況の癖に応じた
音声認識システム用辞書を個別に持ち、それらの音声認
識システム用辞書はいちいち未知語の登録を行わなくて
も未知語の認識が可能であるため、高い音声認識性能を
実現できるという効果がある。

【００３５】また、この発明によれば、各音声認識シス
テム用辞書の更新を、ネットワークを介して受信した認
識結果の修正情報と、ユーザからの音声データをもとに
行うように構成したので、いちいち未知語の登録を行わ
なくても未知語の識別を行うことができ、また各音声認
識システム用辞書の学習のために、認識結果の修正情報
をネットワークを介して用いているので、高い音声認識
性能を実現できるなどの効果がある。

【図面の簡単な説明】

【図１】この発明の実施の形態１における音声認識シ
ステムを示すブロック図である。

【図２】この実施の形態１における個人辞書の更新動
作を示すフローチャートである。

【図３】この実施の形態１における語彙の更新動作を
示すフローチャートである。

【図４】この実施の形態１における未知語の読みの推
定動作を示す説明図である。

【図５】従来の音声認識システムを示すブロック図で
ある。

【図６】従来の音声認識システムにおけるディクテー
ション編集コンポーネントの動作を示すフローチャート
である。

【符号の説明】

４音声認識システム、５端末、６インターネット
（ネットワーク）、１１音声認識手段、１２個人辞
書（音声認識システム用辞書）、１３自動巡回ソフト
ウェア、１４大規模音声辞書、１５自律適応化手
段、２１サブワード辞書、２２知識・統計辞書。

───────────────────────────────────────────────────── フロントページの続き (72)発明者伍井啓恭東京都千代田区丸の内二丁目２番３号三菱電機株式会社内Ｆターム(参考） 5D015 AA03 GG01 GG02 GG03 HH00 LL04 LL05

Claims

【特許請求の範囲】

【請求項１】ユーザに対して、単語の表記と発音から
なる音声認識システム用辞書を提供する音声認識システ
ム用辞書提供方法において、ネットワーク上のテキストを自動的に解析して未知語を
抽出する工程と、抽出された前記未知語の表記からこの未知語の発音を推
定する工程と、抽出された前記未知語の表記と推定されたその未知語の
発音とをユーザに提供する工程とを有することを特徴と
する音声認識システム用辞書提供方法。
【請求項２】ユーザに対して、単語の表記と発音から
なる音声認識システム用辞書を提供する音声認識システ
ム用辞書提供方法において、ネットワーク上のテキストを自動的に解析して未知語を
抽出する工程と、前記未知語の発音としてユーザが作成したテキストまた
はユーザの発話に基づいて、未知語の発音を決定する工
程とを有することを特徴とする音声認識システム用辞書
提供方法。
【請求項３】請求項１または請求項２記載の音声認識
システム用辞書提供方法によって提供された音声認識シ
ステム用辞書を用いたことを特徴とする音声認識インタ
フェース。
【請求項４】ネットワークを介してユーザから取得し
た音声データの認識処理を行い、当該認識処理の認識結果を、ネットワークを介して前記
ユーザに送信することを特徴とする請求項３記載の音声
認識インタフェース。
【請求項５】複数のユーザのそれぞれが、個別に音声
認識システム用辞書をもつことを特徴とする請求項４記
載の音声認識インタフェース。
【請求項６】認識結果を受信したユーザが修正した当
該認識結果の修正情報を、ネットワークを介して受信
し、その修正情報とユーザからの音声データをもとに、前記
ユーザが個別に持つ音声認識システム用辞書の更新を行
うことを特徴とする請求項５記載の音声認識インタフェ
ース。