JP2000276189A

JP2000276189A - 日本語ディクテーションシステム

Info

Publication number: JP2000276189A
Application number: JP11080741A
Authority: JP
Inventors: Hisayoshi Nagae; 尚義永江
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-03-25
Filing date: 1999-03-25
Publication date: 2000-10-06

Abstract

(57)【要約】【課題】日本語ディクテーションシステムにおいて、
ユーザの入力音声の発音の仕方に基づいて認識途中で２
つのモードを切り替えて音声入力された英単語の認識精
度を向上させることを目的とする。【解決手段】有音部と無音部からなる入力音声を受取
る音声入力部１０１と、この入力音声を日本語の文章と
して認識するための日本語モード認識辞書１０４と、英
字が登録されている英語モード認識辞書１０５と、該音
声入力部によって受取られた入力音声の有音部の継続時
間を判定すると共に、有音部の直前と直後の無音部の継
続時間を判定し、日本語モード認識辞書または英語モー
ド認識辞書のいずれかの使用を判定する音声継続時間判
定部１０２と、該音声継続時間判定部によって判定され
た辞書を使用して、入力音声を認識する音声認識処理部
１０３とを具備することを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声で主に日本
語の文章の入力を行うことを目的とした日本語ディクテ
ーションシステムに係り、特にユーザの発声の仕方に基
づいて英単語入力を行う日本語ディクテーションシステ
ムに関する。

【０００２】

【従来の技術】入力音声を文字列として認識するディク
テーションシステムでは、一般に認識可能な単語が格納
されている認識辞書中の語彙数（即ち、認識可能な単語
数）が多くなればなるほど高精度な認識が難しくなる。
その為、認識辞書の語彙は可能な限り制限されており、
日常良く使われる語だけが選別されて登録されていた。
例えば、従来の一般的な日本語ディクテーションシステ
ムの認識辞書には５千語から５万語程度の単語が登録さ
れているだけである。

【０００３】このように単語数が制限された状況では、
日本語を数多く登録することに注力するあまり英単語に
ついては全く登録されていないのが現状である。そこで
は、認識辞書には単独の英字だけがそれぞれ１つの単語
として登録され、ユーザが英単語を入力する場合には、
例えば「ＡＳＩＡ（アジア）」という英単語を入力する
場合には、「Ａ（エイ）−Ｓ（エス）−Ｉ（アイ）−Ａ
（エイ）」のように英単語を構成する綴りを英字１文字
ずつ発声して入力しなければならなかった。

【０００４】

【発明が解決しようとする課題】しかしながら、上記し
た従来の日本語ディクテーションシステムでは、英単語
を入力する場合、例えば「Ａ（エイ）」という音は日本
語の「英」、「泳」などと同じ音であるために、ユーザ
が英字の羅列のつもりで入力しても英単語として正しく
認識することは非常に困難であった。また、学術論文な
ど文章中に英単語を挿入するケースが頻繁にある文章を
音声で入力する時などは、認識精度が著しく低下してし
まっていた。

【０００５】本発明は上記の問題点を解決するためにな
されたものであり、日本語ディクテーションシステム中
に入力音声を日本語として処理する日本語モードと英字
だけとして処理する英語モードを設け、ユーザの入力音
声の発音の仕方に基づいて認識途中で２つのモードを切
り替えて音声入力された英単語の認識精度を向上させる
ことのできる日本語ディクテーションシステムを提供す
ることを目的とする。

【０００６】

【課題を解決するための手段】本発明の請求項１に係る
日本語ディクテーションは、有音部と無音部からなる入
力音声を受取る音声入力部と、前記入力音声を日本語の
文章として認識するための日本語モード認識辞書と、英
字が登録されている英語モード認識辞書と、該音声入力
部によって受取られた前記入力音声の前記有音部の継続
時間を判定すると共に、前記有音部の直前と直後の前記
無音部の継続時間を判定し、前記日本語モード認識辞書
または英語モード認識辞書のいずれかの使用を判定する
音声継続時間判定部と、前記音声継続時間判定部によっ
て判定された辞書を使用して、前記入力音声を認識する
音声認識処理部とを具備することを特徴とする。

【０００７】このような構成によれば、ユーザが英字毎
に１文字ずつに区切り、だいたい同じような間隔で発声
する、という手順で音声入力した時には、入力音声を２
６個の英字の何れかであるとして認識処理する。一方、
ユーザがなるべく長く発声する、或いは前後のポーズ長
を調整しながら発声することによって、該当部分を日本
語の文章として認識処理させることによって、モード切
り替えを明示的に行わずともシステムが英単語部分を的
確に判別し、高精度な認識処理を実現することができ
る。

【０００８】また請求項４では、テキスト文書を制御す
るコマンド制御部と、カタカナ語と英単語の対応が保持
されているカタカナ・英単語保持部と、前記コマンド制
御部の制御に基づいて、前記テキスト文書からカタカナ
語の領域を検出するカタカナ語領域判定部と、前記カタ
カナ語領域判定部によって検出されたカタカナ語を受け
取り、前記カタカナ・英単語保持部からカタカナ語に対
応する英単語を検索する英単語検索部と、前記カタカナ
語領域判定部によって判定された前記領域に前記英単語
検索部によって検索された英単語を挿入する英単語挿入
部とを具備することを特徴とする。

【０００９】このような構成によれば、ユーザが指定し
た日本語テキスト中に存在するカタカナ語を検出し、そ
のカタカナ語に対応する英単語をカタカナ・英単語対応
表から検索し、テキスト中のカタカナ語の直後に括弧で
囲んで自動的に挿入することができる。これにより、ユ
ーザがわざわざ英単語を発声して入力しなくても英単語
を挿入したいテキストの領域を選択し、後は英単語を挿
入する命令をマウス或いは音声コマンドで指定するだけ
で英単語を含む日本語テキストを作成することができ
る。

【００１０】また請求項５では、テキスト文書を制御す
るコマンド制御部と、カタカナ語と英単語がそれぞれ構
成要素毎に対応されて保持されているカタカナ・英単語
構成要素保持部と、前記コマンド制御部の制御に基づい
て、前記テキスト文書からカタカナ語の領域を検出する
カタカナ語候補領域判定部と、前記カタカナ語候補領域
判定部によって検出されたカタカナ語を受け取り、この
カタカナ語を構成要素の組に分割するカタカナ語分割部
と、前記カタカナ・英単語構成要素保持部から前記カタ
カナ語の構成要素に対応する英単語の構成要素を検索す
る英単語構成要素検索部と、前記カタカナ語候補領域判
定部によって判定された前記領域に前記英単語構成要素
検索部によって検索された前記英単語構成要素を挿入す
る英単語候補挿入部とを具備することを特徴とする。

【００１１】このような構成によれば、カタカナ語と英
単語との対応表を単語の構成要素に分割することによっ
て、少ない対応表だけでより多くのカタカナ語と英単語
の対応を表現することができる。また新語の造語に対し
ても対応表やシステムを変更することなく即座に対応す
ることができる。

【００１２】

【発明の実施の形態】以下、図面を参照しながら本発明
の実施形態を説明する。（第１の実施形態）図１は本発明の第１の実施形態に係
わる日本語ディクテーションシステムの構成を示すブロ
ック図である。

【００１３】音声入力部１０１は、マイクロホン等から
なり、ユーザ１００から発声された音声を受取るもので
ある。音声継続時間判定部１０２、はマイクロホン等の
音声入力部１０１からユーザ１００の入力音声を受け取
り、直前のポーズ（無音部）の継続時間を記憶してお
き、その直後の音声の継続時間と直後のポーズの継続時
間の２つを計測するものである。そして、この音声継続
時間判定部１０２は音声の継続時間が一定値より短く、
かつ入力音声直後のポーズの継続時間が入力音声直前の
ポーズの継続時間とほぼ同じ時には、英語モードで動作
するように指示し、それ以外のケースでは日本語モード
での動作を指示する。英単語を発声する場合、英字（ア
ルファベット）１字１字の継続時間は大抵一定である。

【００１４】音声認識処理部１０３は、前記音声継続時
間判定部１０２からの通知に基づき日本語、英語の２つ
のモードを切り替えて動作するものである。日本語モー
ドとは、認識辞書に日本語が登録されている日本語モー
ド用認識辞書１０４を使用した認識処理手順であり、入
力音声を日本語の文章として認識することができる。一
方、英語モードとは、認識辞書に英字だけが登録されて
いる英語モード用認識辞書１０５を使用した認識処理手
順であり、入力音声を英字としてのみ認識することがで
きる。音声データと認識辞書を使って音声認識を行う方
式については、例えば「「確率モデルによる音声認識」
（中川聖一著）電子情報通信学会（ＩＳＢＮ４―８８５
５２―０７２―Ｘ）」」に紹介されており、何れの方法
であっても構わない。表示部１０６は、前記音声認識処
理部１０３で認識された結果を表示するものである。

【００１５】また本発明の認識辞書に関して言うと、図
２に示すように日本語モード用の認識辞書では、英字の
単語が日本語モード用の認識辞書中に追加されている。
一方、図３の英語モード用の認識辞書では、認識辞書中
には英字のみが登録されている。

【００１６】ここで、「新型テレビジョン（ｔｅｌｅｖ
ｉｓｉｏｎ）を開発しました。」という文章を入力する
ための動作について説明する。まず、文章は従来の日本
語ディクテーションシステムと同様に「しんがた｜てれ
びじょん｜ひらきかっこ｜てぃー｜いー｜える｜いー｜
える｜ぶい｜あい｜えす｜あい｜おー｜えぬ｜とじかっ
こ｜を｜かいはつ｜しました｜まる」という発音の音声
データとして入力されたとする。ここで「｜」は発音列
を見やすくするための記号であり、特に意味はない。ま
た、日本語部分については発声単位は特に限定しない。
単語単位や文節単位で区切ってもよいし、ひとまとまり
にまとめて連続して発声しても構わない。

【００１７】そして、本発明の日本語ディクテーション
システムでは英単語部分は英字１文字ごとに区切り、そ
の直前と直後に一定時間のポーズ（無音部）を置いて発
声しなければならない。ただし、ここでのポーズの継続
時間（ポーズ長）は予めシステムで決められた数値であ
る必要はなく、英字を発声した直前に置かれたポーズの
継続時間に一定のマージン値を加減算した値として計算
される数値の範囲に含まれていればよい。なお、英字１
文字の発音はいずれも短いことが明らかなので音声入力
が一定時間以上継続した場合には日本語が入力されたと
して日本語モードで動作する。

【００１８】図４は、入力音声と無音部の継続時間の例
を示すものである。いま、図４のように音声入力された
とする。ここで英字１文字の最大発声継続時間を１秒、
ポーズの継続時間が同一であるとみなすマージンを±
０. ３秒とする。この最大発声継続時間やマージン値は
変更してもよい。

【００１９】まず、「しんがた」「てれびじょん」「ひ
らきかっこ」という発音は、いずれも英字の最大発声継
続時間（１秒）を越えているために日本語として処理さ
れる。次に「ひらきかっこ」の直後の０. ５秒のポーズ
の後、「てぃー」という音が０. ９秒入力され、その後
０. ６秒のポーズが置かれている。この発声は、発声長
が１秒以下であり、かつ発声の直後のポーズ（０. ６
秒）が発声の直前のポーズにマージン値を加減算した値
の範囲（０. ２〜０. ８秒）に含まれている。そこで、
「てぃー」という音声は英字として認識処理されること
になる。ここで、図３のように英字しか登録されていな
い英語モード専用の認識辞書１０５では「てぃー」とい
う発音に近い語の候補には「ｔ」しかないために、前述
した文献に紹介されている方法であれば非常に高い確率
で入力音声を「ｔ」という語として認識することができ
る。

【００２０】その次に「いー」という音が０. ８秒間入
力され、その後０. ４秒のポーズが置かれている。ここ
で、発声長（０. ８秒≦１秒）、ポーズ長（０. ３秒≦
０.４秒≦０. ９秒）の両方の条件がみたされているの
でこの部分も英語モードとして動作する。以下、「え
ぬ」の部分までは同様の手順で英語モードとして認識処
理が進められる。そして、「えぬ」の次に０. ７秒のポ
ーズが置かれ、１. ２秒の音声「ひらきかっこ」が続
き、その後に１秒のポーズが続いている。ここで、ポー
ズ長は０. ４秒≦１秒≦１. １秒の条件を満たしている
が、発声長が最大発声継続時間（１秒）を越えているの
で、この部分は日本語モードで処理される。さらにその
次には０. ６秒の音声「を」と０. ３秒のポーズが入力
されている。この部分は発声長は０. ６秒≦１秒だが、
ポーズ長が０. ７秒〜１. ３秒の範囲にないためにやは
り日本語モードで処理されることになる。そして、最後
の「かいはつしましたまる」という部分についても日本
語モードとして処理されて、最終的には「新型テレビジ
ョン（ｔｅｌｅｖｉｓｉｏｎ）を開発しました。」とい
う認識結果が得られることになる。

【００２１】次に、音声継続時間測定部１０２の処理の
流れを、図５のフローチャートを参照して説明する。
今、ユーザが一息で発声して入力した音声をＯ_i とす
る。ここでｉは先頭から何番目の入力音声であるかを表
す番号である（ｉ＝１〜Ｎ）。一般にユーザの息継ぎ等
のために２つの入力音声の間には無音の区間（ポーズ）
が存在する。ここで、先頭からｉ番目の入力音声の直前
の無音の継続時間をＰ_i-1 、直後の無音の継続時間をＰ
_i と表記する（ステップ４００）。

【００２２】まず、先頭から１番目（ｉ＝１）の入力音
声について（ステップ４０２、４０３）、入力音声の発
声時間Ｓ_i （ｉ＝１）をアルファベット１文字の発声時
間の最大長である「英字の最大発声時間」と比較する
（ステップ４０５）。そして、もしＳ_i が英字の最大発
声時間よりも長い場合には、日本語が入力されたと判断
して日本語モードで音声認識処理部１０３を動作させ、
入力音声に近い発音の日本語の単語の中から入力された
音声を識別する（ステップ４０８）。

【００２３】一方、Ｓ_i が英字の最大発声時間よりも短
い場合には処理はステップ４０６へ進む。ステップ４０
６では、入力音声の直前（Ｐ_i-1 ）と直後（Ｐ_i ）のポ
ーズ長（つまりは先頭からｉ−１番目とｉ番目のポーズ
の長さ）を測定する。例えば、先頭から１番目の入力音
声について処理している場合には先頭から０番目と１番
目のポーズ長であるＰ₀ とＰ₁ の時間を測定することに
なる。ここで、０番目という順番は存在しないので特別
にＰ₀ はＰ₁ と同じ値であるとして処理する。

【００２４】Ｐ_i-1 とＰ_i のそれぞれのポーズ長を測定
したら、次にその差分を求めその差が予め決められたポ
ーズ長のマージン以下であるかどうかを判定する（ステ
ップ４０６）。ここでもしポーズ長の差（Ｐ_i −Ｐ
_i-1 ）がポーズ長のマージン以下でなかった時には、日
本語が入力されたと判断して日本語モードで音声認識処
理１０３を動作させ、入力音声に近い発音の日本語の単
語の中から入力された音声を識別する（ステップ４０
８）。

【００２５】一方、ポーズ長の差がポーズ長のマージン
以下の時には、英字が入力されたと判断して英語モード
で音声認識処理部１０３を動作させ、入力音声に近い発
音の英字の中から入力された音声を識別する（ステップ
４０７）。

【００２６】以上の処理は、入力音声の総数をＮとする
とｉ＝１〜ｉ＝ＮまでＮ回繰り返される。このように英
単語の部分についてだけ、英字ごとに１文字ずつに区切
り、だいたい同じような間隔で発声する、という手順で
音声入力し、それ以外の日本語の部分についてはなるべ
く長く発声する、あるいは前後のポーズ長を調整しなが
ら発声することによって、面倒なモード切り替えをユー
ザが明示的に行うことなく、システムが英単語部分を的
確に判別し、高精度な認識処理を実現することができる
ようになる。

【００２７】（第２の実施形態）次に、本発明の第２の
実施形態について説明する。図６は本発明の第２の実施
形態に係わる音声認識装置の概略構成を示すブロック図
である。なお、図１において説明した部分と同一部分は
同一符号を用いる。

【００２８】コマンド制御部２０１は、ユーザ１００か
らの英単語挿入命令と操作対象のテキストを受け取るも
のである。カタカナ語領域判定部２０２は、前記コマン
ド制御部２０１からの通知に基づき、指定されたテキス
ト中からカタカナ語の領域を検出するものである。ここ
で、カタカナ語とは連続するカタカナのみで構成される
単語を意味している。英単語検索部２０３は、カタカナ
語領域判定部で検出されたカタカナ語を受け取り、図７
に示すカタカナ語と英単語の対応を保持しているカタカ
ナ・英単語対応表２０５からカタカナ語に対応する英単
語を検索し、カタカナ語領域判定部２０２へ通知するも
のである。そして、前記カタカナ語領域判定部２０２で
は、前記英単語検索部２０３からの英単語情報に基づい
て、英単語の挿入位置と英単語の綴りを表す英単語挿入
情報を生成し、英単語挿入部２０４へ通知するものであ
る。英単語挿入部２０４は、前記テキストと前記カタカ
ナ語領域判定部２０２から渡される前記英単語挿入情報
に基づいて、テキスト中に英単語を挿入する。表示部２
０６は、前記英単語挿入部２０４によって英単語が挿入
されたテキストを表示するものである。

【００２９】ここで、「このプログラムのインタフェー
スは洗練されています。」という文章に英単語を挿入す
るための動作について説明する。コマンド制御部２０１
では、ユーザ１００からのマウスのクリックや音声コマ
ンド命令などにより、操作対象のテキストの領域の指定
と英単語挿入の命令を受け取る。次にカタカナ語領域判
定部２０２では、上記のテキストを受け取るとテキスト
先頭から１文字ずつカタカナであるかどうか検査し、連
続するカタカナ列をカタカナ語として検出し、そのテキ
スト中の位置とともに管理する。

【００３０】前記文章の場合では、〈７，プログラ
ム〉、〈１５，インタフェース〉という情報が管理され
ることになる。ここで、〈７，プログラム〉は「プログ
ラム」というカタカナ語の末尾がテキスト中の先頭から
７文字目に位置していることを表している。英単語検索
部２０３では、前記カタカナ語領域判定部２０２で検出
されたカタカナ語の綴りを受け取り、内部で保持してい
るカタカナ語と英単語の対応表であるカタカナ・英単語
対応表２０５中を検索し、テーブル中にカタカナ語が存
在しているかどうかを検索する。テーブル中に該当する
カタカナ語が存在する時、その英単語をカタカナ語領域
判定部２０２へ通知する。一方、テーブル中に該当する
カタカナ語が存在しなかった時には、その旨を通知す
る。カタカナ語領域判定部２０２では、これらの通知を
受け、英単語が返された時は、カタカナ語の末尾の位置
と英単語を組にした英単語挿入情報を生成する。ただ
し、該当する英単語が存在しないものについては英単語
挿入情報を作成せずに削除する。これより先のカタカナ
語と位置情報から〈７，ｐｒｏｇｒａｍ〉、〈１５，ｉ
ｎｔｅｒｆａｃｅ〉という英単語挿入情報が生成される
ことになる。

【００３１】前記カタカナ語領域判定部２０２で生成さ
れた英単語挿入情報を受け取った前記英単語挿入部２０
４はテキストの該当部分（例では７文字目と１５文字目
の直後）に指定された英単語（ｐｒｏｇｒａｍとｉｎｔ
ｅｒｆａｃｅ）を挿入する。このような処理の流れによ
って、「このプログラムのインタフェースは洗練されて
います。」という文章は「このプログラム（ｐｒｏｇｒ
ａｍ）のインタフェース（ｉｎｔｅｒｆａｃｅ）は洗練
されています。」という形式に変換されることになる。
本実施例では、英単語の挿入箇所をカタカナ語の直後に
しているが、カタカナ語の直下、欄外などでもよく、ま
たカタカナ／英単語を置換してもよい。さらに、本実施
例のように挿入する英単語の前後を括弧で括るなど、英
単語の綴りに加工をしてもよい。

【００３２】次に、カタカナ語領域判定部２０２のカタ
カナ語を切り出す処理の流れを、図８のフローチャート
を参照して説明する。Ｎ文字で構成される入力テキスト
Ｔの各文字をｔ_i と表記する（ステップ５００）。ここ
で、ｉは先頭から何番目の文字であるかを表す番号であ
る（ｉ＝１〜Ｎ）。すべての処理の前に入力テキストの
カタカナ語の個数を表すカウンタｊを０に設定し、さら
にカタカナ文字列を一時的に保存する配列ｗｏｒｄ
ｓ［］を空にする（ステップ５０１）。

【００３３】まず、先頭から１番目（ｉ＝１）の文字に
ついて（ステップ５０１、５０２）、その文字ｔ₁ がカ
タカナであるかどうかを判定する（ステップ５０４）。
カタカナである時、ｗｏｒｄｓ［］の末尾にｔ₁ を追加
する。初期状態ではｗｏｒｄｓ［］は空なので、ｔ₁ が
追加されてｗｏｒｄｓ［］の内容は「ｔ₁ 」となる。も
し、仮にこの配列の末尾へｔ₂ という語が追加される
と、配列の内容は「ｔ₁ｔ₂ 」になる。さらにｔ₃ が追
加されると「ｔ₁ ｔ₂ ｔ₃ 」となり以下、「ｔ₁ｔ₂ ｔ₃
ｔ₄ 」、「ｔ₁ ｔ₂ ｔ₃ ｔ₄ ｔ₅ ・・」という感じに
変化していく。そして次に２番目の文字（ｔ₂ ）につい
て調べることになる（ステップ５０２）。

【００３４】一方、ｔ_i （ｉ＝１）がカタカナでない場
合、何もせずに次の２番目の文字（ｔ₂ ）について調べ
ることになる（ステップ５０２）。ただし、その前にカ
タカナ文字を一時的に保存する配列ｗｏｒｄｓ［］の内
容が空かどうかを調べる（ステップ５０５）。ここで、
配列が空であれば単に次の２番目の文字（ｔ₂ ）につい
て調べる処理へ移る。

【００３５】一方、配列が空でない場合にはその直前の
文字までがカタカナ語であったことがわかるから、テキ
スト中の現在の位置ｉとカタカナの綴り文字列ｗｏｒｄ
ｓ［］を組にしたデータをＫ_j という変数に保存してお
く（ステップ５０６）。そして、テキスト中のカタカナ
語の数を表すカウンタｊに１を加算し、一時的にカタカ
ナ綴りを保持しておく配列ｗｏｒｄｓ［］の内容を再び
空にする（ステップ５０７）。そして、次の２番目の文
字（ｔ₂ ）について調べる処理へ移る。

【００３６】以上の処理は、入力テキスト中の文字数を
Ｎとするとｉ＝１〜ｉ＝ＮまでＮ回繰り返される。とこ
ろで、テキストの末尾（ｉ＝Ｎ）まで到達した時、最後
にｗｏｒｄｓ［］の内容が空であるかどうかをチェック
する（ステップ５０９）。これはテキストの末尾に到達
した時点で処理を終了してしまうと入力テキストがカタ
カナ語で終了している時にその最後のカタカナ語がカタ
カナ一覧Ｋ_j に格納されなくなってしまうためである。
そこで、ステップ５０９でｗｏｒｄｓ［］の内容をチェ
ックし、空でなければ入力テキストがカタカナ語で終わ
っていることがわかるので、ｉ＝Ｎとｗｏｒｄｓ［］に
格納されているカタカナの綴り文字列を組にしてＫ_jに
格納してから処理を終了する（ステップ５１０）。

【００３７】さらに、図６の実施形態のうち指定された
カタカナに対応する英単語を検索する英単語検索部２０
３とカタカナ語領域判定部２０２と英単語挿入部２０４
の指定された位置へ英単語を挿入する処理の流れを、図
９のフローチャートを参照して説明する。

【００３８】前記カタカナ語領域判定部２０２では、図
８の処理の流れによって入力テキスト中に存在する連続
するカタカナ文字で構成されるカタカナ語とそのテキス
ト中での位置を組にしたＫ_i （ｉ＝１〜Ｎ）が作られて
いる（ステップ６００）。

【００３９】この全部でＮ個あるＫ_i の１番目の要素か
ら順番に処理を行っていく（ステップ６０１、６０
２）。Ｋ₁ に格納されているカタカナの綴りＳ₁ に対応
する英単語をカタカナ語と英単語の対応表であるカタカ
ナ・英単語対応表２０５を使って調べる（ステップ６０
４）。ここで、Ｓ₁ に対応する英単語が存在しない時に
は、Ｋ₁ を廃棄し、何も処理しない（ステップ６０
５）。

【００４０】一方、対応する英単語Ｅ₁ が存在している
時は、Ｋ₁ に格納されているカタカナ語Ｓ₁ の入力テキ
スト中での位置Ｐ₁ へＥ₁ を挿入する（ステップ６０
６）。

【００４１】以上の処理はカタカナ語とその語の入力テ
キスト中の位置の組情報の総数をＮとするとｉ＝１〜ｉ
＝ＮまでＮ回繰り返される（ステップ６０２、６０
３）。従って、カタカナ語に対応する英単語の一覧を予
め用意しておき、文章中のカタカナ語の直後の位置にそ
のカタカナ語に対応する英単語を挿入する機能を設けた
ことで、ユーザがわざわざ英単語を発声せずとも英単語
混じりの文章を入力することができる。

【００４２】（第３の実施形態）次に、本発明の第３の
実施形態について説明する。図１０は本発明の第３の実
施形態に係わる音声認識装置の概略を示すブロック図で
ある。なお、図１、６において説明した部分と同一部分
は同一符号を用いる。

【００４３】図１０において、カタカナ語候補領域判定
部３０１は、指定されたテキスト中からカタカナ語の領
域を検出するものである。カタカナ語分割部３０２は前
記カタカナ語候補領域判定部３０１から渡されたカタカ
ナ語を構成要素の組に分割し、構成要素組の候補を英単
語構成要素検索部３０３へ渡すものである。前記英単語
構成要素検索部３０３は、図１１に示す前記カタカナ語
構成要素と前記英単語構成要素の対応を保持しているカ
タカナ英単語構成要素対応表３０５に対して分割された
カタカナ語の構成要素ごとに検索を行い、分割前のカタ
カナ語を構成する前記英単語構成要素の組を生成し、カ
タカナ語候補領域判定部３０１へ渡すものである。前記
カタカナ語候補領域判定部３０１では、１つのカタカナ
語に対応する複数個の英単語構成要素の組のうち、構成
要素の数が最小になるものを選択し、英単語候補を挿入
する位置と英単語候補の綴りを表す英単語候補挿入情報
を生成して、英単語候補挿入部３０４へ通知する。前記
英単語候補挿入部３０４は、前記テキストと前記カタカ
ナ語候補領域判定部３０１から渡される前記英単語候補
挿入情報に基づいて、テキスト中に英単語を挿入する。
表示部３０６は、前記英単語候補挿入部３０４によって
英単語が挿入されたテキストを表示するものである。

【００４４】ここで、「インターネットでは」という文
章に英単語を挿入するための動作について説明する。前
記コマンド制御部２０１では、ユーザからのマウスのク
リックや音声コマンド命令などにより、操作対象のテキ
ストの領域の指定と英単語挿入の命令を受け取る。次に
カタカナ語候補領域判定部３０１では、上記のテキスト
を受け取るとテキスト先頭から１文字ずつカタカナであ
るかどうか検査し、連続するカタカナ列をカタカナ語と
して検出し、そのテキスト中の位置とともに管理する。

【００４５】前記文章の場合では、＜７，インターネッ
ト＞という情報が管理されることになる。ここで、＜
７，インターネット＞は「インターネット」というカタ
カナ語の末尾がテキスト中の先頭から７文字目に位置し
ていることを表している。次に、前記カタカナ語候補領
域判定部３０１は検出したカタカナ語を前記カタカナ語
分割部３０２へ渡す。前記カタカナ語分割部３０２は
「インターネット」という語を分割し、ａ）「インター
／ネット」、ｂ）「イン／ター／ネット」、ｃ）「イ／
ン／タ／ー／ネ／ッ／ト」といった構成要素の組を生成
し（「／」は構成要素区切りを表す）、前記英単語構成
要素検索部３０３へ通知する。なお、本実施形態では簡
略化のために本来生成されるべき構成要素の組み合わせ
のうちの一部だけについて言及する。前記英単語構成要
素検索部３０３では、受け取った構成要素の各構成要素
についてカタカナ英単語構成要素対応表３０５中にカタ
カナ語構成要素が存在しているかどうかを検索する。構
成要素組中のすべてのカタカナ語構成要素がテーブル中
に存在する時、対応する英単語構成要素の組を前記カタ
カナ語候補領域判定部３０１へ通知する。一方、カタカ
ナ語構成要素中の少なくとも一つがテーブル中に該当す
るカタカナ語として存在しなかった時には、カタカナ語
構成要素組に対応する英単語は存在しなかったと通知す
る。

【００４６】例えば、先程の例は、ａ）ｉｎｔｅｒ−ｎ
ｅｔ「インター｜ネット」、ｂ）ｉｎ−ｔａｒ−ｎｅｔ
「イン｜ター｜ネット」、ｃ）該当なし「イ｜ン｜タ｜
ー｜ネ｜ッ｜ト」という英単語に変換される（「−」は
英単語構成要素区切りを表す）。

【００４７】前記カタカナ語候補領域判定部３０１で
は、これらの通知を受け、英単語が返された時は、カタ
カナ語の末尾の位置と英単語候補の組で表現される英単
語候補挿入情報を生成する。例えば、先の例のデータは
＜７，｛ｉｎｔｅｒ−ｎｅｔ，ｉｎ−ｔａｒ−ｎｅｔ｝
＞のように表されることになる。ここで、該当する英単
語が存在しないという通知を受けたものについては英単
語候補挿入情報は生成しない。この英単語候補挿入情報
を受け取った英単語候補挿入部３０４はテキストの該当
部分に指定された英単語を挿入したテキストを生成す
る。なお、ここで英単語の候補が複数存在する時には、
構成要素が最も少ないものを英単語として採用する。例
では、ｉｎｔｅｒ−ｎｅｔ（要素数２）、ｉｎ−ｔａｒ
−ｎｅｔ（要素数３）となるため、該当する英単語とし
ては要素数２のｉｎｔｅｒ−ｎｅｔが採用され、テキス
トの７文字目の直後に英単語（ｉｎｔｅｒｎｅｔ）を挿
入した「インターネット（ｉｎｔｅｒｎｅｔ）は」とい
うテキストが生成される。

【００４８】本実施例では、英単語の挿入箇所をカタカ
ナ語の直後にしているが、カタカナ語の直下や欄外でも
よく、カタカナ／英単語を置換しても構わない。また、
本実施例のように挿入する英単語の前後を括弧で括るな
ど、英単語の綴りに加工をしてもよい。

【００４９】次に、カタカナ語Ｋ＝Ｋ₁ Ｋ₂ Ｋ₃ という
カタカナを使った処理の流れを、図１２を参照して説明
する。ここで、Ｋ_i は任意のカタカナの1 文字をあらわ
している。

【００５０】いま、Ｋ＝Ｋ₁ Ｋ₂ Ｋ₃ というカタカナが
あるとき、最終的には分割の形式としてはＫ₁ −Ｋ₂ −
Ｋ₃ ，Ｋ₁ −Ｋ₂ Ｋ₃ ，Ｋ₁ Ｋ₂ −Ｋ₃ ，Ｋ₁ Ｋ₂ Ｋ₃
という４通りが存在することになる。ここで、「−」は
カタカナ文字の分割位置を表している。

【００５１】まず、分割処理はカタカナ文字列の最初の
１文字（Ｋ₁ ）と残りの部分文字列（Ｋ₂ Ｋ₃ ）に分割
する（ステップ７０４〜７０８）。次に文字列の先頭か
ら２文字目（Ｋ₁ Ｋ₂ ）までと残りの部分文字列に分割
するという感じで前文字列部分を１文字ずつ増やしてい
き（ステップ７０９〜７１０）、後文字列（上記「残り
の部分文字列」に該当する）がなくなるまで処理を繰り
返す（ステップ７０７）。そして、各分割処理後に「残
りの部分文字列」について再度分割処理を施す。

【００５２】例えばＫ₁ Ｋ₂ Ｋ₃ の時、まずＫ₁ −Ｋ₂
Ｋ₃ という分割を行った（ステップ７０１）後、残りの
部分文字列Ｋ₂ Ｋ₃ について再度分割処理を行う（ステ
ップ７０４〜７０８）。ここで、分割対象文字列Ｋ₂ Ｋ
₃ を再びまず１文字目と残りの部分に分割するから分割
後の文字列はＫ₂ −Ｋ₃ となる。

【００５３】ここで、さらに残りの部分Ｋ₃ について分
割処理することになる（ステップ７０９〜７１０）のだ
が、１文字しかなくもはやこれ以上分割できないことが
わかるので、この時点での分割位置がカタカナ語Ｋ₁ Ｋ
₂ Ｋ₃ の分割形式の１つの解であることがわかり、Ｋ₁
−Ｋ₂ −Ｋ₃ がその解として保存される（ステップ７１
１〜７１２）。

【００５４】次に、分割対象文字列Ｋ₂ Ｋ₃ を２文字目
と残りの部分に分割する。分割後の文字列はＫ₂ Ｋ₃ −
ＮＵＬＬとなる。ここで、分割対象の文字列Ｋ₂ Ｋ₃ は
２文字しかないため、「残りの部分文字列」は空（ＮＵ
ＬＬ）になる（ステップ７０９〜７１０）。

【００５５】そして、「残りの部分文字列」についてさ
らに分割処理をすることになるのだが、ここで分割対象
文字列が空であり分割処理が行えないことがわかるの
で、この時点での分割位置がカタカナ語Ｋ₁ Ｋ₂ Ｋ₃ の
分割形式の１つの解であることがわかり、Ｋ₁ −Ｋ₂ Ｋ
₃ がその解として保存される（ステップ７１１〜７１
２）。

【００５６】次にＫ₁ Ｋ₂ Ｋ₃ を2 文字目までの部分Ｋ
₁ Ｋ₂ と残りの部分Ｋ₃ に分割し（ステップ７１２〜７
１３）、さらに後文字列Ｋ₃ について分割処理を行う
（ステップ７０９〜７１０）。

【００５７】ここで、残りの部分Ｋ₃ が1 文字しかなく
もはやこれ以上分割できないことがわかるので、この時
点での分割位置がカタカナ語Ｋ₁ Ｋ₂ Ｋ₃ の分割形式の
1つの解であることがわかり、Ｋ₁ Ｋ₂ −Ｋ₃ がその解
として保存される（ステップ７１１〜７１２）。

【００５８】次に、Ｋ₁ Ｋ₂ Ｋ₃ を３文字目までの部分
Ｋ₁ Ｋ₂ Ｋ₃ と残りの部分に分割し（ステップ７１２〜
７１３）、さらに後文字列について分割処理を行う（ス
テップ７０９〜７１０）。

【００５９】ここで、分割対象文字列Ｋ₁ Ｋ₂ Ｋ₃ が文
字しかなかったので、後文字列は空になってしまい、分
割処理が行えないことがわかるので、この時点での分割
位置がカタカナ語Ｋ₁ Ｋ₂ Ｋ₃ の分割形式の1 つの解で
あることがわかり、Ｋ₁ Ｋ₂ Ｋ₃ がその解として保存さ
れる（ステップ７１１〜７１２）。

【００６０】これらの処理によってＫ₁ Ｋ₂ Ｋ₃ という
カタカナ語に対して、Ｋ₁ −Ｋ₂−Ｋ₃ ，Ｋ₁ −Ｋ₂ Ｋ₃
，Ｋ₁ Ｋ₂ −Ｋ₃ ，Ｋ₁ Ｋ₂ Ｋ₃ という４通りの分割
形式を作り出すことができる。

【００６１】上記の処理はカタカナ語が３文字の例で説
明したが、文字列長が4 文字以上になってもまったく同
様の手順で処理することができる。図１２のフローチャ
ートは分割対象の文字列がＮ文字であった時の処理手順
を表している。

【００６２】ここで、配列ｗｏｒｄｓ［］は分割した形
式のすべてのケースを保持するための配列であり、先程
の例では、ｗｏｒｄｓ［１］＝K ₁ −K ₂ −K ₃ 、ｗｏ
ｒｄｓ［２］＝K ₁ −K ₂ K ₃ 、ｗｏｒｄｓ［３］＝K
₁ K ₂ −K3、ｗｏｒｄｓ［４］＝K ₁ K ₂ K ₃という値
が保存されることになる。

【００６３】また、ｊは分割形式の数を表すためのカウ
ンタである。Lは文字列の分割処理が最初に与えられた
文字列に対する分割処理の時から数えて何回目の分割処
理であるかを表している。例えば、K ₁ K ₂ K ₃ の時、
K ₁と残りK ₂ K ₃ に分割する処理は1 回目（Ｌ= １）
であり、この残りの部分K ₂K ₃ をK ₂ とK ₃ に分割す
る処理は2 回目（Ｌ＝２）となる。

【００６４】また、ｈｅａｄ［Ｌ］はＬ回目の分割の時
の前文字列の末尾の位置（最初に与えられた文字列の先
頭文字から数えて何文字目か）を表し、ｔａｉｌ［Ｌ］
はＬ回目の分割の時の後文字列の先頭の位置（最初に与
えられた文字列の先頭文字から数えて何文字目か）を表
す。したがって、K ₁ K ₂ K ₃ を１回目の分割処理でK
₁ −K ₂ K ₃ に分割した時にはｈｅａｄ［１］＝１、ｔ
ａｉｌ［１］＝２となり、K ₁ K ₂ −K ₃ に分割した時
にはｈｅａｄ［１］＝２、ｔａｉｌ［１］＝３となる。

【００６５】ここで、図１０の実施形態のうち指定され
たカタカナに対応する英単語を検索する英単語構成要素
検索部３０３とカタカナ語候補領域判定部３０１と英単
語候補挿入部３０４の指定された位置へ英単語候補を挿
入する処理の流れを、図１３のフローチャートを参照し
て説明する。

【００６６】カタカナ語分割部３０２では、図１２の処
理の流れによって入力テキスト中に存在する連続するカ
タカナ文字で構成されるカタカナ語を分割しＳＳ_i 、テ
キスト中でのそのカタカナ語の位置Ｐ_i を組にしたＫ_i
（ｉ＝１〜Ｎ）が作られている（ステップ８００）。

【００６７】一般にカタカナ語の分割形式には複数通り
あり得る。そこで、分割形式における各要素を｛Ｓ
_ij［ｋ］｝という形で表現する。ここで、ｉはカタカナ
綴りとテキスト中の位置の組Ｋ_i における番号を表す
（ｉ＝１〜Ｎ）。ｊは１つのカタカナ綴りに対して存在
する複数の分割形式の番号を表す（ｊ＝１〜ｎ）。ｋは
ある分割形式におけるカタカナ構成要素数を表す。

【００６８】例えば、入力テキスト中の先頭からｉ番目
の組Ｋ_i のカタカナ語の分割されたカタカナ綴りの1 番
目の要素は｛Ｓ_i1［１］−Ｓ_i1［２］−・ …−Ｓ_i1［Ｌ
_i1］｝と表される。ここで、Ｓ_i1のｉ１はｉ番目の組Ｋ
_i におけるカタカナ語の分割されたカタカナ綴りの1 番
目の要素（分割候補）であることを表し、［１］は分割
されたカタカナ綴り（分割候補）のうちの分割要素のう
ち単語頭から１番目の要素であることを表し、Ｌ_i1は分
割されたカタカナ綴りの1 番目の要素の構成要素数を表
している。このことからＳ_i1［１］は分割されたカタカ
ナ綴りの1 番目の要素のうちの単語頭から1 番目の要素
を表し、以下Ｓ_i1［２］は単語頭から2 番目の要素、
…、Ｓ_i1［Ｌ_i1］は単語末の要素を表す。

【００６９】次に各構成要素のカタカナ綴りを英単語に
変換する。前記英単語構成要素検索部３０３は前記カタ
カナ・英単語構成要素対応表３０５を使って個々のカタ
カナ綴りを英単語に変換していく。ここで、ＳＳ_i の1
番目の綴りの単語頭から1番目の要素Ｓ_i1［１］がＥ_i1
［１］に変換されたとする。以下同様に、Ｓ_i1［２］が
Ｅ_i1［２］、…、Ｓ_i1［Ｌ_i1］がＥ_i1［Ｌ_i1］に変換さ
れることになる（ステップ８０４）。

【００７０】次に、ｎ個の綴り候補のうち綴りの構成要
素数（Ｌ_i1〜Ｌ_in）が最も小さいものを求める。いま、
ｎ個の綴り分割候補のうちｘ番目の分割候補が最小であ
ったとする（ステップ８０５）。

【００７１】その時、｛Ｅ_ix［１］−Ｅ_ix［２］−…−
Ｅ_ix［Ｌ_ix］｝がカタカナ綴りＳ_i に対応する英単語候
補となる（ステップ８０６）。あとはテキスト中の位置
Ｐ_i へこの英単語候補を挿入するだけである（ステップ
８０７）。

【００７２】以上の処理はカタカナ語とその語の入力テ
キスト中の位置の組情報の総数をＮとするとｉ＝１〜ｉ
＝ＮまでＮ回繰り返される（ステップ８０２、８０
３）。このように、カタカナ語と英単語との対応表を単
語の構成要素に分割することによって、少ない対応表だ
けでより多くのカタカナ語と英単語の対応を表現するこ
とができる。また、新規の造語に対しても対応表やシス
テムを変更することなく即座に対応することができる。

【００７３】

【発明の効果】以上詳述したように本発明によれば、日
本語ディクテーションシステムに入力音声を日本語とし
て処理する日本語モードと英字だけとして処理する英語
モードを設け、ユーザの入力音声の発声の仕方に基づい
て認識途中で２つのモードを切り替えて英単語を高精度
に音声認識することができるようになる。

【００７４】また、カタカナ語と英単語の対応表を用意
することにより、ユーザが英単語を発声せずとも英単語
を入力することができるようになる。さらに、カタカナ
語を構成要素に分割し、各構成要素と英単語の構成要素
との対応表を用意することにより、少ない対応表だけで
カタカナ語と英単語との対応を取り扱うことができるよ
うになる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係わる日本語ディク
テーションシステムの概略構成を示すブロック図であ
る。

【図２】第１の実施形態における日本語モード用の認識
辞書の構成を説明するための図である。

【図３】第１の実施形態における英語モード用の認識辞
書の構成を説明するための図である。

【図４】第１の実施形態における入力した時の入力音声
と無音部の継続時間を示す図である。

【図５】第１の実施形態における音声継続時間判定部１
０２の動作を説明するためのフローチャートである。

【図６】本発明の第２の実施形態に係わる日本語ディク
テーションシステムの概略構成を示すブロック図であ
る。

【図７】第２の実施形態におけるカタカナ・英単語の対
応表を説明するための図である。

【図８】第２の実施形態におけるカタカナ語領域判定部
２０２のカタカナ語を切り出す動作を説明するためのフ
ローチャートである。

【図９】第２の実施形態におけるカタカナ語領域判定部
２０２と英単語検索部２０３と英単語挿入部２０４の動
作を説明するためのフローチャートである。

【図１０】本発明の第３の実施形態に係わる日本語ディ
クテーションシステムの概略構成を示すブロック図であ
る。

【図１１】第３の実施形態におけるカタカナ・英単語構
成要素対応表を説明するための図である。

【図１２】第３の実施形態におけるカタカナ語分割部３
０２の動作を説明するためのフローチャートである。

【図１３】第３の実施形態におけるカタカナ語候補領域
判定部３０１と英単語構成要素検索部３０３と英単語候
補挿入部３０４の動作を説明するためのフローチャート
である。

【符号の説明】

１０１音声入力装置１０２音声継続時間測定部１０３音声認識処理部１０４日本語モード用認識辞書１０５英語モード用認識辞書１０６表示部２０１コマンド制御部２０２カタカナ語領域判定部２０３英単語検索部２０４英単語挿入部２０５カタカナ・英単語対応表３０１カタカナ語候補領域判定部３０２カタカナ語分割部３０３英単語構成要素検索部３０４英単語候補挿入部３０５カタカナ・英単語構成要素対応表

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/00 Ｇ１０Ｌ 3/00 ５５１Ｂ

Claims

【特許請求の範囲】

【請求項１】有音部と無音部からなる入力音声を受取
る音声入力部と、前記入力音声を日本語の文章として認識するための日本
語モード認識辞書と、英字が登録されている英語モード認識辞書と、該音声入力部によって受取られた前記入力音声の前記有
音部の継続時間を判定すると共に、前記有音部の直前と
直後の前記無音部の継続時間を判定し、前記日本語モー
ド認識辞書または英語モード認識辞書のいずれかの使用
を判定する音声継続時間判定部と、前記音声継続時間判定部によって判定された辞書を使用
して、前記入力音声を認識する音声認識処理部とを具備
することを特徴とする日本語ディクテーションシステ
ム。
【請求項２】前記音声継続時間判定部は、前記有音部
の継続時間が所定値より短く、且つ、前記有音部の直前
と直後にある前記無音部の継続時間を加減算した値が所
定値範囲内にある場合、前記英語モード認識辞書を使用
するよう前記音声認識処理部に通知することを特徴とす
る請求項１記載の日本語ディクテーションシステム。
【請求項３】前記英語モード認識辞書は英字だけが登
録されていることを特徴とする請求項１記載の日本語デ
ィクテーションシステム。
【請求項４】テキスト文書を制御するコマンド制御部
と、カタカナ語と英単語の対応が保持されているカタカナ・
英単語保持部と、前記コマンド制御部の制御に基づいて、前記テキスト文
書からカタカナ語の領域を検出するカタカナ語領域判定
部と、前記カタカナ語領域判定部によって検出されたカタカナ
語を受け取り、前記カタカナ・英単語保持部からカタカ
ナ語に対応する英単語を検索する英単語検索部と、前記カタカナ語領域判定部によって判定された前記領域
に前記英単語検索部によって検索された英単語を挿入す
る英単語挿入部とを具備することを特徴とする日本語デ
ィクテーションシステム。
【請求項５】テキスト文書を制御するコマンド制御部
と、カタカナ語と英単語がそれぞれ構成要素毎に対応されて
保持されているカタカナ・英単語構成要素保持部と、前記コマンド制御部の制御に基づいて、前記テキスト文
書からカタカナ語の領域を検出するカタカナ語候補領域
判定部と、前記カタカナ語候補領域判定部によって検出されたカタ
カナ語を受け取り、このカタカナ語を構成要素の組に分
割するカタカナ語分割部と、前記カタカナ・英単語構成要素保持部から前記カタカナ
語の構成要素に対応する英単語の構成要素を検索する英
単語構成要素検索部と、前記カタカナ語候補領域判定部によって判定された前記
領域に前記英単語構成要素検索部によって検索された前
記英単語構成要素を挿入する英単語候補挿入部とを具備
することを特徴とする日本語ディクテーションシステ
ム。
【請求項６】カタカナ語領域判定部は、前記英単語検
索部から検索された英単語の綴りとテキスト文書に対す
る挿入位置情報を生成し、前記英単語挿入部に通知する
ことを特徴とする請求項４または請求項５記載の日本語
ディクテーションシステム。