JP2000276189A - 日本語ディクテーションシステム - Google Patents

日本語ディクテーションシステム

Info

Publication number
JP2000276189A
JP2000276189A JP11080741A JP8074199A JP2000276189A JP 2000276189 A JP2000276189 A JP 2000276189A JP 11080741 A JP11080741 A JP 11080741A JP 8074199 A JP8074199 A JP 8074199A JP 2000276189 A JP2000276189 A JP 2000276189A
Authority
JP
Japan
Prior art keywords
katakana
english
unit
english word
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11080741A
Other languages
English (en)
Inventor
Hisayoshi Nagae
尚義 永江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP11080741A priority Critical patent/JP2000276189A/ja
Publication of JP2000276189A publication Critical patent/JP2000276189A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 日本語ディクテーションシステムにおいて、
ユーザの入力音声の発音の仕方に基づいて認識途中で2
つのモードを切り替えて音声入力された英単語の認識精
度を向上させることを目的とする。 【解決手段】 有音部と無音部からなる入力音声を受取
る音声入力部101と、この入力音声を日本語の文章と
して認識するための日本語モード認識辞書104と、英
字が登録されている英語モード認識辞書105と、該音
声入力部によって受取られた入力音声の有音部の継続時
間を判定すると共に、有音部の直前と直後の無音部の継
続時間を判定し、日本語モード認識辞書または英語モー
ド認識辞書のいずれかの使用を判定する音声継続時間判
定部102と、該音声継続時間判定部によって判定され
た辞書を使用して、入力音声を認識する音声認識処理部
103とを具備することを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声で主に日本
語の文章の入力を行うことを目的とした日本語ディクテ
ーションシステムに係り、特にユーザの発声の仕方に基
づいて英単語入力を行う日本語ディクテーションシステ
ムに関する。
【0002】
【従来の技術】入力音声を文字列として認識するディク
テーションシステムでは、一般に認識可能な単語が格納
されている認識辞書中の語彙数(即ち、認識可能な単語
数)が多くなればなるほど高精度な認識が難しくなる。
その為、認識辞書の語彙は可能な限り制限されており、
日常良く使われる語だけが選別されて登録されていた。
例えば、従来の一般的な日本語ディクテーションシステ
ムの認識辞書には5千語から5万語程度の単語が登録さ
れているだけである。
【0003】このように単語数が制限された状況では、
日本語を数多く登録することに注力するあまり英単語に
ついては全く登録されていないのが現状である。そこで
は、認識辞書には単独の英字だけがそれぞれ1つの単語
として登録され、ユーザが英単語を入力する場合には、
例えば「ASIA(アジア)」という英単語を入力する
場合には、「A(エイ)−S(エス)−I(アイ)−A
(エイ)」のように英単語を構成する綴りを英字1文字
ずつ発声して入力しなければならなかった。
【0004】
【発明が解決しようとする課題】しかしながら、上記し
た従来の日本語ディクテーションシステムでは、英単語
を入力する場合、例えば「A(エイ)」という音は日本
語の「英」、「泳」などと同じ音であるために、ユーザ
が英字の羅列のつもりで入力しても英単語として正しく
認識することは非常に困難であった。また、学術論文な
ど文章中に英単語を挿入するケースが頻繁にある文章を
音声で入力する時などは、認識精度が著しく低下してし
まっていた。
【0005】本発明は上記の問題点を解決するためにな
されたものであり、日本語ディクテーションシステム中
に入力音声を日本語として処理する日本語モードと英字
だけとして処理する英語モードを設け、ユーザの入力音
声の発音の仕方に基づいて認識途中で2つのモードを切
り替えて音声入力された英単語の認識精度を向上させる
ことのできる日本語ディクテーションシステムを提供す
ることを目的とする。
【0006】
【課題を解決するための手段】本発明の請求項1に係る
日本語ディクテーションは、有音部と無音部からなる入
力音声を受取る音声入力部と、前記入力音声を日本語の
文章として認識するための日本語モード認識辞書と、英
字が登録されている英語モード認識辞書と、該音声入力
部によって受取られた前記入力音声の前記有音部の継続
時間を判定すると共に、前記有音部の直前と直後の前記
無音部の継続時間を判定し、前記日本語モード認識辞書
または英語モード認識辞書のいずれかの使用を判定する
音声継続時間判定部と、前記音声継続時間判定部によっ
て判定された辞書を使用して、前記入力音声を認識する
音声認識処理部とを具備することを特徴とする。
【0007】このような構成によれば、ユーザが英字毎
に1文字ずつに区切り、だいたい同じような間隔で発声
する、という手順で音声入力した時には、入力音声を2
6個の英字の何れかであるとして認識処理する。一方、
ユーザがなるべく長く発声する、或いは前後のポーズ長
を調整しながら発声することによって、該当部分を日本
語の文章として認識処理させることによって、モード切
り替えを明示的に行わずともシステムが英単語部分を的
確に判別し、高精度な認識処理を実現することができ
る。
【0008】また請求項4では、テキスト文書を制御す
るコマンド制御部と、カタカナ語と英単語の対応が保持
されているカタカナ・英単語保持部と、前記コマンド制
御部の制御に基づいて、前記テキスト文書からカタカナ
語の領域を検出するカタカナ語領域判定部と、前記カタ
カナ語領域判定部によって検出されたカタカナ語を受け
取り、前記カタカナ・英単語保持部からカタカナ語に対
応する英単語を検索する英単語検索部と、前記カタカナ
語領域判定部によって判定された前記領域に前記英単語
検索部によって検索された英単語を挿入する英単語挿入
部とを具備することを特徴とする。
【0009】このような構成によれば、ユーザが指定し
た日本語テキスト中に存在するカタカナ語を検出し、そ
のカタカナ語に対応する英単語をカタカナ・英単語対応
表から検索し、テキスト中のカタカナ語の直後に括弧で
囲んで自動的に挿入することができる。これにより、ユ
ーザがわざわざ英単語を発声して入力しなくても英単語
を挿入したいテキストの領域を選択し、後は英単語を挿
入する命令をマウス或いは音声コマンドで指定するだけ
で英単語を含む日本語テキストを作成することができ
る。
【0010】また請求項5では、テキスト文書を制御す
るコマンド制御部と、カタカナ語と英単語がそれぞれ構
成要素毎に対応されて保持されているカタカナ・英単語
構成要素保持部と、前記コマンド制御部の制御に基づい
て、前記テキスト文書からカタカナ語の領域を検出する
カタカナ語候補領域判定部と、前記カタカナ語候補領域
判定部によって検出されたカタカナ語を受け取り、この
カタカナ語を構成要素の組に分割するカタカナ語分割部
と、前記カタカナ・英単語構成要素保持部から前記カタ
カナ語の構成要素に対応する英単語の構成要素を検索す
る英単語構成要素検索部と、前記カタカナ語候補領域判
定部によって判定された前記領域に前記英単語構成要素
検索部によって検索された前記英単語構成要素を挿入す
る英単語候補挿入部とを具備することを特徴とする。
【0011】このような構成によれば、カタカナ語と英
単語との対応表を単語の構成要素に分割することによっ
て、少ない対応表だけでより多くのカタカナ語と英単語
の対応を表現することができる。また新語の造語に対し
ても対応表やシステムを変更することなく即座に対応す
ることができる。
【0012】
【発明の実施の形態】以下、図面を参照しながら本発明
の実施形態を説明する。 (第1の実施形態)図1は本発明の第1の実施形態に係
わる日本語ディクテーションシステムの構成を示すブロ
ック図である。
【0013】音声入力部101は、マイクロホン等から
なり、ユーザ100から発声された音声を受取るもので
ある。音声継続時間判定部102、はマイクロホン等の
音声入力部101からユーザ100の入力音声を受け取
り、直前のポーズ(無音部)の継続時間を記憶してお
き、その直後の音声の継続時間と直後のポーズの継続時
間の2つを計測するものである。そして、この音声継続
時間判定部102は音声の継続時間が一定値より短く、
かつ入力音声直後のポーズの継続時間が入力音声直前の
ポーズの継続時間とほぼ同じ時には、英語モードで動作
するように指示し、それ以外のケースでは日本語モード
での動作を指示する。英単語を発声する場合、英字(ア
ルファベット)1字1字の継続時間は大抵一定である。
【0014】音声認識処理部103は、前記音声継続時
間判定部102からの通知に基づき日本語、英語の2つ
のモードを切り替えて動作するものである。日本語モー
ドとは、認識辞書に日本語が登録されている日本語モー
ド用認識辞書104を使用した認識処理手順であり、入
力音声を日本語の文章として認識することができる。一
方、英語モードとは、認識辞書に英字だけが登録されて
いる英語モード用認識辞書105を使用した認識処理手
順であり、入力音声を英字としてのみ認識することがで
きる。音声データと認識辞書を使って音声認識を行う方
式については、例えば「「確率モデルによる音声認識」
(中川聖一著)電子情報通信学会(ISBN4―885
52―072―X)」」に紹介されており、何れの方法
であっても構わない。表示部106は、前記音声認識処
理部103で認識された結果を表示するものである。
【0015】また本発明の認識辞書に関して言うと、図
2に示すように日本語モード用の認識辞書では、英字の
単語が日本語モード用の認識辞書中に追加されている。
一方、図3の英語モード用の認識辞書では、認識辞書中
には英字のみが登録されている。
【0016】ここで、「新型テレビジョン(telev
ision)を開発しました。」という文章を入力する
ための動作について説明する。まず、文章は従来の日本
語ディクテーションシステムと同様に「しんがた|てれ
びじょん|ひらきかっこ|てぃー|いー|える|いー|
える|ぶい|あい|えす|あい|おー|えぬ|とじかっ
こ|を|かいはつ|しました|まる」という発音の音声
データとして入力されたとする。ここで「|」は発音列
を見やすくするための記号であり、特に意味はない。ま
た、日本語部分については発声単位は特に限定しない。
単語単位や文節単位で区切ってもよいし、ひとまとまり
にまとめて連続して発声しても構わない。
【0017】そして、本発明の日本語ディクテーション
システムでは英単語部分は英字1文字ごとに区切り、そ
の直前と直後に一定時間のポーズ(無音部)を置いて発
声しなければならない。ただし、ここでのポーズの継続
時間(ポーズ長)は予めシステムで決められた数値であ
る必要はなく、英字を発声した直前に置かれたポーズの
継続時間に一定のマージン値を加減算した値として計算
される数値の範囲に含まれていればよい。なお、英字1
文字の発音はいずれも短いことが明らかなので音声入力
が一定時間以上継続した場合には日本語が入力されたと
して日本語モードで動作する。
【0018】図4は、入力音声と無音部の継続時間の例
を示すものである。いま、図4のように音声入力された
とする。ここで英字1文字の最大発声継続時間を1秒、
ポーズの継続時間が同一であるとみなすマージンを±
0. 3秒とする。この最大発声継続時間やマージン値は
変更してもよい。
【0019】まず、「しんがた」「てれびじょん」「ひ
らきかっこ」という発音は、いずれも英字の最大発声継
続時間(1秒)を越えているために日本語として処理さ
れる。次に「ひらきかっこ」の直後の0. 5秒のポーズ
の後、「てぃー」という音が0. 9秒入力され、その後
0. 6秒のポーズが置かれている。この発声は、発声長
が1秒以下であり、かつ発声の直後のポーズ(0. 6
秒)が発声の直前のポーズにマージン値を加減算した値
の範囲(0. 2〜0. 8秒)に含まれている。そこで、
「てぃー」という音声は英字として認識処理されること
になる。ここで、図3のように英字しか登録されていな
い英語モード専用の認識辞書105では「てぃー」とい
う発音に近い語の候補には「t」しかないために、前述
した文献に紹介されている方法であれば非常に高い確率
で入力音声を「t」という語として認識することができ
る。
【0020】その次に「いー」という音が0. 8秒間入
力され、その後0. 4秒のポーズが置かれている。ここ
で、発声長(0. 8秒≦1秒)、ポーズ長(0. 3秒≦
0.4秒≦0. 9秒)の両方の条件がみたされているの
でこの部分も英語モードとして動作する。以下、「え
ぬ」の部分までは同様の手順で英語モードとして認識処
理が進められる。そして、「えぬ」の次に0. 7秒のポ
ーズが置かれ、1. 2秒の音声「ひらきかっこ」が続
き、その後に1秒のポーズが続いている。ここで、ポー
ズ長は0. 4秒≦1秒≦1. 1秒の条件を満たしている
が、発声長が最大発声継続時間(1秒)を越えているの
で、この部分は日本語モードで処理される。さらにその
次には0. 6秒の音声「を」と0. 3秒のポーズが入力
されている。この部分は発声長は0. 6秒≦1秒だが、
ポーズ長が0. 7秒〜1. 3秒の範囲にないためにやは
り日本語モードで処理されることになる。そして、最後
の「かいはつしましたまる」という部分についても日本
語モードとして処理されて、最終的には「新型テレビジ
ョン(television)を開発しました。」とい
う認識結果が得られることになる。
【0021】次に、音声継続時間測定部102の処理の
流れを、図5のフローチャートを参照して説明する。
今、ユーザが一息で発声して入力した音声をOi とす
る。ここでiは先頭から何番目の入力音声であるかを表
す番号である(i=1〜N)。一般にユーザの息継ぎ等
のために2つの入力音声の間には無音の区間(ポーズ)
が存在する。ここで、先頭からi番目の入力音声の直前
の無音の継続時間をPi-1 、直後の無音の継続時間をP
i と表記する(ステップ400)。
【0022】まず、先頭から1番目(i=1)の入力音
声について(ステップ402、403)、入力音声の発
声時間Si (i=1)をアルファベット1文字の発声時
間の最大長である「英字の最大発声時間」と比較する
(ステップ405)。そして、もしSi が英字の最大発
声時間よりも長い場合には、日本語が入力されたと判断
して日本語モードで音声認識処理部103を動作させ、
入力音声に近い発音の日本語の単語の中から入力された
音声を識別する(ステップ408)。
【0023】一方、Si が英字の最大発声時間よりも短
い場合には処理はステップ406へ進む。ステップ40
6では、入力音声の直前(Pi-1 )と直後(Pi )のポ
ーズ長(つまりは先頭からi−1番目とi番目のポーズ
の長さ)を測定する。例えば、先頭から1番目の入力音
声について処理している場合には先頭から0番目と1番
目のポーズ長であるP0 とP1 の時間を測定することに
なる。ここで、0番目という順番は存在しないので特別
にP0 はP1 と同じ値であるとして処理する。
【0024】Pi-1 とPi のそれぞれのポーズ長を測定
したら、次にその差分を求めその差が予め決められたポ
ーズ長のマージン以下であるかどうかを判定する(ステ
ップ406)。ここでもしポーズ長の差(Pi −P
i-1 )がポーズ長のマージン以下でなかった時には、日
本語が入力されたと判断して日本語モードで音声認識処
理103を動作させ、入力音声に近い発音の日本語の単
語の中から入力された音声を識別する(ステップ40
8)。
【0025】一方、ポーズ長の差がポーズ長のマージン
以下の時には、英字が入力されたと判断して英語モード
で音声認識処理部103を動作させ、入力音声に近い発
音の英字の中から入力された音声を識別する(ステップ
407)。
【0026】以上の処理は、入力音声の総数をNとする
とi=1〜i=NまでN回繰り返される。このように英
単語の部分についてだけ、英字ごとに1文字ずつに区切
り、だいたい同じような間隔で発声する、という手順で
音声入力し、それ以外の日本語の部分についてはなるべ
く長く発声する、あるいは前後のポーズ長を調整しなが
ら発声することによって、面倒なモード切り替えをユー
ザが明示的に行うことなく、システムが英単語部分を的
確に判別し、高精度な認識処理を実現することができる
ようになる。
【0027】(第2の実施形態)次に、本発明の第2の
実施形態について説明する。図6は本発明の第2の実施
形態に係わる音声認識装置の概略構成を示すブロック図
である。なお、図1において説明した部分と同一部分は
同一符号を用いる。
【0028】コマンド制御部201は、ユーザ100か
らの英単語挿入命令と操作対象のテキストを受け取るも
のである。カタカナ語領域判定部202は、前記コマン
ド制御部201からの通知に基づき、指定されたテキス
ト中からカタカナ語の領域を検出するものである。ここ
で、カタカナ語とは連続するカタカナのみで構成される
単語を意味している。英単語検索部203は、カタカナ
語領域判定部で検出されたカタカナ語を受け取り、図7
に示すカタカナ語と英単語の対応を保持しているカタカ
ナ・英単語対応表205からカタカナ語に対応する英単
語を検索し、カタカナ語領域判定部202へ通知するも
のである。そして、前記カタカナ語領域判定部202で
は、前記英単語検索部203からの英単語情報に基づい
て、英単語の挿入位置と英単語の綴りを表す英単語挿入
情報を生成し、英単語挿入部204へ通知するものであ
る。英単語挿入部204は、前記テキストと前記カタカ
ナ語領域判定部202から渡される前記英単語挿入情報
に基づいて、テキスト中に英単語を挿入する。表示部2
06は、前記英単語挿入部204によって英単語が挿入
されたテキストを表示するものである。
【0029】ここで、「このプログラムのインタフェー
スは洗練されています。」という文章に英単語を挿入す
るための動作について説明する。コマンド制御部201
では、ユーザ100からのマウスのクリックや音声コマ
ンド命令などにより、操作対象のテキストの領域の指定
と英単語挿入の命令を受け取る。次にカタカナ語領域判
定部202では、上記のテキストを受け取るとテキスト
先頭から1文字ずつカタカナであるかどうか検査し、連
続するカタカナ列をカタカナ語として検出し、そのテキ
スト中の位置とともに管理する。
【0030】前記文章の場合では、〈7,プログラ
ム〉、〈15,インタフェース〉という情報が管理され
ることになる。ここで、〈7,プログラム〉は「プログ
ラム」というカタカナ語の末尾がテキスト中の先頭から
7文字目に位置していることを表している。英単語検索
部203では、前記カタカナ語領域判定部202で検出
されたカタカナ語の綴りを受け取り、内部で保持してい
るカタカナ語と英単語の対応表であるカタカナ・英単語
対応表205中を検索し、テーブル中にカタカナ語が存
在しているかどうかを検索する。テーブル中に該当する
カタカナ語が存在する時、その英単語をカタカナ語領域
判定部202へ通知する。一方、テーブル中に該当する
カタカナ語が存在しなかった時には、その旨を通知す
る。カタカナ語領域判定部202では、これらの通知を
受け、英単語が返された時は、カタカナ語の末尾の位置
と英単語を組にした英単語挿入情報を生成する。ただ
し、該当する英単語が存在しないものについては英単語
挿入情報を作成せずに削除する。これより先のカタカナ
語と位置情報から〈7,program〉、〈15,i
nterface〉という英単語挿入情報が生成される
ことになる。
【0031】前記カタカナ語領域判定部202で生成さ
れた英単語挿入情報を受け取った前記英単語挿入部20
4はテキストの該当部分(例では7文字目と15文字目
の直後)に指定された英単語(programとint
erface)を挿入する。このような処理の流れによ
って、「このプログラムのインタフェースは洗練されて
います。」という文章は「このプログラム(progr
am)のインタフェース(interface)は洗練
されています。」という形式に変換されることになる。
本実施例では、英単語の挿入箇所をカタカナ語の直後に
しているが、カタカナ語の直下、欄外などでもよく、ま
たカタカナ/英単語を置換してもよい。さらに、本実施
例のように挿入する英単語の前後を括弧で括るなど、英
単語の綴りに加工をしてもよい。
【0032】次に、カタカナ語領域判定部202のカタ
カナ語を切り出す処理の流れを、図8のフローチャート
を参照して説明する。N文字で構成される入力テキスト
Tの各文字をti と表記する(ステップ500)。ここ
で、iは先頭から何番目の文字であるかを表す番号であ
る(i=1〜N)。すべての処理の前に入力テキストの
カタカナ語の個数を表すカウンタjを0に設定し、さら
にカタカナ文字列を一時的に保存する配列word
s[]を空にする(ステップ501)。
【0033】まず、先頭から1番目(i=1)の文字に
ついて(ステップ501、502)、その文字t1 がカ
タカナであるかどうかを判定する(ステップ504)。
カタカナである時、words[]の末尾にt1 を追加
する。初期状態ではwords[]は空なので、t1
追加されてwords[]の内容は「t1 」となる。も
し、仮にこの配列の末尾へt2 という語が追加される
と、配列の内容は「t12 」になる。さらにt3 が追
加されると「t123 」となり以下、「t123
4 」、「t12345 ・・」という感じに
変化していく。そして次に2番目の文字(t2 )につい
て調べることになる(ステップ502)。
【0034】一方、ti (i=1)がカタカナでない場
合、何もせずに次の2番目の文字(t2 )について調べ
ることになる(ステップ502)。ただし、その前にカ
タカナ文字を一時的に保存する配列words[]の内
容が空かどうかを調べる(ステップ505)。ここで、
配列が空であれば単に次の2番目の文字(t2 )につい
て調べる処理へ移る。
【0035】一方、配列が空でない場合にはその直前の
文字までがカタカナ語であったことがわかるから、テキ
スト中の現在の位置iとカタカナの綴り文字列word
s[]を組にしたデータをKj という変数に保存してお
く(ステップ506)。そして、テキスト中のカタカナ
語の数を表すカウンタjに1を加算し、一時的にカタカ
ナ綴りを保持しておく配列words[]の内容を再び
空にする(ステップ507)。そして、次の2番目の文
字(t2 )について調べる処理へ移る。
【0036】以上の処理は、入力テキスト中の文字数を
Nとするとi=1〜i=NまでN回繰り返される。とこ
ろで、テキストの末尾(i=N)まで到達した時、最後
にwords[]の内容が空であるかどうかをチェック
する(ステップ509)。これはテキストの末尾に到達
した時点で処理を終了してしまうと入力テキストがカタ
カナ語で終了している時にその最後のカタカナ語がカタ
カナ一覧Kj に格納されなくなってしまうためである。
そこで、ステップ509でwords[]の内容をチェ
ックし、空でなければ入力テキストがカタカナ語で終わ
っていることがわかるので、i=Nとwords[]に
格納されているカタカナの綴り文字列を組にしてKj
格納してから処理を終了する(ステップ510)。
【0037】さらに、図6の実施形態のうち指定された
カタカナに対応する英単語を検索する英単語検索部20
3とカタカナ語領域判定部202と英単語挿入部204
の指定された位置へ英単語を挿入する処理の流れを、図
9のフローチャートを参照して説明する。
【0038】前記カタカナ語領域判定部202では、図
8の処理の流れによって入力テキスト中に存在する連続
するカタカナ文字で構成されるカタカナ語とそのテキス
ト中での位置を組にしたKi (i=1〜N)が作られて
いる(ステップ600)。
【0039】この全部でN個あるKi の1番目の要素か
ら順番に処理を行っていく(ステップ601、60
2)。K1 に格納されているカタカナの綴りS1 に対応
する英単語をカタカナ語と英単語の対応表であるカタカ
ナ・英単語対応表205を使って調べる(ステップ60
4)。ここで、S1 に対応する英単語が存在しない時に
は、K1 を廃棄し、何も処理しない(ステップ60
5)。
【0040】一方、対応する英単語E1 が存在している
時は、K1 に格納されているカタカナ語S1 の入力テキ
スト中での位置P1 へE1 を挿入する(ステップ60
6)。
【0041】以上の処理はカタカナ語とその語の入力テ
キスト中の位置の組情報の総数をNとするとi=1〜i
=NまでN回繰り返される(ステップ602、60
3)。従って、カタカナ語に対応する英単語の一覧を予
め用意しておき、文章中のカタカナ語の直後の位置にそ
のカタカナ語に対応する英単語を挿入する機能を設けた
ことで、ユーザがわざわざ英単語を発声せずとも英単語
混じりの文章を入力することができる。
【0042】(第3の実施形態)次に、本発明の第3の
実施形態について説明する。図10は本発明の第3の実
施形態に係わる音声認識装置の概略を示すブロック図で
ある。なお、図1、6において説明した部分と同一部分
は同一符号を用いる。
【0043】図10において、カタカナ語候補領域判定
部301は、指定されたテキスト中からカタカナ語の領
域を検出するものである。カタカナ語分割部302は前
記カタカナ語候補領域判定部301から渡されたカタカ
ナ語を構成要素の組に分割し、構成要素組の候補を英単
語構成要素検索部303へ渡すものである。前記英単語
構成要素検索部303は、図11に示す前記カタカナ語
構成要素と前記英単語構成要素の対応を保持しているカ
タカナ英単語構成要素対応表305に対して分割された
カタカナ語の構成要素ごとに検索を行い、分割前のカタ
カナ語を構成する前記英単語構成要素の組を生成し、カ
タカナ語候補領域判定部301へ渡すものである。前記
カタカナ語候補領域判定部301では、1つのカタカナ
語に対応する複数個の英単語構成要素の組のうち、構成
要素の数が最小になるものを選択し、英単語候補を挿入
する位置と英単語候補の綴りを表す英単語候補挿入情報
を生成して、英単語候補挿入部304へ通知する。前記
英単語候補挿入部304は、前記テキストと前記カタカ
ナ語候補領域判定部301から渡される前記英単語候補
挿入情報に基づいて、テキスト中に英単語を挿入する。
表示部306は、前記英単語候補挿入部304によって
英単語が挿入されたテキストを表示するものである。
【0044】ここで、「インターネットでは」という文
章に英単語を挿入するための動作について説明する。前
記コマンド制御部201では、ユーザからのマウスのク
リックや音声コマンド命令などにより、操作対象のテキ
ストの領域の指定と英単語挿入の命令を受け取る。次に
カタカナ語候補領域判定部301では、上記のテキスト
を受け取るとテキスト先頭から1文字ずつカタカナであ
るかどうか検査し、連続するカタカナ列をカタカナ語と
して検出し、そのテキスト中の位置とともに管理する。
【0045】前記文章の場合では、<7,インターネッ
ト>という情報が管理されることになる。ここで、<
7,インターネット>は「インターネット」というカタ
カナ語の末尾がテキスト中の先頭から7文字目に位置し
ていることを表している。次に、前記カタカナ語候補領
域判定部301は検出したカタカナ語を前記カタカナ語
分割部302へ渡す。前記カタカナ語分割部302は
「インターネット」という語を分割し、a)「インター
/ネット」、b)「イン/ター/ネット」、c)「イ/
ン/タ/ー/ネ/ッ/ト」といった構成要素の組を生成
し(「/」は構成要素区切りを表す)、前記英単語構成
要素検索部303へ通知する。なお、本実施形態では簡
略化のために本来生成されるべき構成要素の組み合わせ
のうちの一部だけについて言及する。前記英単語構成要
素検索部303では、受け取った構成要素の各構成要素
についてカタカナ英単語構成要素対応表305中にカタ
カナ語構成要素が存在しているかどうかを検索する。構
成要素組中のすべてのカタカナ語構成要素がテーブル中
に存在する時、対応する英単語構成要素の組を前記カタ
カナ語候補領域判定部301へ通知する。一方、カタカ
ナ語構成要素中の少なくとも一つがテーブル中に該当す
るカタカナ語として存在しなかった時には、カタカナ語
構成要素組に対応する英単語は存在しなかったと通知す
る。
【0046】例えば、先程の例は、a)inter−n
et「インター|ネット」、b)in−tar−net
「イン|ター|ネット」、c)該当なし「イ|ン|タ|
ー|ネ|ッ|ト」という英単語に変換される(「−」は
英単語構成要素区切りを表す)。
【0047】前記カタカナ語候補領域判定部301で
は、これらの通知を受け、英単語が返された時は、カタ
カナ語の末尾の位置と英単語候補の組で表現される英単
語候補挿入情報を生成する。例えば、先の例のデータは
<7,{inter−net,in−tar−net}
>のように表されることになる。ここで、該当する英単
語が存在しないという通知を受けたものについては英単
語候補挿入情報は生成しない。この英単語候補挿入情報
を受け取った英単語候補挿入部304はテキストの該当
部分に指定された英単語を挿入したテキストを生成す
る。なお、ここで英単語の候補が複数存在する時には、
構成要素が最も少ないものを英単語として採用する。例
では、inter−net(要素数2)、in−tar
−net(要素数3)となるため、該当する英単語とし
ては要素数2のinter−netが採用され、テキス
トの7文字目の直後に英単語(internet)を挿
入した「インターネット(internet)は」とい
うテキストが生成される。
【0048】本実施例では、英単語の挿入箇所をカタカ
ナ語の直後にしているが、カタカナ語の直下や欄外でも
よく、カタカナ/英単語を置換しても構わない。また、
本実施例のように挿入する英単語の前後を括弧で括るな
ど、英単語の綴りに加工をしてもよい。
【0049】次に、カタカナ語K=K123 という
カタカナを使った処理の流れを、図12を参照して説明
する。ここで、Ki は任意のカタカナの1 文字をあらわ
している。
【0050】いま、K=K123 というカタカナが
あるとき、最終的には分割の形式としてはK1 −K2
3 ,K1 −K23 ,K12 −K3 ,K123
という4通りが存在することになる。ここで、「−」は
カタカナ文字の分割位置を表している。
【0051】まず、分割処理はカタカナ文字列の最初の
1文字(K1 )と残りの部分文字列(K23 )に分割
する(ステップ704〜708)。次に文字列の先頭か
ら2文字目(K12 )までと残りの部分文字列に分割
するという感じで前文字列部分を1文字ずつ増やしてい
き(ステップ709〜710)、後文字列(上記「残り
の部分文字列」に該当する)がなくなるまで処理を繰り
返す(ステップ707)。そして、各分割処理後に「残
りの部分文字列」について再度分割処理を施す。
【0052】例えばK123 の時、まずK1 −K2
3 という分割を行った(ステップ701)後、残りの
部分文字列K23 について再度分割処理を行う(ステ
ップ704〜708)。ここで、分割対象文字列K2
3 を再びまず1文字目と残りの部分に分割するから分割
後の文字列はK2 −K3 となる。
【0053】ここで、さらに残りの部分K3 について分
割処理することになる(ステップ709〜710)のだ
が、1文字しかなくもはやこれ以上分割できないことが
わかるので、この時点での分割位置がカタカナ語K1
23 の分割形式の1つの解であることがわかり、K1
−K2 −K3 がその解として保存される(ステップ71
1〜712)。
【0054】次に、分割対象文字列K23 を2文字目
と残りの部分に分割する。分割後の文字列はK23
NULLとなる。ここで、分割対象の文字列K23
2文字しかないため、「残りの部分文字列」は空(NU
LL)になる(ステップ709〜710)。
【0055】そして、「残りの部分文字列」についてさ
らに分割処理をすることになるのだが、ここで分割対象
文字列が空であり分割処理が行えないことがわかるの
で、この時点での分割位置がカタカナ語K123
分割形式の1つの解であることがわかり、K1 −K2
3 がその解として保存される(ステップ711〜71
2)。
【0056】次にK123 を2 文字目までの部分K
12 と残りの部分K3 に分割し(ステップ712〜7
13)、さらに後文字列K3 について分割処理を行う
(ステップ709〜710)。
【0057】ここで、残りの部分K3 が1 文字しかなく
もはやこれ以上分割できないことがわかるので、この時
点での分割位置がカタカナ語K123 の分割形式の
1つの解であることがわかり、K12 −K3 がその解
として保存される(ステップ711〜712)。
【0058】次に、K123 を3文字目までの部分
123 と残りの部分に分割し(ステップ712〜
713)、さらに後文字列について分割処理を行う(ス
テップ709〜710)。
【0059】ここで、分割対象文字列K123 が文
字しかなかったので、後文字列は空になってしまい、分
割処理が行えないことがわかるので、この時点での分割
位置がカタカナ語K123 の分割形式の1 つの解で
あることがわかり、K123 がその解として保存さ
れる(ステップ711〜712)。
【0060】これらの処理によってK123 という
カタカナ語に対して、K1 −K2−K3 ,K1 −K23
,K12 −K3 ,K123 という4通りの分割
形式を作り出すことができる。
【0061】上記の処理はカタカナ語が3文字の例で説
明したが、文字列長が4 文字以上になってもまったく同
様の手順で処理することができる。図12のフローチャ
ートは分割対象の文字列がN文字であった時の処理手順
を表している。
【0062】ここで、配列words[]は分割した形
式のすべてのケースを保持するための配列であり、先程
の例では、words[1]=K 1 −K 2 −K 3 、wo
rds[2]=K 1 −K 2 K 3 、words[3]=K
1 K 2 −K3、words[4]=K 1 K 2 K 3という値
が保存されることになる。
【0063】また、jは分割形式の数を表すためのカウ
ンタである。Lは文字列の分割処理が最初に与えられた
文字列に対する分割処理の時から数えて何回目の分割処
理であるかを表している。例えば、K 1 K 2 K 3 の時、
K 1と残りK 2 K 3 に分割する処理は1 回目(L= 1)
であり、この残りの部分K 2K 3 をK 2 とK 3 に分割す
る処理は2 回目(L=2)となる。
【0064】また、head[L]はL回目の分割の時
の前文字列の末尾の位置(最初に与えられた文字列の先
頭文字から数えて何文字目か)を表し、tail[L]
はL回目の分割の時の後文字列の先頭の位置(最初に与
えられた文字列の先頭文字から数えて何文字目か)を表
す。したがって、K 1 K 2 K 3 を1回目の分割処理でK
1 −K 2 K 3 に分割した時にはhead[1]=1、t
ail[1]=2となり、K 1 K 2 −K 3 に分割した時
にはhead[1]=2、tail[1]=3となる。
【0065】ここで、図10の実施形態のうち指定され
たカタカナに対応する英単語を検索する英単語構成要素
検索部303とカタカナ語候補領域判定部301と英単
語候補挿入部304の指定された位置へ英単語候補を挿
入する処理の流れを、図13のフローチャートを参照し
て説明する。
【0066】カタカナ語分割部302では、図12の処
理の流れによって入力テキスト中に存在する連続するカ
タカナ文字で構成されるカタカナ語を分割しSSi 、テ
キスト中でのそのカタカナ語の位置Pi を組にしたKi
(i=1〜N)が作られている(ステップ800)。
【0067】一般にカタカナ語の分割形式には複数通り
あり得る。そこで、分割形式における各要素を{S
ij[k]}という形で表現する。ここで、iはカタカナ
綴りとテキスト中の位置の組Ki における番号を表す
(i=1〜N)。jは1つのカタカナ綴りに対して存在
する複数の分割形式の番号を表す(j=1〜n)。kは
ある分割形式におけるカタカナ構成要素数を表す。
【0068】例えば、入力テキスト中の先頭からi番目
の組Ki のカタカナ語の分割されたカタカナ綴りの1 番
目の要素は{Si1[1]−Si1[2]−・ …−Si1[L
i1]}と表される。ここで、Si1のi1はi番目の組K
i におけるカタカナ語の分割されたカタカナ綴りの1 番
目の要素(分割候補)であることを表し、[1]は分割
されたカタカナ綴り(分割候補)のうちの分割要素のう
ち単語頭から1番目の要素であることを表し、Li1は分
割されたカタカナ綴りの1 番目の要素の構成要素数を表
している。このことからSi1[1]は分割されたカタカ
ナ綴りの1 番目の要素のうちの単語頭から1 番目の要素
を表し、以下Si1[2]は単語頭から2 番目の要素、
…、Si1[Li1]は単語末の要素を表す。
【0069】次に各構成要素のカタカナ綴りを英単語に
変換する。前記英単語構成要素検索部303は前記カタ
カナ・英単語構成要素対応表305を使って個々のカタ
カナ綴りを英単語に変換していく。ここで、SSi の1
番目の綴りの単語頭から1番目の要素Si1[1]がEi1
[1]に変換されたとする。以下同様に、Si1[2]が
i1[2]、…、Si1[Li1]がEi1[Li1]に変換さ
れることになる(ステップ804)。
【0070】次に、n個の綴り候補のうち綴りの構成要
素数(Li1〜Lin)が最も小さいものを求める。いま、
n個の綴り分割候補のうちx番目の分割候補が最小であ
ったとする(ステップ805)。
【0071】その時、{Eix[1]−Eix[2]−…−
ix[Lix]}がカタカナ綴りSi に対応する英単語候
補となる(ステップ806)。あとはテキスト中の位置
i へこの英単語候補を挿入するだけである(ステップ
807)。
【0072】以上の処理はカタカナ語とその語の入力テ
キスト中の位置の組情報の総数をNとするとi=1〜i
=NまでN回繰り返される(ステップ802、80
3)。このように、カタカナ語と英単語との対応表を単
語の構成要素に分割することによって、少ない対応表だ
けでより多くのカタカナ語と英単語の対応を表現するこ
とができる。また、新規の造語に対しても対応表やシス
テムを変更することなく即座に対応することができる。
【0073】
【発明の効果】以上詳述したように本発明によれば、日
本語ディクテーションシステムに入力音声を日本語とし
て処理する日本語モードと英字だけとして処理する英語
モードを設け、ユーザの入力音声の発声の仕方に基づい
て認識途中で2つのモードを切り替えて英単語を高精度
に音声認識することができるようになる。
【0074】また、カタカナ語と英単語の対応表を用意
することにより、ユーザが英単語を発声せずとも英単語
を入力することができるようになる。さらに、カタカナ
語を構成要素に分割し、各構成要素と英単語の構成要素
との対応表を用意することにより、少ない対応表だけで
カタカナ語と英単語との対応を取り扱うことができるよ
うになる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係わる日本語ディク
テーションシステムの概略構成を示すブロック図であ
る。
【図2】第1の実施形態における日本語モード用の認識
辞書の構成を説明するための図である。
【図3】第1の実施形態における英語モード用の認識辞
書の構成を説明するための図である。
【図4】第1の実施形態における入力した時の入力音声
と無音部の継続時間を示す図である。
【図5】第1の実施形態における音声継続時間判定部1
02の動作を説明するためのフローチャートである。
【図6】本発明の第2の実施形態に係わる日本語ディク
テーションシステムの概略構成を示すブロック図であ
る。
【図7】第2の実施形態におけるカタカナ・英単語の対
応表を説明するための図である。
【図8】第2の実施形態におけるカタカナ語領域判定部
202のカタカナ語を切り出す動作を説明するためのフ
ローチャートである。
【図9】第2の実施形態におけるカタカナ語領域判定部
202と英単語検索部203と英単語挿入部204の動
作を説明するためのフローチャートである。
【図10】本発明の第3の実施形態に係わる日本語ディ
クテーションシステムの概略構成を示すブロック図であ
る。
【図11】第3の実施形態におけるカタカナ・英単語構
成要素対応表を説明するための図である。
【図12】第3の実施形態におけるカタカナ語分割部3
02の動作を説明するためのフローチャートである。
【図13】第3の実施形態におけるカタカナ語候補領域
判定部301と英単語構成要素検索部303と英単語候
補挿入部304の動作を説明するためのフローチャート
である。
【符号の説明】
101 音声入力装置 102 音声継続時間測定部 103 音声認識処理部 104 日本語モード用認識辞書 105 英語モード用認識辞書 106 表示部 201 コマンド制御部 202 カタカナ語領域判定部 203 英単語検索部 204 英単語挿入部 205 カタカナ・英単語対応表 301 カタカナ語候補領域判定部 302 カタカナ語分割部 303 英単語構成要素検索部 304 英単語候補挿入部 305 カタカナ・英単語構成要素対応表
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 551B

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 有音部と無音部からなる入力音声を受取
    る音声入力部と、 前記入力音声を日本語の文章として認識するための日本
    語モード認識辞書と、 英字が登録されている英語モード認識辞書と、 該音声入力部によって受取られた前記入力音声の前記有
    音部の継続時間を判定すると共に、前記有音部の直前と
    直後の前記無音部の継続時間を判定し、前記日本語モー
    ド認識辞書または英語モード認識辞書のいずれかの使用
    を判定する音声継続時間判定部と、 前記音声継続時間判定部によって判定された辞書を使用
    して、前記入力音声を認識する音声認識処理部とを具備
    することを特徴とする日本語ディクテーションシステ
    ム。
  2. 【請求項2】 前記音声継続時間判定部は、前記有音部
    の継続時間が所定値より短く、且つ、前記有音部の直前
    と直後にある前記無音部の継続時間を加減算した値が所
    定値範囲内にある場合、前記英語モード認識辞書を使用
    するよう前記音声認識処理部に通知することを特徴とす
    る請求項1記載の日本語ディクテーションシステム。
  3. 【請求項3】 前記英語モード認識辞書は英字だけが登
    録されていることを特徴とする請求項1記載の日本語デ
    ィクテーションシステム。
  4. 【請求項4】 テキスト文書を制御するコマンド制御部
    と、 カタカナ語と英単語の対応が保持されているカタカナ・
    英単語保持部と、 前記コマンド制御部の制御に基づいて、前記テキスト文
    書からカタカナ語の領域を検出するカタカナ語領域判定
    部と、 前記カタカナ語領域判定部によって検出されたカタカナ
    語を受け取り、前記カタカナ・英単語保持部からカタカ
    ナ語に対応する英単語を検索する英単語検索部と、 前記カタカナ語領域判定部によって判定された前記領域
    に前記英単語検索部によって検索された英単語を挿入す
    る英単語挿入部とを具備することを特徴とする日本語デ
    ィクテーションシステム。
  5. 【請求項5】 テキスト文書を制御するコマンド制御部
    と、 カタカナ語と英単語がそれぞれ構成要素毎に対応されて
    保持されているカタカナ・英単語構成要素保持部と、 前記コマンド制御部の制御に基づいて、前記テキスト文
    書からカタカナ語の領域を検出するカタカナ語候補領域
    判定部と、 前記カタカナ語候補領域判定部によって検出されたカタ
    カナ語を受け取り、このカタカナ語を構成要素の組に分
    割するカタカナ語分割部と、 前記カタカナ・英単語構成要素保持部から前記カタカナ
    語の構成要素に対応する英単語の構成要素を検索する英
    単語構成要素検索部と、 前記カタカナ語候補領域判定部によって判定された前記
    領域に前記英単語構成要素検索部によって検索された前
    記英単語構成要素を挿入する英単語候補挿入部とを具備
    することを特徴とする日本語ディクテーションシステ
    ム。
  6. 【請求項6】 カタカナ語領域判定部は、前記英単語検
    索部から検索された英単語の綴りとテキスト文書に対す
    る挿入位置情報を生成し、前記英単語挿入部に通知する
    ことを特徴とする請求項4または請求項5記載の日本語
    ディクテーションシステム。
JP11080741A 1999-03-25 1999-03-25 日本語ディクテーションシステム Pending JP2000276189A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11080741A JP2000276189A (ja) 1999-03-25 1999-03-25 日本語ディクテーションシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11080741A JP2000276189A (ja) 1999-03-25 1999-03-25 日本語ディクテーションシステム

Publications (1)

Publication Number Publication Date
JP2000276189A true JP2000276189A (ja) 2000-10-06

Family

ID=13726833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11080741A Pending JP2000276189A (ja) 1999-03-25 1999-03-25 日本語ディクテーションシステム

Country Status (1)

Country Link
JP (1) JP2000276189A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140288916A1 (en) * 2013-03-25 2014-09-25 Samsung Electronics Co., Ltd. Method and apparatus for function control based on speech recognition
KR101498028B1 (ko) * 2008-04-29 2015-03-03 엘지전자 주식회사 단말기 및 그 제어 방법
JP2017097330A (ja) * 2015-11-19 2017-06-01 パナソニック株式会社 音声認識方法及び音声認識装置
CN113194380A (zh) * 2021-04-26 2021-07-30 读书郎教育科技有限公司 一种英语单词英语生词听写进度的控制系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101498028B1 (ko) * 2008-04-29 2015-03-03 엘지전자 주식회사 단말기 및 그 제어 방법
US20140288916A1 (en) * 2013-03-25 2014-09-25 Samsung Electronics Co., Ltd. Method and apparatus for function control based on speech recognition
JP2017097330A (ja) * 2015-11-19 2017-06-01 パナソニック株式会社 音声認識方法及び音声認識装置
CN113194380A (zh) * 2021-04-26 2021-07-30 读书郎教育科技有限公司 一种英语单词英语生词听写进度的控制系统及方法
CN113194380B (zh) * 2021-04-26 2022-08-23 读书郎教育科技有限公司 一种英语生词听写进度的控制系统及方法

Similar Documents

Publication Publication Date Title
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
JP5255769B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
JP3935844B2 (ja) 入力された音声のトランスクリプションおよび表示
US7962341B2 (en) Method and apparatus for labelling speech
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
JP2000035795A (ja) 音声認識におけるノンインタラクティブ方式のエンロ―ルメント
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
JPH10133685A (ja) 連続音声認識中にフレーズを編集する方法及びシステム
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6230606B2 (ja) 精度スコアを使用した音声認識性能を予測するための方法およびシステム
CN109300468B (zh) 一种语音标注方法及装置
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
CN112562676A (zh) 一种语音解码方法、装置、设备及存储介质
JPWO2006093092A1 (ja) 会話システムおよび会話ソフトウェア
KR101747873B1 (ko) 음성인식을 위한 언어모델 생성 장치 및 방법
JPH06110494A (ja) 発音学習装置
US20230360633A1 (en) Speech processing techniques
JP2000276189A (ja) 日本語ディクテーションシステム
JP2000056795A (ja) 音声認識装置
EP0987681B1 (en) Speech recognition method and apparatus
JP2003162524A (ja) 言語処理装置
JP2975542B2 (ja) 音声認識装置
JP3039453B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20031209

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050414

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060324