JP2000276189A - 日本語ディクテーションシステム - Google Patents
日本語ディクテーションシステムInfo
- Publication number
- JP2000276189A JP2000276189A JP11080741A JP8074199A JP2000276189A JP 2000276189 A JP2000276189 A JP 2000276189A JP 11080741 A JP11080741 A JP 11080741A JP 8074199 A JP8074199 A JP 8074199A JP 2000276189 A JP2000276189 A JP 2000276189A
- Authority
- JP
- Japan
- Prior art keywords
- katakana
- english
- unit
- english word
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
ユーザの入力音声の発音の仕方に基づいて認識途中で2
つのモードを切り替えて音声入力された英単語の認識精
度を向上させることを目的とする。 【解決手段】 有音部と無音部からなる入力音声を受取
る音声入力部101と、この入力音声を日本語の文章と
して認識するための日本語モード認識辞書104と、英
字が登録されている英語モード認識辞書105と、該音
声入力部によって受取られた入力音声の有音部の継続時
間を判定すると共に、有音部の直前と直後の無音部の継
続時間を判定し、日本語モード認識辞書または英語モー
ド認識辞書のいずれかの使用を判定する音声継続時間判
定部102と、該音声継続時間判定部によって判定され
た辞書を使用して、入力音声を認識する音声認識処理部
103とを具備することを特徴とする。
Description
語の文章の入力を行うことを目的とした日本語ディクテ
ーションシステムに係り、特にユーザの発声の仕方に基
づいて英単語入力を行う日本語ディクテーションシステ
ムに関する。
テーションシステムでは、一般に認識可能な単語が格納
されている認識辞書中の語彙数(即ち、認識可能な単語
数)が多くなればなるほど高精度な認識が難しくなる。
その為、認識辞書の語彙は可能な限り制限されており、
日常良く使われる語だけが選別されて登録されていた。
例えば、従来の一般的な日本語ディクテーションシステ
ムの認識辞書には5千語から5万語程度の単語が登録さ
れているだけである。
日本語を数多く登録することに注力するあまり英単語に
ついては全く登録されていないのが現状である。そこで
は、認識辞書には単独の英字だけがそれぞれ1つの単語
として登録され、ユーザが英単語を入力する場合には、
例えば「ASIA(アジア)」という英単語を入力する
場合には、「A(エイ)−S(エス)−I(アイ)−A
(エイ)」のように英単語を構成する綴りを英字1文字
ずつ発声して入力しなければならなかった。
た従来の日本語ディクテーションシステムでは、英単語
を入力する場合、例えば「A(エイ)」という音は日本
語の「英」、「泳」などと同じ音であるために、ユーザ
が英字の羅列のつもりで入力しても英単語として正しく
認識することは非常に困難であった。また、学術論文な
ど文章中に英単語を挿入するケースが頻繁にある文章を
音声で入力する時などは、認識精度が著しく低下してし
まっていた。
されたものであり、日本語ディクテーションシステム中
に入力音声を日本語として処理する日本語モードと英字
だけとして処理する英語モードを設け、ユーザの入力音
声の発音の仕方に基づいて認識途中で2つのモードを切
り替えて音声入力された英単語の認識精度を向上させる
ことのできる日本語ディクテーションシステムを提供す
ることを目的とする。
日本語ディクテーションは、有音部と無音部からなる入
力音声を受取る音声入力部と、前記入力音声を日本語の
文章として認識するための日本語モード認識辞書と、英
字が登録されている英語モード認識辞書と、該音声入力
部によって受取られた前記入力音声の前記有音部の継続
時間を判定すると共に、前記有音部の直前と直後の前記
無音部の継続時間を判定し、前記日本語モード認識辞書
または英語モード認識辞書のいずれかの使用を判定する
音声継続時間判定部と、前記音声継続時間判定部によっ
て判定された辞書を使用して、前記入力音声を認識する
音声認識処理部とを具備することを特徴とする。
に1文字ずつに区切り、だいたい同じような間隔で発声
する、という手順で音声入力した時には、入力音声を2
6個の英字の何れかであるとして認識処理する。一方、
ユーザがなるべく長く発声する、或いは前後のポーズ長
を調整しながら発声することによって、該当部分を日本
語の文章として認識処理させることによって、モード切
り替えを明示的に行わずともシステムが英単語部分を的
確に判別し、高精度な認識処理を実現することができ
る。
るコマンド制御部と、カタカナ語と英単語の対応が保持
されているカタカナ・英単語保持部と、前記コマンド制
御部の制御に基づいて、前記テキスト文書からカタカナ
語の領域を検出するカタカナ語領域判定部と、前記カタ
カナ語領域判定部によって検出されたカタカナ語を受け
取り、前記カタカナ・英単語保持部からカタカナ語に対
応する英単語を検索する英単語検索部と、前記カタカナ
語領域判定部によって判定された前記領域に前記英単語
検索部によって検索された英単語を挿入する英単語挿入
部とを具備することを特徴とする。
た日本語テキスト中に存在するカタカナ語を検出し、そ
のカタカナ語に対応する英単語をカタカナ・英単語対応
表から検索し、テキスト中のカタカナ語の直後に括弧で
囲んで自動的に挿入することができる。これにより、ユ
ーザがわざわざ英単語を発声して入力しなくても英単語
を挿入したいテキストの領域を選択し、後は英単語を挿
入する命令をマウス或いは音声コマンドで指定するだけ
で英単語を含む日本語テキストを作成することができ
る。
るコマンド制御部と、カタカナ語と英単語がそれぞれ構
成要素毎に対応されて保持されているカタカナ・英単語
構成要素保持部と、前記コマンド制御部の制御に基づい
て、前記テキスト文書からカタカナ語の領域を検出する
カタカナ語候補領域判定部と、前記カタカナ語候補領域
判定部によって検出されたカタカナ語を受け取り、この
カタカナ語を構成要素の組に分割するカタカナ語分割部
と、前記カタカナ・英単語構成要素保持部から前記カタ
カナ語の構成要素に対応する英単語の構成要素を検索す
る英単語構成要素検索部と、前記カタカナ語候補領域判
定部によって判定された前記領域に前記英単語構成要素
検索部によって検索された前記英単語構成要素を挿入す
る英単語候補挿入部とを具備することを特徴とする。
単語との対応表を単語の構成要素に分割することによっ
て、少ない対応表だけでより多くのカタカナ語と英単語
の対応を表現することができる。また新語の造語に対し
ても対応表やシステムを変更することなく即座に対応す
ることができる。
の実施形態を説明する。 (第1の実施形態)図1は本発明の第1の実施形態に係
わる日本語ディクテーションシステムの構成を示すブロ
ック図である。
なり、ユーザ100から発声された音声を受取るもので
ある。音声継続時間判定部102、はマイクロホン等の
音声入力部101からユーザ100の入力音声を受け取
り、直前のポーズ(無音部)の継続時間を記憶してお
き、その直後の音声の継続時間と直後のポーズの継続時
間の2つを計測するものである。そして、この音声継続
時間判定部102は音声の継続時間が一定値より短く、
かつ入力音声直後のポーズの継続時間が入力音声直前の
ポーズの継続時間とほぼ同じ時には、英語モードで動作
するように指示し、それ以外のケースでは日本語モード
での動作を指示する。英単語を発声する場合、英字(ア
ルファベット)1字1字の継続時間は大抵一定である。
間判定部102からの通知に基づき日本語、英語の2つ
のモードを切り替えて動作するものである。日本語モー
ドとは、認識辞書に日本語が登録されている日本語モー
ド用認識辞書104を使用した認識処理手順であり、入
力音声を日本語の文章として認識することができる。一
方、英語モードとは、認識辞書に英字だけが登録されて
いる英語モード用認識辞書105を使用した認識処理手
順であり、入力音声を英字としてのみ認識することがで
きる。音声データと認識辞書を使って音声認識を行う方
式については、例えば「「確率モデルによる音声認識」
(中川聖一著)電子情報通信学会(ISBN4―885
52―072―X)」」に紹介されており、何れの方法
であっても構わない。表示部106は、前記音声認識処
理部103で認識された結果を表示するものである。
2に示すように日本語モード用の認識辞書では、英字の
単語が日本語モード用の認識辞書中に追加されている。
一方、図3の英語モード用の認識辞書では、認識辞書中
には英字のみが登録されている。
ision)を開発しました。」という文章を入力する
ための動作について説明する。まず、文章は従来の日本
語ディクテーションシステムと同様に「しんがた|てれ
びじょん|ひらきかっこ|てぃー|いー|える|いー|
える|ぶい|あい|えす|あい|おー|えぬ|とじかっ
こ|を|かいはつ|しました|まる」という発音の音声
データとして入力されたとする。ここで「|」は発音列
を見やすくするための記号であり、特に意味はない。ま
た、日本語部分については発声単位は特に限定しない。
単語単位や文節単位で区切ってもよいし、ひとまとまり
にまとめて連続して発声しても構わない。
システムでは英単語部分は英字1文字ごとに区切り、そ
の直前と直後に一定時間のポーズ(無音部)を置いて発
声しなければならない。ただし、ここでのポーズの継続
時間(ポーズ長)は予めシステムで決められた数値であ
る必要はなく、英字を発声した直前に置かれたポーズの
継続時間に一定のマージン値を加減算した値として計算
される数値の範囲に含まれていればよい。なお、英字1
文字の発音はいずれも短いことが明らかなので音声入力
が一定時間以上継続した場合には日本語が入力されたと
して日本語モードで動作する。
を示すものである。いま、図4のように音声入力された
とする。ここで英字1文字の最大発声継続時間を1秒、
ポーズの継続時間が同一であるとみなすマージンを±
0. 3秒とする。この最大発声継続時間やマージン値は
変更してもよい。
らきかっこ」という発音は、いずれも英字の最大発声継
続時間(1秒)を越えているために日本語として処理さ
れる。次に「ひらきかっこ」の直後の0. 5秒のポーズ
の後、「てぃー」という音が0. 9秒入力され、その後
0. 6秒のポーズが置かれている。この発声は、発声長
が1秒以下であり、かつ発声の直後のポーズ(0. 6
秒)が発声の直前のポーズにマージン値を加減算した値
の範囲(0. 2〜0. 8秒)に含まれている。そこで、
「てぃー」という音声は英字として認識処理されること
になる。ここで、図3のように英字しか登録されていな
い英語モード専用の認識辞書105では「てぃー」とい
う発音に近い語の候補には「t」しかないために、前述
した文献に紹介されている方法であれば非常に高い確率
で入力音声を「t」という語として認識することができ
る。
力され、その後0. 4秒のポーズが置かれている。ここ
で、発声長(0. 8秒≦1秒)、ポーズ長(0. 3秒≦
0.4秒≦0. 9秒)の両方の条件がみたされているの
でこの部分も英語モードとして動作する。以下、「え
ぬ」の部分までは同様の手順で英語モードとして認識処
理が進められる。そして、「えぬ」の次に0. 7秒のポ
ーズが置かれ、1. 2秒の音声「ひらきかっこ」が続
き、その後に1秒のポーズが続いている。ここで、ポー
ズ長は0. 4秒≦1秒≦1. 1秒の条件を満たしている
が、発声長が最大発声継続時間(1秒)を越えているの
で、この部分は日本語モードで処理される。さらにその
次には0. 6秒の音声「を」と0. 3秒のポーズが入力
されている。この部分は発声長は0. 6秒≦1秒だが、
ポーズ長が0. 7秒〜1. 3秒の範囲にないためにやは
り日本語モードで処理されることになる。そして、最後
の「かいはつしましたまる」という部分についても日本
語モードとして処理されて、最終的には「新型テレビジ
ョン(television)を開発しました。」とい
う認識結果が得られることになる。
流れを、図5のフローチャートを参照して説明する。
今、ユーザが一息で発声して入力した音声をOi とす
る。ここでiは先頭から何番目の入力音声であるかを表
す番号である(i=1〜N)。一般にユーザの息継ぎ等
のために2つの入力音声の間には無音の区間(ポーズ)
が存在する。ここで、先頭からi番目の入力音声の直前
の無音の継続時間をPi-1 、直後の無音の継続時間をP
i と表記する(ステップ400)。
声について(ステップ402、403)、入力音声の発
声時間Si (i=1)をアルファベット1文字の発声時
間の最大長である「英字の最大発声時間」と比較する
(ステップ405)。そして、もしSi が英字の最大発
声時間よりも長い場合には、日本語が入力されたと判断
して日本語モードで音声認識処理部103を動作させ、
入力音声に近い発音の日本語の単語の中から入力された
音声を識別する(ステップ408)。
い場合には処理はステップ406へ進む。ステップ40
6では、入力音声の直前(Pi-1 )と直後(Pi )のポ
ーズ長(つまりは先頭からi−1番目とi番目のポーズ
の長さ)を測定する。例えば、先頭から1番目の入力音
声について処理している場合には先頭から0番目と1番
目のポーズ長であるP0 とP1 の時間を測定することに
なる。ここで、0番目という順番は存在しないので特別
にP0 はP1 と同じ値であるとして処理する。
したら、次にその差分を求めその差が予め決められたポ
ーズ長のマージン以下であるかどうかを判定する(ステ
ップ406)。ここでもしポーズ長の差(Pi −P
i-1 )がポーズ長のマージン以下でなかった時には、日
本語が入力されたと判断して日本語モードで音声認識処
理103を動作させ、入力音声に近い発音の日本語の単
語の中から入力された音声を識別する(ステップ40
8)。
以下の時には、英字が入力されたと判断して英語モード
で音声認識処理部103を動作させ、入力音声に近い発
音の英字の中から入力された音声を識別する(ステップ
407)。
とi=1〜i=NまでN回繰り返される。このように英
単語の部分についてだけ、英字ごとに1文字ずつに区切
り、だいたい同じような間隔で発声する、という手順で
音声入力し、それ以外の日本語の部分についてはなるべ
く長く発声する、あるいは前後のポーズ長を調整しなが
ら発声することによって、面倒なモード切り替えをユー
ザが明示的に行うことなく、システムが英単語部分を的
確に判別し、高精度な認識処理を実現することができる
ようになる。
実施形態について説明する。図6は本発明の第2の実施
形態に係わる音声認識装置の概略構成を示すブロック図
である。なお、図1において説明した部分と同一部分は
同一符号を用いる。
らの英単語挿入命令と操作対象のテキストを受け取るも
のである。カタカナ語領域判定部202は、前記コマン
ド制御部201からの通知に基づき、指定されたテキス
ト中からカタカナ語の領域を検出するものである。ここ
で、カタカナ語とは連続するカタカナのみで構成される
単語を意味している。英単語検索部203は、カタカナ
語領域判定部で検出されたカタカナ語を受け取り、図7
に示すカタカナ語と英単語の対応を保持しているカタカ
ナ・英単語対応表205からカタカナ語に対応する英単
語を検索し、カタカナ語領域判定部202へ通知するも
のである。そして、前記カタカナ語領域判定部202で
は、前記英単語検索部203からの英単語情報に基づい
て、英単語の挿入位置と英単語の綴りを表す英単語挿入
情報を生成し、英単語挿入部204へ通知するものであ
る。英単語挿入部204は、前記テキストと前記カタカ
ナ語領域判定部202から渡される前記英単語挿入情報
に基づいて、テキスト中に英単語を挿入する。表示部2
06は、前記英単語挿入部204によって英単語が挿入
されたテキストを表示するものである。
スは洗練されています。」という文章に英単語を挿入す
るための動作について説明する。コマンド制御部201
では、ユーザ100からのマウスのクリックや音声コマ
ンド命令などにより、操作対象のテキストの領域の指定
と英単語挿入の命令を受け取る。次にカタカナ語領域判
定部202では、上記のテキストを受け取るとテキスト
先頭から1文字ずつカタカナであるかどうか検査し、連
続するカタカナ列をカタカナ語として検出し、そのテキ
スト中の位置とともに管理する。
ム〉、〈15,インタフェース〉という情報が管理され
ることになる。ここで、〈7,プログラム〉は「プログ
ラム」というカタカナ語の末尾がテキスト中の先頭から
7文字目に位置していることを表している。英単語検索
部203では、前記カタカナ語領域判定部202で検出
されたカタカナ語の綴りを受け取り、内部で保持してい
るカタカナ語と英単語の対応表であるカタカナ・英単語
対応表205中を検索し、テーブル中にカタカナ語が存
在しているかどうかを検索する。テーブル中に該当する
カタカナ語が存在する時、その英単語をカタカナ語領域
判定部202へ通知する。一方、テーブル中に該当する
カタカナ語が存在しなかった時には、その旨を通知す
る。カタカナ語領域判定部202では、これらの通知を
受け、英単語が返された時は、カタカナ語の末尾の位置
と英単語を組にした英単語挿入情報を生成する。ただ
し、該当する英単語が存在しないものについては英単語
挿入情報を作成せずに削除する。これより先のカタカナ
語と位置情報から〈7,program〉、〈15,i
nterface〉という英単語挿入情報が生成される
ことになる。
れた英単語挿入情報を受け取った前記英単語挿入部20
4はテキストの該当部分(例では7文字目と15文字目
の直後)に指定された英単語(programとint
erface)を挿入する。このような処理の流れによ
って、「このプログラムのインタフェースは洗練されて
います。」という文章は「このプログラム(progr
am)のインタフェース(interface)は洗練
されています。」という形式に変換されることになる。
本実施例では、英単語の挿入箇所をカタカナ語の直後に
しているが、カタカナ語の直下、欄外などでもよく、ま
たカタカナ/英単語を置換してもよい。さらに、本実施
例のように挿入する英単語の前後を括弧で括るなど、英
単語の綴りに加工をしてもよい。
カナ語を切り出す処理の流れを、図8のフローチャート
を参照して説明する。N文字で構成される入力テキスト
Tの各文字をti と表記する(ステップ500)。ここ
で、iは先頭から何番目の文字であるかを表す番号であ
る(i=1〜N)。すべての処理の前に入力テキストの
カタカナ語の個数を表すカウンタjを0に設定し、さら
にカタカナ文字列を一時的に保存する配列word
s[]を空にする(ステップ501)。
ついて(ステップ501、502)、その文字t1 がカ
タカナであるかどうかを判定する(ステップ504)。
カタカナである時、words[]の末尾にt1 を追加
する。初期状態ではwords[]は空なので、t1 が
追加されてwords[]の内容は「t1 」となる。も
し、仮にこの配列の末尾へt2 という語が追加される
と、配列の内容は「t1t2 」になる。さらにt3 が追
加されると「t1 t2 t3 」となり以下、「t1t2 t3
t4 」、「t1 t2 t3 t4 t5 ・・」という感じに
変化していく。そして次に2番目の文字(t2 )につい
て調べることになる(ステップ502)。
合、何もせずに次の2番目の文字(t2 )について調べ
ることになる(ステップ502)。ただし、その前にカ
タカナ文字を一時的に保存する配列words[]の内
容が空かどうかを調べる(ステップ505)。ここで、
配列が空であれば単に次の2番目の文字(t2 )につい
て調べる処理へ移る。
文字までがカタカナ語であったことがわかるから、テキ
スト中の現在の位置iとカタカナの綴り文字列word
s[]を組にしたデータをKj という変数に保存してお
く(ステップ506)。そして、テキスト中のカタカナ
語の数を表すカウンタjに1を加算し、一時的にカタカ
ナ綴りを保持しておく配列words[]の内容を再び
空にする(ステップ507)。そして、次の2番目の文
字(t2 )について調べる処理へ移る。
Nとするとi=1〜i=NまでN回繰り返される。とこ
ろで、テキストの末尾(i=N)まで到達した時、最後
にwords[]の内容が空であるかどうかをチェック
する(ステップ509)。これはテキストの末尾に到達
した時点で処理を終了してしまうと入力テキストがカタ
カナ語で終了している時にその最後のカタカナ語がカタ
カナ一覧Kj に格納されなくなってしまうためである。
そこで、ステップ509でwords[]の内容をチェ
ックし、空でなければ入力テキストがカタカナ語で終わ
っていることがわかるので、i=Nとwords[]に
格納されているカタカナの綴り文字列を組にしてKjに
格納してから処理を終了する(ステップ510)。
カタカナに対応する英単語を検索する英単語検索部20
3とカタカナ語領域判定部202と英単語挿入部204
の指定された位置へ英単語を挿入する処理の流れを、図
9のフローチャートを参照して説明する。
8の処理の流れによって入力テキスト中に存在する連続
するカタカナ文字で構成されるカタカナ語とそのテキス
ト中での位置を組にしたKi (i=1〜N)が作られて
いる(ステップ600)。
ら順番に処理を行っていく(ステップ601、60
2)。K1 に格納されているカタカナの綴りS1 に対応
する英単語をカタカナ語と英単語の対応表であるカタカ
ナ・英単語対応表205を使って調べる(ステップ60
4)。ここで、S1 に対応する英単語が存在しない時に
は、K1 を廃棄し、何も処理しない(ステップ60
5)。
時は、K1 に格納されているカタカナ語S1 の入力テキ
スト中での位置P1 へE1 を挿入する(ステップ60
6)。
キスト中の位置の組情報の総数をNとするとi=1〜i
=NまでN回繰り返される(ステップ602、60
3)。従って、カタカナ語に対応する英単語の一覧を予
め用意しておき、文章中のカタカナ語の直後の位置にそ
のカタカナ語に対応する英単語を挿入する機能を設けた
ことで、ユーザがわざわざ英単語を発声せずとも英単語
混じりの文章を入力することができる。
実施形態について説明する。図10は本発明の第3の実
施形態に係わる音声認識装置の概略を示すブロック図で
ある。なお、図1、6において説明した部分と同一部分
は同一符号を用いる。
部301は、指定されたテキスト中からカタカナ語の領
域を検出するものである。カタカナ語分割部302は前
記カタカナ語候補領域判定部301から渡されたカタカ
ナ語を構成要素の組に分割し、構成要素組の候補を英単
語構成要素検索部303へ渡すものである。前記英単語
構成要素検索部303は、図11に示す前記カタカナ語
構成要素と前記英単語構成要素の対応を保持しているカ
タカナ英単語構成要素対応表305に対して分割された
カタカナ語の構成要素ごとに検索を行い、分割前のカタ
カナ語を構成する前記英単語構成要素の組を生成し、カ
タカナ語候補領域判定部301へ渡すものである。前記
カタカナ語候補領域判定部301では、1つのカタカナ
語に対応する複数個の英単語構成要素の組のうち、構成
要素の数が最小になるものを選択し、英単語候補を挿入
する位置と英単語候補の綴りを表す英単語候補挿入情報
を生成して、英単語候補挿入部304へ通知する。前記
英単語候補挿入部304は、前記テキストと前記カタカ
ナ語候補領域判定部301から渡される前記英単語候補
挿入情報に基づいて、テキスト中に英単語を挿入する。
表示部306は、前記英単語候補挿入部304によって
英単語が挿入されたテキストを表示するものである。
章に英単語を挿入するための動作について説明する。前
記コマンド制御部201では、ユーザからのマウスのク
リックや音声コマンド命令などにより、操作対象のテキ
ストの領域の指定と英単語挿入の命令を受け取る。次に
カタカナ語候補領域判定部301では、上記のテキスト
を受け取るとテキスト先頭から1文字ずつカタカナであ
るかどうか検査し、連続するカタカナ列をカタカナ語と
して検出し、そのテキスト中の位置とともに管理する。
ト>という情報が管理されることになる。ここで、<
7,インターネット>は「インターネット」というカタ
カナ語の末尾がテキスト中の先頭から7文字目に位置し
ていることを表している。次に、前記カタカナ語候補領
域判定部301は検出したカタカナ語を前記カタカナ語
分割部302へ渡す。前記カタカナ語分割部302は
「インターネット」という語を分割し、a)「インター
/ネット」、b)「イン/ター/ネット」、c)「イ/
ン/タ/ー/ネ/ッ/ト」といった構成要素の組を生成
し(「/」は構成要素区切りを表す)、前記英単語構成
要素検索部303へ通知する。なお、本実施形態では簡
略化のために本来生成されるべき構成要素の組み合わせ
のうちの一部だけについて言及する。前記英単語構成要
素検索部303では、受け取った構成要素の各構成要素
についてカタカナ英単語構成要素対応表305中にカタ
カナ語構成要素が存在しているかどうかを検索する。構
成要素組中のすべてのカタカナ語構成要素がテーブル中
に存在する時、対応する英単語構成要素の組を前記カタ
カナ語候補領域判定部301へ通知する。一方、カタカ
ナ語構成要素中の少なくとも一つがテーブル中に該当す
るカタカナ語として存在しなかった時には、カタカナ語
構成要素組に対応する英単語は存在しなかったと通知す
る。
et「インター|ネット」、b)in−tar−net
「イン|ター|ネット」、c)該当なし「イ|ン|タ|
ー|ネ|ッ|ト」という英単語に変換される(「−」は
英単語構成要素区切りを表す)。
は、これらの通知を受け、英単語が返された時は、カタ
カナ語の末尾の位置と英単語候補の組で表現される英単
語候補挿入情報を生成する。例えば、先の例のデータは
<7,{inter−net,in−tar−net}
>のように表されることになる。ここで、該当する英単
語が存在しないという通知を受けたものについては英単
語候補挿入情報は生成しない。この英単語候補挿入情報
を受け取った英単語候補挿入部304はテキストの該当
部分に指定された英単語を挿入したテキストを生成す
る。なお、ここで英単語の候補が複数存在する時には、
構成要素が最も少ないものを英単語として採用する。例
では、inter−net(要素数2)、in−tar
−net(要素数3)となるため、該当する英単語とし
ては要素数2のinter−netが採用され、テキス
トの7文字目の直後に英単語(internet)を挿
入した「インターネット(internet)は」とい
うテキストが生成される。
ナ語の直後にしているが、カタカナ語の直下や欄外でも
よく、カタカナ/英単語を置換しても構わない。また、
本実施例のように挿入する英単語の前後を括弧で括るな
ど、英単語の綴りに加工をしてもよい。
カタカナを使った処理の流れを、図12を参照して説明
する。ここで、Ki は任意のカタカナの1 文字をあらわ
している。
あるとき、最終的には分割の形式としてはK1 −K2 −
K3 ,K1 −K2 K3 ,K1 K2 −K3 ,K1 K2 K3
という4通りが存在することになる。ここで、「−」は
カタカナ文字の分割位置を表している。
1文字(K1 )と残りの部分文字列(K2 K3 )に分割
する(ステップ704〜708)。次に文字列の先頭か
ら2文字目(K1 K2 )までと残りの部分文字列に分割
するという感じで前文字列部分を1文字ずつ増やしてい
き(ステップ709〜710)、後文字列(上記「残り
の部分文字列」に該当する)がなくなるまで処理を繰り
返す(ステップ707)。そして、各分割処理後に「残
りの部分文字列」について再度分割処理を施す。
K3 という分割を行った(ステップ701)後、残りの
部分文字列K2 K3 について再度分割処理を行う(ステ
ップ704〜708)。ここで、分割対象文字列K2 K
3 を再びまず1文字目と残りの部分に分割するから分割
後の文字列はK2 −K3 となる。
割処理することになる(ステップ709〜710)のだ
が、1文字しかなくもはやこれ以上分割できないことが
わかるので、この時点での分割位置がカタカナ語K1 K
2 K3 の分割形式の1つの解であることがわかり、K1
−K2 −K3 がその解として保存される(ステップ71
1〜712)。
と残りの部分に分割する。分割後の文字列はK2 K3 −
NULLとなる。ここで、分割対象の文字列K2 K3 は
2文字しかないため、「残りの部分文字列」は空(NU
LL)になる(ステップ709〜710)。
らに分割処理をすることになるのだが、ここで分割対象
文字列が空であり分割処理が行えないことがわかるの
で、この時点での分割位置がカタカナ語K1 K2 K3 の
分割形式の1つの解であることがわかり、K1 −K2 K
3 がその解として保存される(ステップ711〜71
2)。
1 K2 と残りの部分K3 に分割し(ステップ712〜7
13)、さらに後文字列K3 について分割処理を行う
(ステップ709〜710)。
もはやこれ以上分割できないことがわかるので、この時
点での分割位置がカタカナ語K1 K2 K3 の分割形式の
1つの解であることがわかり、K1 K2 −K3 がその解
として保存される(ステップ711〜712)。
K1 K2 K3 と残りの部分に分割し(ステップ712〜
713)、さらに後文字列について分割処理を行う(ス
テップ709〜710)。
字しかなかったので、後文字列は空になってしまい、分
割処理が行えないことがわかるので、この時点での分割
位置がカタカナ語K1 K2 K3 の分割形式の1 つの解で
あることがわかり、K1 K2 K3 がその解として保存さ
れる(ステップ711〜712)。
カタカナ語に対して、K1 −K2−K3 ,K1 −K2 K3
,K1 K2 −K3 ,K1 K2 K3 という4通りの分割
形式を作り出すことができる。
明したが、文字列長が4 文字以上になってもまったく同
様の手順で処理することができる。図12のフローチャ
ートは分割対象の文字列がN文字であった時の処理手順
を表している。
式のすべてのケースを保持するための配列であり、先程
の例では、words[1]=K 1 −K 2 −K 3 、wo
rds[2]=K 1 −K 2 K 3 、words[3]=K
1 K 2 −K3、words[4]=K 1 K 2 K 3という値
が保存されることになる。
ンタである。Lは文字列の分割処理が最初に与えられた
文字列に対する分割処理の時から数えて何回目の分割処
理であるかを表している。例えば、K 1 K 2 K 3 の時、
K 1と残りK 2 K 3 に分割する処理は1 回目(L= 1)
であり、この残りの部分K 2K 3 をK 2 とK 3 に分割す
る処理は2 回目(L=2)となる。
の前文字列の末尾の位置(最初に与えられた文字列の先
頭文字から数えて何文字目か)を表し、tail[L]
はL回目の分割の時の後文字列の先頭の位置(最初に与
えられた文字列の先頭文字から数えて何文字目か)を表
す。したがって、K 1 K 2 K 3 を1回目の分割処理でK
1 −K 2 K 3 に分割した時にはhead[1]=1、t
ail[1]=2となり、K 1 K 2 −K 3 に分割した時
にはhead[1]=2、tail[1]=3となる。
たカタカナに対応する英単語を検索する英単語構成要素
検索部303とカタカナ語候補領域判定部301と英単
語候補挿入部304の指定された位置へ英単語候補を挿
入する処理の流れを、図13のフローチャートを参照し
て説明する。
理の流れによって入力テキスト中に存在する連続するカ
タカナ文字で構成されるカタカナ語を分割しSSi 、テ
キスト中でのそのカタカナ語の位置Pi を組にしたKi
(i=1〜N)が作られている(ステップ800)。
あり得る。そこで、分割形式における各要素を{S
ij[k]}という形で表現する。ここで、iはカタカナ
綴りとテキスト中の位置の組Ki における番号を表す
(i=1〜N)。jは1つのカタカナ綴りに対して存在
する複数の分割形式の番号を表す(j=1〜n)。kは
ある分割形式におけるカタカナ構成要素数を表す。
の組Ki のカタカナ語の分割されたカタカナ綴りの1 番
目の要素は{Si1[1]−Si1[2]−・ …−Si1[L
i1]}と表される。ここで、Si1のi1はi番目の組K
i におけるカタカナ語の分割されたカタカナ綴りの1 番
目の要素(分割候補)であることを表し、[1]は分割
されたカタカナ綴り(分割候補)のうちの分割要素のう
ち単語頭から1番目の要素であることを表し、Li1は分
割されたカタカナ綴りの1 番目の要素の構成要素数を表
している。このことからSi1[1]は分割されたカタカ
ナ綴りの1 番目の要素のうちの単語頭から1 番目の要素
を表し、以下Si1[2]は単語頭から2 番目の要素、
…、Si1[Li1]は単語末の要素を表す。
変換する。前記英単語構成要素検索部303は前記カタ
カナ・英単語構成要素対応表305を使って個々のカタ
カナ綴りを英単語に変換していく。ここで、SSi の1
番目の綴りの単語頭から1番目の要素Si1[1]がEi1
[1]に変換されたとする。以下同様に、Si1[2]が
Ei1[2]、…、Si1[Li1]がEi1[Li1]に変換さ
れることになる(ステップ804)。
素数(Li1〜Lin)が最も小さいものを求める。いま、
n個の綴り分割候補のうちx番目の分割候補が最小であ
ったとする(ステップ805)。
Eix[Lix]}がカタカナ綴りSi に対応する英単語候
補となる(ステップ806)。あとはテキスト中の位置
Pi へこの英単語候補を挿入するだけである(ステップ
807)。
キスト中の位置の組情報の総数をNとするとi=1〜i
=NまでN回繰り返される(ステップ802、80
3)。このように、カタカナ語と英単語との対応表を単
語の構成要素に分割することによって、少ない対応表だ
けでより多くのカタカナ語と英単語の対応を表現するこ
とができる。また、新規の造語に対しても対応表やシス
テムを変更することなく即座に対応することができる。
本語ディクテーションシステムに入力音声を日本語とし
て処理する日本語モードと英字だけとして処理する英語
モードを設け、ユーザの入力音声の発声の仕方に基づい
て認識途中で2つのモードを切り替えて英単語を高精度
に音声認識することができるようになる。
することにより、ユーザが英単語を発声せずとも英単語
を入力することができるようになる。さらに、カタカナ
語を構成要素に分割し、各構成要素と英単語の構成要素
との対応表を用意することにより、少ない対応表だけで
カタカナ語と英単語との対応を取り扱うことができるよ
うになる。
テーションシステムの概略構成を示すブロック図であ
る。
辞書の構成を説明するための図である。
書の構成を説明するための図である。
と無音部の継続時間を示す図である。
02の動作を説明するためのフローチャートである。
テーションシステムの概略構成を示すブロック図であ
る。
応表を説明するための図である。
202のカタカナ語を切り出す動作を説明するためのフ
ローチャートである。
202と英単語検索部203と英単語挿入部204の動
作を説明するためのフローチャートである。
クテーションシステムの概略構成を示すブロック図であ
る。
成要素対応表を説明するための図である。
02の動作を説明するためのフローチャートである。
判定部301と英単語構成要素検索部303と英単語候
補挿入部304の動作を説明するためのフローチャート
である。
Claims (6)
- 【請求項1】 有音部と無音部からなる入力音声を受取
る音声入力部と、 前記入力音声を日本語の文章として認識するための日本
語モード認識辞書と、 英字が登録されている英語モード認識辞書と、 該音声入力部によって受取られた前記入力音声の前記有
音部の継続時間を判定すると共に、前記有音部の直前と
直後の前記無音部の継続時間を判定し、前記日本語モー
ド認識辞書または英語モード認識辞書のいずれかの使用
を判定する音声継続時間判定部と、 前記音声継続時間判定部によって判定された辞書を使用
して、前記入力音声を認識する音声認識処理部とを具備
することを特徴とする日本語ディクテーションシステ
ム。 - 【請求項2】 前記音声継続時間判定部は、前記有音部
の継続時間が所定値より短く、且つ、前記有音部の直前
と直後にある前記無音部の継続時間を加減算した値が所
定値範囲内にある場合、前記英語モード認識辞書を使用
するよう前記音声認識処理部に通知することを特徴とす
る請求項1記載の日本語ディクテーションシステム。 - 【請求項3】 前記英語モード認識辞書は英字だけが登
録されていることを特徴とする請求項1記載の日本語デ
ィクテーションシステム。 - 【請求項4】 テキスト文書を制御するコマンド制御部
と、 カタカナ語と英単語の対応が保持されているカタカナ・
英単語保持部と、 前記コマンド制御部の制御に基づいて、前記テキスト文
書からカタカナ語の領域を検出するカタカナ語領域判定
部と、 前記カタカナ語領域判定部によって検出されたカタカナ
語を受け取り、前記カタカナ・英単語保持部からカタカ
ナ語に対応する英単語を検索する英単語検索部と、 前記カタカナ語領域判定部によって判定された前記領域
に前記英単語検索部によって検索された英単語を挿入す
る英単語挿入部とを具備することを特徴とする日本語デ
ィクテーションシステム。 - 【請求項5】 テキスト文書を制御するコマンド制御部
と、 カタカナ語と英単語がそれぞれ構成要素毎に対応されて
保持されているカタカナ・英単語構成要素保持部と、 前記コマンド制御部の制御に基づいて、前記テキスト文
書からカタカナ語の領域を検出するカタカナ語候補領域
判定部と、 前記カタカナ語候補領域判定部によって検出されたカタ
カナ語を受け取り、このカタカナ語を構成要素の組に分
割するカタカナ語分割部と、 前記カタカナ・英単語構成要素保持部から前記カタカナ
語の構成要素に対応する英単語の構成要素を検索する英
単語構成要素検索部と、 前記カタカナ語候補領域判定部によって判定された前記
領域に前記英単語構成要素検索部によって検索された前
記英単語構成要素を挿入する英単語候補挿入部とを具備
することを特徴とする日本語ディクテーションシステ
ム。 - 【請求項6】 カタカナ語領域判定部は、前記英単語検
索部から検索された英単語の綴りとテキスト文書に対す
る挿入位置情報を生成し、前記英単語挿入部に通知する
ことを特徴とする請求項4または請求項5記載の日本語
ディクテーションシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11080741A JP2000276189A (ja) | 1999-03-25 | 1999-03-25 | 日本語ディクテーションシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11080741A JP2000276189A (ja) | 1999-03-25 | 1999-03-25 | 日本語ディクテーションシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000276189A true JP2000276189A (ja) | 2000-10-06 |
Family
ID=13726833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11080741A Pending JP2000276189A (ja) | 1999-03-25 | 1999-03-25 | 日本語ディクテーションシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000276189A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140288916A1 (en) * | 2013-03-25 | 2014-09-25 | Samsung Electronics Co., Ltd. | Method and apparatus for function control based on speech recognition |
KR101498028B1 (ko) * | 2008-04-29 | 2015-03-03 | 엘지전자 주식회사 | 단말기 및 그 제어 방법 |
JP2017097330A (ja) * | 2015-11-19 | 2017-06-01 | パナソニック株式会社 | 音声認識方法及び音声認識装置 |
CN113194380A (zh) * | 2021-04-26 | 2021-07-30 | 读书郎教育科技有限公司 | 一种英语单词英语生词听写进度的控制系统及方法 |
-
1999
- 1999-03-25 JP JP11080741A patent/JP2000276189A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101498028B1 (ko) * | 2008-04-29 | 2015-03-03 | 엘지전자 주식회사 | 단말기 및 그 제어 방법 |
US20140288916A1 (en) * | 2013-03-25 | 2014-09-25 | Samsung Electronics Co., Ltd. | Method and apparatus for function control based on speech recognition |
JP2017097330A (ja) * | 2015-11-19 | 2017-06-01 | パナソニック株式会社 | 音声認識方法及び音声認識装置 |
CN113194380A (zh) * | 2021-04-26 | 2021-07-30 | 读书郎教育科技有限公司 | 一种英语单词英语生词听写进度的控制系统及方法 |
CN113194380B (zh) * | 2021-04-26 | 2022-08-23 | 读书郎教育科技有限公司 | 一种英语生词听写进度的控制系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
JP5040909B2 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
US7529678B2 (en) | Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system | |
JP5255769B2 (ja) | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル | |
JP3935844B2 (ja) | 入力された音声のトランスクリプションおよび表示 | |
US7962341B2 (en) | Method and apparatus for labelling speech | |
JP2000122691A (ja) | 綴り字読み式音声発話の自動認識方法 | |
JP2000035795A (ja) | 音声認識におけるノンインタラクティブ方式のエンロ―ルメント | |
JP2004258658A (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
JPH10133685A (ja) | 連続音声認識中にフレーズを編集する方法及びシステム | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP6230606B2 (ja) | 精度スコアを使用した音声認識性能を予測するための方法およびシステム | |
CN109300468B (zh) | 一种语音标注方法及装置 | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
CN112562676A (zh) | 一种语音解码方法、装置、设备及存储介质 | |
JPWO2006093092A1 (ja) | 会話システムおよび会話ソフトウェア | |
KR101747873B1 (ko) | 음성인식을 위한 언어모델 생성 장치 및 방법 | |
JPH06110494A (ja) | 発音学習装置 | |
US20230360633A1 (en) | Speech processing techniques | |
JP2000276189A (ja) | 日本語ディクテーションシステム | |
JP2000056795A (ja) | 音声認識装置 | |
EP0987681B1 (en) | Speech recognition method and apparatus | |
JP2003162524A (ja) | 言語処理装置 | |
JP2975542B2 (ja) | 音声認識装置 | |
JP3039453B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20031209 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050414 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051202 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060324 |