JP2002073082A - 音声認識方法と電子装置 - Google Patents

音声認識方法と電子装置

Info

Publication number
JP2002073082A
JP2002073082A JP2000256650A JP2000256650A JP2002073082A JP 2002073082 A JP2002073082 A JP 2002073082A JP 2000256650 A JP2000256650 A JP 2000256650A JP 2000256650 A JP2000256650 A JP 2000256650A JP 2002073082 A JP2002073082 A JP 2002073082A
Authority
JP
Japan
Prior art keywords
input
voice
character
recognition method
specific language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000256650A
Other languages
English (en)
Inventor
Toshihisa Tsukada
俊久 塚田
Yoshiaki Kitatsume
吉明 北爪
Makoto Tanaka
田中  誠
Hideki Uchidate
秀樹 内館
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Technology Ltd
Original Assignee
Hitachi ULSI Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi ULSI Systems Co Ltd filed Critical Hitachi ULSI Systems Co Ltd
Priority to JP2000256650A priority Critical patent/JP2002073082A/ja
Publication of JP2002073082A publication Critical patent/JP2002073082A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 簡単な構成で識別率の大幅な改善を図った音
声認識方法と音声認識技術を用いて使い勝手の改善を図
った電子装置を提供する。 【解決手段】 特定の言語に対応した字母単位で音声入
力し、入力された音声信号の信号処理により字母の識別
を行い、上記音声入力での識別率が悪い字母に対して
は、上記特定の言語以外の単一ないし複数の言語の字母
又はその組み合わせに置き換えて音声入力して、入力さ
れた音声信号の信号処理により上記特定の言語に対応し
た字母の識別を行うようにする。かかる字母での音声入
力を電子装置の入力手段として用いる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識方法と
電子装置に関し、特に、音声入力を行うようにした携帯
電話機等の電子装置に利用して有効な技術に関するもの
である。
【0002】
【従来の技術】音声認識技術は人が話す言葉や文章をコ
ンピュータに直接認識させる技術であり、現在入力手段
として用いられているキーボード入力、ペン入力などに
替わる簡便な入力手段として注目されている。音声認識
に関する文献の例として、Y.Obuchi, A.Koizumi, Y.Kit
ahara, J.Matsuda, and T.Tsukada, Proc. EUROSPEECH'
99, pp.2023-2026, 1999があり、口述ソフトウェアの例
として、 ViaVoice(IBM社)、 NaturallySpeaking
(Dragon 社) 、音声認識ソフトウェアの例としてAS
R1600(L&H社)がある。上記IBM社の“ViaV
oice" やDragon 社の“Naturally Speaking" は主とし
てWintel PC向けのいわば重装備の口述ソフトウェア
である。
【0003】
【発明が解決しようとする課題】携帯電話機等のデジタ
ル電子機器では、その小型化のために実装されるキーの
数が限られる。それ故、カナ文字等を用いた電話帳等を
登録するにはかなり複雑なダイヤルキーの操作を余儀な
くされる。したがって、使い初めの人あるいは使い慣れ
ない人々にとっては極めて使い勝手の悪いものとなって
いる。そこで、入力手段として注目されている上記音声
認識技術を用いることが考えられるが、上記の口述ソフ
トウェアは膨大な音声データを駆使することによりその
認識率を高めたもので、コンテクスト(文脈)などの利
用により文章入力についてはかなり高度の性能を有する
ものとなっているが、反面では大容量のメモリと高性能
のCPUを必要とする。したがって、このような口述ソ
フトウェアを携帯電話機等のような小型で低消費電力で
あることが必要なデジタル電子機器に搭載することは現
実的ではない。また、認識率は大容量メモリと高性能C
PUの使用により改善されつつあるとは言え、必ず入力
されるという安心感が得られるまでには至っていない。
【0004】この発明の目的は、簡単な構成で識別率の
大幅な改善を図った音声認識方法を提供することある。
この発明の他の目的は、音声認識技術を用いて使い勝手
の改善を図った電子装置を提供することある。この発明
の前記ならびにそのほかの目的と新規な特徴は、本明細
書の記述および添付図面から明らかになるであろう。
【0005】
【課題を解決するための手段】本願において開示される
発明のうち代表的なものの概要を簡単に説明すれば、下
記の通りである。特定の言語の字母の入力に1ないし複
数言語の字母の発声の組み合わせに置き換えて入力する
とともに、音声認識では上記特定の言語に対応した字母
単位で行う。
【0006】本願において開示される発明のうち他の代
表的なものの概要を簡単に説明すれば、下記の通りであ
る。入力部で音声信号を取り込んでデジタル化し、信号
分析部で入力された音声信号の特徴抽出を行なって予め
用意された音響モデルと照合して字母判別を行う電子装
置において、上記音声入力部に入力される音声信号を日
本語のかなをローマ字表記に置き換え、かつかかるロー
マ字のアルファベットの一部をギリシャ語のアルファベ
ットに置き換え、上記音声信号処理部において日本語の
かなを判別するようにする。
【0007】
【発明の実施の形態】図1には、この発明に係る音声認
識方法を説明するための一実施例のブロック図が示され
ている。音声認識の方法は、図1の各ブロックでの信号
処理に沿って行われる。発声音はまず音声入力部におい
てディジタル信号化される。この実施例では、簡単な構
成での高い音声識別率を実現するために、音声入力を字
母の単位で行うようにすることに1つの特徴を持ってい
る。
【0008】ここで、「字母」とは、国語辞典によれ
ば、「かな」、「アルファベット」、「梵字」等のよう
に発音を示すつづり字のひとつひとつのことをいい、英
語では「phoneme 」(フォニーム)に相当する。このフ
ォニーム(phoneme )は、音素のことをいい、ある言語
の音声学上の最小単位を意味するものである。
【0009】上記のような字母単位での音声入力には、
字母毎に一定の無音期間を挿入するか、あるいは字母の
区切りを意味するキー入力信号を挿入すること等により
行われる。使い勝手を考慮すれば、字母毎に無音期間を
挿入することが有益であると考えられが、より確実な字
母の区切りを行うなら、キー信号を用いることが有益で
ある。
【0010】上記音声入力部から字母単位で入力された
音声信号は、音声分析部に送られ、そこで特徴抽出処理
が行われる。具体的には短時間周波数分析である。分析
結果は照合部において予め用意された音響モデルと照合
され、判定処理を行う。最も高いスコアを得たものが認
識結果として表示される。
【0011】照合部において用いられる音響モデルは、
一般的にはHMMと単語辞書とコンテキスト辞書を連結
したものである。ここで、HMMとは、隠れマルコフモ
デル(Hidden Markov Model)と呼ばれるもので認識の基
となる参照モデルである。このHMMに単語辞書や文脈
データなどを組込んだコンテキスト辞書を組み合わせた
ものが音響モデルとなる。
【0012】上記音声認識の基本となるHMMは比較的
軽いソフトウェアであるが、従来のように口述に対応し
た特定言語の音声識別を行うようにするには、その言語
の単語辞書やコンテキスト辞書を設けることが必須とな
り、そのアプリケーションによっては重くなりやすい。
長文読み上げを実時間で認識することが求められる口述
ソフトファアなどでは、単語辞書は無論のこと文脈や文
例などのデータを大量に設けることが必要になるため、
データを高速で処理する高性能のCPUおよび大容量の
メモリが必要になる。
【0013】携帯型電子装置においては長時間動作を可
能にするため、部品点数を減らし消費電力を押さえる必
要がある。メモリの容量はできるだけ少なくし、CPU
のパワーも制限される。すなわち辞書を始めとするデー
タ量はなるべく軽いものが求められる。そこで、この発
明に係る音声認識方法では、字母単位での音声識別を行
うようにすることにより、基本的には同図で点線で示し
たように単語辞書やコンテスト辞書を不要にするもので
ある。
【0014】つまり、字母単位での音声認識では、かな
認識では基本的には48種類、ローマ字認識では26種
類の音声識別が可能であればよく、音響モデルのデータ
量を極力少なくできる上に、かかる字母結果を組み合わ
せることで、結果的にあらゆる種類の単語や文章も入力
することができる。このように音声認識でのデータ量を
少なくすることができるので、それを処理する中央処理
装置CPUも低消費電力のRISC(Reduced instructi
on set computer)タイプのものを用いることができ、し
かもメモリ容量も少なくてよい。この結果、この発明に
係る音声認識方法は、携帯用電子装置に最適な入力方法
である。使い勝手を良くするために、特定の制御信号や
動作命令を音声で行うようにした場合でも、単語辞書や
コンテキスト辞書は小規模で済む。
【0015】この発明に係る音声認識方法による日本語
のかな字母の識別を例にして以下に具体的に説明する。
この例では基本的には単音節を子音と母音に分けて発声
するが、ローマ字表記にギリシャ語のアルファベットを
併用しかつ単音節入力も活用する。母音:「あ」はα
(あるふぁ)、「い」はI(あい)、「う」はU(ゆ
ー)、「え」はE(いー)、「お」はO(おー)を用い
る。さらに音節間の距離を増すためにX(えっくす)を
付け加える。つまり、「あ」を入力するときには「X
α」=「えっくすあるふぁ」と発声する。以下、同様に
「い」を入力するときには「XI」=「えっくすあい」
と発声し、「う」は「XU」=「えっすくゆー」と発声
し、「え」は「XE」=「えっすくいー」と発声し、
「お」は「XO」=「えっすくおー」と発声する。Xは
「えくす」と発声して、上記の「あ」を「えくすあるふ
ぁ」などと発声するのも有効な方法である。
【0016】「か行」の子音にはκ(かっぱ)を用い
る。これはK(けい、けー)を用いるよりも良い結果が
得られるからである。母音の発声は「あ行」と同じであ
る。したがって、「か」を「κα」=「かっぱるふぁ」
と発声し、「き」を「κI」=「かっぱあい」と発声す
る。以下、「κU」、「κE」、「κO」より「く」、
「け」、「こ」を入力する。「κ」を「かぱ」に近い発
声により入力するのも有効である。例えば、「か」は
「かぱあるふぁ」と発声する。
【0017】「さ行」の子音にはS(えす)を用いる。
したがって、「さ」、「し」、「す」、「せ」、「そ」
は、上記の発声に従って「Sα」、「SI」、「S
U」、「SE」、「SO」のように入力する。Sの代わ
りにギリシャ語の「σ」=「しぐま」を用いるのもよ
い。つまり、「さ」は「しぐまあるふぁ」のように発声
される。「た行」の子音にはτ(たう)を用いる。母音
との組み合わせは、前記と同様である。このようなτ
(たう)に置き換えることにより、いわゆる「e問題」
を回避することができる。「な行」の子音にはν(にゅ
ー)を用いる。「な行」と「ま行」の類似性を回避す
る。母音との組み合わせは、前記の同様である。
【0018】「は行」の子音はH(えいち、えっち)を
用いる。「ま行」の子音はM(えむ)を用いる。「や
行」の入力は単音節入力とする。「や行」は「や」、
「ゆ」、「よ」の3音節しかなく比較的入力が容易であ
ることが理由であるが、Y(わい)を用いると後で述べ
るπ(ぱい)との混線を生じ易い。「ら行」の子音はR
(あーる)を用いる。「わ行」の子音はW(だぶりゅ、
だぶりゅう、だぶりゅー)を用いる。上記各子音と母音
との組み合わせは、前記と同様である。
【0019】上記以外のローマ字表記がある場合には、
それに従って入力することも可能である。例えば「つ」
の入力に「TSU」を用いて「たうえすゆー」あるいは
「たうしぐまゆー」と発声する。また、「ふ」の入力に
は「FU」から「えふゆー」と発声するなどしてもよ
い。
【0020】濁音に移って、「が行」の子音はγ(がん
ま)を用いる。γはギリシャ語のアルファベットの3番
めに位置し必ずしも英語のアルファベットのGには対応
しないが便宜上これを用いる。「ざ行」の子音はZ(ぜ
っど、ぜっと、ぜど)を用いる。「だ行」の子音はδ
(でるた)を用いる。「ば行」の子音はβ(べーた)を
用いる。「ぱ行」の子音はπ(ぱい)を用いる。これら
のギリシャ文字への置き換えは、いわゆる「e問題」を
回避するためのものである。そして、「ん」はNN(え
ぬえぬ)により入力する。拗音や促音は「こもじ」の発
声により入力する。「ゃ」の入力を例にとれば一旦
「や」を入力した後「こもじ」と発声する。
【0021】以上述べた音声入力とその字母単位での認
識方法を行うことにより、前記単語辞書やコンテスト辞
書を省略ししつつ、かかる単音節入力の認識率を100
%にできるという結果を得ることができた。
【0022】本願発明者においては、同じ音声認識のソ
フトウェアを用いて、音声入力にかなを用い、「に」を
「に」と発声する単音節入力で実験したところその認識
率は70 %を下回る結果となった。この70%を下回る
結果は発声を繰り返すことで改善されるが、なかには何
度試行しても正しい結果が得られない場合もある。ま
た、この70%という値は4音節からなる単語を一度で
正しく認識する確率が(0.7)の4乗、すなわち約2
4%に落ちるということを意味する。つまり4回のうち
3回は何らかの修正作業を必要とする。これに対し本発
明に係る音声認識方法では、1回の発声で正しい結果を
得ることを可能にするものでありその効果は極めて大き
い。
【0023】本願発明では、日本語の単音節の認識率を
高めるために、単語や文章といった多様で多種類の音声
の認識を行うのではなく、「に」「ん」「し」「き」と
いった単音節の認識とし、その認識率を高めるために、
キー入力で広く使用されている単音節のローマ字化が利
用される。たとえば「に」を“NI(「えぬあい」と発
声)とするといった方法である。これにより認識率は、
前記「に」「ん」「し」「き」といった単音節を直接認
識するものに比べてある程度改善されるが、その度合は
限られる。その理由を検討した結果、「e問題」をあげ
ることができる。すなわち、b、d、e、g、p、t 等
の発声の類似性が認識率の改善を妨げていることに気が
付いたのである。
【0024】そこで、本願発明では、日本語のかな単音
節認識の認識率を極限まで高めるようにするために、ま
ず利用したのが単音節のローマ字化である。かかるかな
の単音節、つまりは字母をローマ字表記に置き換え、そ
れに加えてギリシャ語のアルファベットを併用する。先
にあげた例に即していうと、β(b)、δ(d)、γ
(g)、π(p)τ(t)α(a)、κ(k)、ν
(n)、等を利用する。μ等も適宜利用する。
【0025】これにより、単音節(字母)でのかな認識
率を極限にまで高めることができる。すなわち、「あ、
か、さ、た、な、は、ま、や、ら、わ、ん、が、ざ、
だ、ば、ぱ」の各行の単音節の認識率を100%まで高
めることが可能になった。 このような高い認識率が得ら
れる理由は、ギリシャ語のアルファベット併用によりい
わゆる「e問題」を避けることができるとともに、英語
とギリシャ語のアルファベットの中からお互いに距離の
離れたすなわち類似性の少ないものを選ぶことができる
からである。ギリシャ語のアルファベットは英語ほどに
は知られていないが、それでも比較的なじみがあり記憶
しやすいという特徴を持っている。
【0026】前記実施例はあくまでもひとつの例であり
その変形はいくつもある。たとえば上記の例の「な行」
の子音をN(えぬ)に変え、「ま行」の子音をμ(みゅ
ー)に変えることも可能である。すなわち、「な」の入
力を「えぬあるふぁ」で、「ま」の入力を「みゅーある
ふぁ」で行うといった具合である。また拗音の入力も
「やのこもじ」と発声して「ゃ」を入力することもでき
る。促音についても同様である。「たうゆーのこもじ」
で「っ」が入力される。
【0027】またキーボード入力にならって入力するの
も有効である。例えば「あ」はキーボードで「la」で
入力できる。これを用いて「あ」の音声入力を「えるあ
るふぁ」又は「らむだあるふぁ」とするなどである。
「っ」は「えるたうゆー」又は「らむだたうえすゆー」
などと発声する。すなわち、単音節の入力を日本語の単
音節と英語のアルファベットおよびギリシャ語のアルフ
ァベットの組み合わせにより実施する点が本発明の特徴
である。
【0028】前記実施例の変形例をもうひとつあげると
以下の通りである。前記実施例では、「ば行」の入力を
「β」用いて行うものである。例えば「ば」を「べーた
あるふぁ」などと発声するが、これを少し変えて「べー
たのあるふぁ」とする。これにより、他の仮名入力との
音声的距離がとりやすくなる。同様にして、「ぱ行」の
入力を「ぱいのあるふぁ」などを用いる手法も有効であ
る。
【0029】ギリシャ語のアルファベットは先に述べた
もの以外を使うようにしてもよい。ω(おめが)、λ
(らむだ)、ι(いおた)、ε(いぷしろん、えぷしろ
ん)等を用いたり、派生語にεを(えぷし)、ρ(ろ
ー」等を用いてもよい。
【0030】日本語の識別においてはかな単音節のほか
に長音「―」などもあり、平仮名や片仮名の区別、また
数字などもある。これらの入力についても「ちょうお
ん」「ひらがな」「かたかな」「すうじ」といった発声
による入力手法を、上記方式と随時組み合わせて用いる
ことももちろん可能であり、必要なことである。
【0031】日本語の入力とはいえ、日本語の中に英語
あるいはアルファベットの挿入があることもよくある。
このような場合「あるふぁべっと」といった発声により
モードを切り換え、アルファベットのモードに入る。こ
のときも、ギリシャ語のアルファベットを最大限利用す
ることはいうまでもない。
【0032】上記実施例では清音と濁音、半濁音を一様
に扱ったがこれを清音に一本化することもできる。すな
わち、清音の入力は上記実施例に準じて行い、「が、
ざ、だ、ば、ぱ」の各行はそれぞれ対応する清音から
「だくおん」あるいは「はんだくおん」と発声すること
により入力するものである。この場合先の実施例では使
わなかったY(わい)を「や行」の入力に使うことが可
能である。π(ぱい)との混線がなくなったためであ
る。
【0033】上記「だくおん」は「だくてん」あるいは
「はんだくてん」でもよい。また、「だくてん」の繰り
返しで入力するようにしてもよい。例えば「は」の入力
の後に「だくてん」と発声すると、「は」が「ば」に変
わり、次に「だくてん」と発声すると「ば」が「ぱ」に
変わる、といったような方法としてもよい。もう一度
「だくてん」と発声すると、「ぱ」は「は」に戻るよう
にしてもよい。
【0034】上記実施例においては単音節を子音と母音
に分けて入力するか、単音節入力とするかのいずれかを
採用することを基本としたが、これは併用することもで
きる。すなわち両方の入力方式を準備しておき随時使い
分けることを可能にする。例えば、「あ」と発声して正
しい結果が得られたらよし、そうでなければ直ちに「え
っくすあるふぁ」と発声する方式である。この方式では
入力の自然さと入力の正確さを実現することができる。
また、上記のような認識単位、つまりは1つのかなに対
応した音声入力の区切りには、無音期間を一定挿入する
こと、あるいはキー入力信号により区切りを与えるよう
にする。
【0035】上記実施例では、字母単位での入力につい
て説明したが、複数の字母単位での入力も可能である。
例えば「ぎゃ」の入力を「がんまわいあるふぁ」、「し
ゅ」の入力を「えすえいちゆー」、あるいは「しぐまわ
いゆー」とするなどである。
【0036】図2には、この発明に係る音声認識方法を
用いた音声認識機能を持つデジタル携帯電話機の一実施
例の外観図が示されている。同図において、1はアンテ
ナである。アンテナ1は、より条件での送受信を行うよ
うにするために伸ばして使うようにされる。2は、受話
口であり、受信された音声信号を出力するスピーカが設
けられる。3は表示部であり、文字あるいは記号等が表
示される。この表示には、上記音声認識による判定結果
の選択ないし決定を行うためにも用いられる。
【0037】4は、制御キー入力群であり、前記実施例
に示したような音声でのかな入力機能を持つために、電
源キー、選択キーを含めた少ない数のキーに限定されて
いる。5はダイヤルキーであり、かかるダイヤルキー5
は、0〜9の数字入力と、*と#のキーからなる12個
からなり、*と#にカーソルを制御する機能がもたせら
れる他は数字入力のみに用いられる。8は、送信/着信
ランプであり、例えば着信があると緑等のような特定の
色で点滅し、充電時には赤色等他の色に点灯する。
【0038】6は、送話口であり、マイクロフォンによ
り構成される。この実施例のデジタル携帯電話機では、
上記のような音声認識機能が持たせられ、音声入力には
かかるマイクロフォンが用いられる。電話機として用い
ることの他、電話機の持つ各種登録や設定のために音声
認識機能が利用され、その入力には表示部3が合わせて
用いられる。それ故、表示部3での文字を確認しなが
ら、音声入力するために送話口(マイクロフォン)6
は、簡単な操作よって電話機本体と脱着可能とされる。
つまり、マイクロフォン6は、細いケーブル7により電
話機本体と接続される。このケーブル7は、マイクロフ
ォン6が本体に装着された状態では本体内部に巻き取ら
れようにされる。上記マイクロフォン6は、アンテナの
ように引き出して使うような形式、あるいは本体にたた
み込んでおいて、使用時には立てて使うような形式のも
のも有効である。
【0039】この実施例のデジタル電話機では、前記図
1のブロック図に示したような音声認識機能が搭載され
ている。かかる音声認識機能を用いた音声入力は、例え
ば電話帳を作成する場合の宛て名のかな文字入力に用い
られる。これにより、中高年世代の人々においても、宛
て名入力が簡単に行えるようになり、極めて使い勝手の
良いものとなる。また、デジタル電話機により「電子メ
ール」に向けた本文の入力を行う場合も、上記字母認識
による音声入力で簡単に思い通りの文章を作成すること
もできる。
【0040】図3には、この発明に係るデジタル携帯電
話機を用いたホームネットワーク制御システムの一実施
例の構成図が示されている。この実施例では、電話局線
に接続された電話器TELを中心として、テレビジョン
&録画装置TV&VTR、ラジオ受信機と録音機能を備
えたオーディオ装置AUD、エアコンディショナーA
C、及び風呂BT、パーソナルコンピュータPC等の家
庭電化製品あるいは家庭電子装置がネットワークで接続
されている。
【0041】このような家庭電化製品を、出先から電話
回線を通してオン/オフの制御を行うことは容易に考え
られる。しかし、かかる電話回線を通した音声信号を識
別するには、狭い帯域の音声信号しか伝達できない電話
回線を通した音声認識での難しさが加わるために、仮に
可能としても受信側に高性能のコンピュータシステムが
必要となる。
【0042】この発明に係るデジタル携帯電話機におい
て、前記のように100%の音声認識が可能であり、し
かも認識された音声信号の確認を表示部で行うことがで
きる。そのため、携帯電話機により、制御される機器を
指定し、その制御内容も入力し、それらを表示部で確認
した上で発信することができる。つまり、通常の電話操
作により、基地局と交換局を経由して電話器TELに接
続し、特定の制御キーの操作により、上記すでに入力さ
れた制御される機器情報、その制御情報を、特に制限さ
れないが、ダイヤルキーに対応した周波数信号の組み合
わせ、つまりは数字の組み合わせに変換して電話器TE
Lに送られる。
【0043】電話器TELでは、ダイヤル周波数の組み
合わせによる数字の形態で送られた制御される機器情
報、その制御情報を解読して、例えばVTRを起動させ
て指定された時刻に指定さたチャンネルの録画動作を行
うよう指示する。VTRは、これを受けて上記録画動作
を行う。エアコンディショナーACや風呂BTは、動作
のオン/オフや温度設定が行われる。オーディオ機器で
は、ラジオ放送の録音を上記VTRと同様に指示された
時刻に指示された放送内容を録音することができる。
【0044】パーソナルコンピュータPCについては、
種々の使い勝手が可能となる。上記のような音声入力よ
る制御動作の指示は、ソフトフェアに対応してその内容
が任意にできるから、例えば必要なデータを音声信号に
代えて、受話口で読み出すこともできるし、送話口から
音声入力してそれを録音させることもできる。
【0045】このように様々な家庭電化品や電子装置の
制御を電話回線を通して確実に実現できるのは、携帯電
話器自身において音声認識を行ない、入力された文字の
確認を行っていることによる。つまり、受信側で音声認
識を行うようにした場合には、受信側で認識された音声
の確認ができないか、あるいは極めて面倒なものになっ
てしまうのに対して、本願のように送信側において音声
認識を済ませば、使用する通信回線に合わせて実績のあ
る高信頼性の信号伝送方式による確実な信号伝達を利用
することができるからである。
【0046】図4には、この発明を携帯型通訳機に適用
した場合の一実施例の外観図が示されている。この通訳
機の使用方法は次の通りである。発声釦11を押して発
声すると認識結果が表示装置13に表示される。正しい
結果が得られたらOK釦14を押して文例検索に移行す
る。スクロール釦15により検索し所望の文が見つかる
とOK釦14を押して訳文表示をする。さらに発声釦1
1を押すと訳文の音声がスピーカ16を通して流れる。
12は、音声信号を取り込むマイクロフォンである。
【0047】この通訳機の入力部に本発明を適用した例
を「にんしき」を例にして示す。発声釦11を押して
「にゅーあい、えぬえぬ、えすあい、かっぱあい」と各
字母間に一定の無音期間を挿入しつつ連続して発声す
る。すると、前記のような音声認識方法に従って、表示
装置13には「にんしき」と表示される。OK釦14を
押すと表示は「認識」と変る。
【0048】非連続の発声も可能である。発声釦11を
押して「にゅーあい」と発声すると「に」が表示され
る。これを確認したのち再び発声釦11を押し、「えぬ
えぬ」と発声し「ん」が表示されるのを待つ。以下これ
の繰り返す。認識はほとんどの場合正しい結果を表示す
るが、周囲雑音が大きいなどの理由で間違った場合には
修正モードに入る。間違った音節を選択し発声釦11を
押して正しい音節を本発明の方式により入力する。これ
により正しい認識結果に到達する。なお表示装置13は
複数個の認識結果を表示することができ、その中から正
しいものを選ぶようになっている。
【0049】上記のような入力方法に代え、まず最初に
「にんしき」と発声する。正しい結果が得られればよ
し、そうでなければ上記の最初に戻って「にゅうあい、
えぬえぬ、えすあい、かっぱあい」と発声する。すると
通訳機は最初の「にんしき」の発声データを記憶してい
るので随時照合作業を行い結果を表示する。単音節発声
の途中で正しい結果が得られればそこで入力は完了とな
る。
【0050】上記図4の携帯型通訳機は、そのまま携帯
電話機能もったパームトップ型パーソナルコンピュータ
に置き換えることができる。例えば、電子メールのテキ
スト文の入力に本発明を適用した場合、電子メールの起
動コマンドとして「いーめーる」と発声する。画面がメ
ール新規作成に切り替わる。
【0051】表示画面に表示されたアドレス帖からスク
ロール釦15を操作してアドレスを選択して、次のよう
な本文の入力に入る。「かっぱおー、えぬえぬ、にゅー
あい、たうあい、えいちあるふぁ」と発声すると「こん
にちは」と表記される。ついでコマンドとして「へんか
ん」と発声すると表記が「今日は」と変る。以下同様に
してメールの文章を入力する。また、本発明を用いる副
次的効果としては入力が直接的でないので、人前で上記
のような音声入力を行ったとしても、側で聞いている人
がいても気にすることなく使用することができる。
【0052】上記のような音声入力方法を利用すること
により、携帯電子端末に設けられるキー(釦)の数が大
幅に削減でき、キー入力あるいは1つのキーに複数通り
の入力方法を割り付けて複雑な操作を必要とする入力装
置に比べて、使い勝手がよくキー入力に不慣れな中高年
世代を代表とするような使い初めや使い慣れない人々に
おいても簡単に操作することができる。
【0053】上記の実施例から得られる作用効果は、下
記の通りである。 (1) 特定の言語の音声認識方法において、かかる特
定の言語の字母の入力に単一ないし複数言語の字母の発
声の組み合わせに置き換えて入力するとともに、音声認
識では上記特定の言語に対応した字母単位で行うように
することによって、簡単な構成で識別率の大幅な改善を
図ることができるという効果が得られる。
【0054】(2) 上記に加えて、上記特定の言語の
字母の入力を、その言語以外の単一ないし複数の言語の
字母又はその組み合わせに置き換えて音声入力を行うよ
うにすることによる類似性の高い字母の識別が簡単とな
り、1回の認識での識別率の大幅な改善につながるとい
う効果が得られる。
【0055】(3) 上記に加えて、上記音声信号の信
号処理は入力部においてデジタル信号化し、音声分析部
において特徴抽出処理を行ない、照合部において予め用
意された隠れマルコフモデルを含む音響モデルと照合す
ることにより、簡単な信号処理での認識が可能となり、
メモリやCPUに安価なものを用い、簡易なソフトウェ
アでの認識が可能になるという効果が得られる。
【0056】(4) 日本語のかなをローマ字表記に置
き換え、かつかかるローマ字のアルファベットの一部を
ギリシャ語のアルファベットに置き換えて発音して上記
かなの認識を行うようにすることにより、簡単な構成に
より高い認識率でのかな音声入力が可能になるという効
果が得られる。
【0057】(5) 上記入力された音声信号をデジタ
ル化し、その特徴抽出を行ない、予め用意された音響モ
デルと照合して字母判別を行う音声信号処理部を備え、
上記音声入力部に入力される音声信号を日本語のかなを
ローマ字表記に置き換え、かつかかるローマ字のアルフ
ァベットの一部をギリシャ語のアルファベットに置き換
え、上記音声信号処理部において日本語のかなを判別す
るようにすることにより、キー操作が簡便でかな入力を
簡単に行える電子装置を得ることができるという効果が
得られる。
【0058】以上本発明者よりなされた発明を実施例に
基づき具体的に説明したが、本願発明は前記実施例に限
定されるものではなく、その要旨を逸脱しない範囲で種
々変更可能であることはいうまでもない。例えば、英
語、仏語、独語、ロシア語等の欧米系言語に適用可能で
あるという普遍性を持つものである。 すなわち、たとえ
ば仏語とギリシャ語のアルファベットを組み合わせて使
うことにより、仏語の単語認識率を究極まで高めること
ができる。また、欧米系言語以外にも適用可能であるこ
とは勿論である。前記の日本語におけるが如く、それぞ
れの言語の字母を複数国の字母の組み合わせによって入
力するようにすればよい。
【0059】この発明に係る音声認識方法を用いた音声
認識機能が搭載される電子装置は、前記の実施例の他に
カーナビゲーション装置やテレビジョン受像機、エアコ
ンディショナー等のような電化製品であってもよい。こ
のような音声による電化製品や電子装置の制御は、足、
手、目の不自由な障害者、介護を必要とする高齢者等に
も便利なものとなる。
【0060】
【発明の効果】本願において開示される発明のうち代表
的なものによって得られる効果を簡単に説明すれば、下
記の通りである。特定の言語の音声認識方法において、
かかる特定の言語の字母の入力に単一ないし複数言語の
字母の発声の組み合わせに置き換えて入力するととも
に、音声認識では上記特定の言語に対応した字母単位で
行うようにすることによって簡単な構成で識別率の大幅
な改善を図ることができる。
【0061】上記入力された音声信号をデジタル化し、
その特徴抽出を行ない、予め用意された音響モデルと照
合して字母判別を行う音声信号処理部を備え、上記音声
入力部に入力される音声信号を日本語のかなをローマ字
表記に置き換え、かつかかるローマ字のアルファベット
の一部をギリシャ語のアルファベットに置き換え、上記
音声信号処理部において日本語のかなを判別するように
することにより、キー操作が簡便でかな入力を簡単に行
える電子装置を得ることができる
【図面の簡単な説明】
【図1】この発明に係る音声認識方法を説明するための
一実施例を示すブロック図である。
【図2】この発明に係る音声認識方法を用いた音声認識
機能を持つデジタル携帯電話機の一実施例を示す外観図
である。
【図3】この発明に係るデジタル携帯電話機を用いたホ
ームネットワーク制御システムの一実施例を示す構成図
である。
【図4】この発明を携帯型通訳機に適用した場合の一実
施例を示す外観図である。
【符号の説明】
1…アンテナ、2…受話口(スピーカー)、3…表示
部、4…制御キー、5…ダイヤルキー、6…送話口(マ
イクロフォン)、7…ケーブル、8…ランプ PC…パーソナルコンピュータ、TV,VTR…テレビ
ジョン受像機、録画装置、AUD…オーディオ機器、A
C…エアコンディショナー、BT…風呂、TEL…電話
機 11…発声釦、12…マイクロフォン、13…表示装
置、14…OK釦、15…スクロール釦、16…スピー
カー。
フロントページの続き (72)発明者 田中 誠 東京都小平市上水本町5丁目22番1号 日 立超エル・エス・アイ・システムズ内 (72)発明者 内館 秀樹 東京都小平市上水本町5丁目22番1号 日 立超エル・エス・アイ・システムズ内 Fターム(参考) 5D015 GG00 HH23 KK02

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 特定の言語の音声認識方法において、か
    かる特定の言語の字母の入力に単一ないし複数言語の字
    母の発声の組み合わせに置き換えて入力するとともに、
    音声認識では上記特定の言語に対応した字母単位あるい
    は複数の字母単位で行うようにしてなることを特徴とす
    る音声認識方法。
  2. 【請求項2】 請求項1において、 上記特定の言語の字母の入力は、その言語以外の単一な
    いし複数の言語の字母又はその組み合わせに置き換えて
    音声入力を行うものであることを特徴とする音声認識方
    法。
  3. 【請求項3】 請求項1又は2において、 上記音声信号の信号処理は、入力部においてデジタル信
    号化し、音声分析部において特徴抽出処理を行ない、照
    合部において予め用意された隠れマルコフモデルを含む
    音響モデルと照合することにより字母判定を行うものを
    含むことを特徴とする音声認識方法。
  4. 【請求項4】 請求項2において、 上記特定の言語は日本語のかなであり、 上記単一ないし複数の言語の字母又はその組み合わせに
    置き換えられる音声入力は、上記日本語のかなをローマ
    字表記に置き換え、かつかかるローマ字のアルファベッ
    トの一部をギリシャ語のアルファベットに置き換えて発
    音してなることを特徴とする特徴とする音声認識方法。
  5. 【請求項5】 音声信号を取り込む音声入力部と、 上記入力された音声信号をデジタル化し、その特徴抽出
    を行ない、予め用意された音響モデルと照合して字母判
    別を行う音声信号処理部を備え、 上記音声入力部に入力される音声信号を日本語のかなを
    ローマ字表記に置き換え、且つかかるローマ字のアルフ
    ァベットの一部をギリシャ語のアルファベットに置き換
    え、上記音声信号処理部において日本語のかなを判別す
    るようにしたことを特徴とする電子装置。
JP2000256650A 2000-08-28 2000-08-28 音声認識方法と電子装置 Pending JP2002073082A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000256650A JP2002073082A (ja) 2000-08-28 2000-08-28 音声認識方法と電子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000256650A JP2002073082A (ja) 2000-08-28 2000-08-28 音声認識方法と電子装置

Publications (1)

Publication Number Publication Date
JP2002073082A true JP2002073082A (ja) 2002-03-12

Family

ID=18745229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000256650A Pending JP2002073082A (ja) 2000-08-28 2000-08-28 音声認識方法と電子装置

Country Status (1)

Country Link
JP (1) JP2002073082A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234154A (ja) * 2007-03-19 2008-10-02 Nec Corp 入力文字候補を音声により変換する機能を備える情報処理装置及びその文字入力プログラム
WO2012042578A1 (ja) * 2010-10-01 2012-04-05 三菱電機株式会社 音声認識装置
JP2013016196A (ja) * 2012-09-24 2013-01-24 Nec Corp 入力文字候補を音声により変換する機能を備える情報処理装置及びその文字入力プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234154A (ja) * 2007-03-19 2008-10-02 Nec Corp 入力文字候補を音声により変換する機能を備える情報処理装置及びその文字入力プログラム
WO2012042578A1 (ja) * 2010-10-01 2012-04-05 三菱電機株式会社 音声認識装置
US9239829B2 (en) 2010-10-01 2016-01-19 Mitsubishi Electric Corporation Speech recognition device
JP2013016196A (ja) * 2012-09-24 2013-01-24 Nec Corp 入力文字候補を音声により変換する機能を備える情報処理装置及びその文字入力プログラム

Similar Documents

Publication Publication Date Title
CN109447234B (zh) 一种模型训练方法、合成说话表情的方法和相关装置
US8244540B2 (en) System and method for providing a textual representation of an audio message to a mobile device
KR100769029B1 (ko) 다언어의 이름들의 음성 인식을 위한 방법 및 시스템
US8290775B2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
CN100521708C (zh) 移动信息终端的语音识别与语音标签记录和调用方法
JP2003015803A (ja) 小型キーパッド用日本語入力メカニズム
WO2004036939A1 (fr) Appareil de communication mobile numerique portable, procede de commande vocale et systeme
GB2423403A (en) Distributed language processing system and method of outputting an intermediary signal
JP2007272773A (ja) 対話型インターフェイス制御システム
KR20190029237A (ko) 통역장치 및 그 방법
JP2002116793A (ja) データ入力システム及びその方法
US20090055167A1 (en) Method for translation service using the cellular phone
JP2004015478A (ja) 音声通信端末装置
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
JP2002073082A (ja) 音声認識方法と電子装置
CN116110370A (zh) 基于人机语音交互的语音合成系统及相关设备
JP2004170466A (ja) 音声認識方法と電子装置
KR101233655B1 (ko) 음성인식 기반 국제회의 통역 장치 및 방법
Rabiner Toward vision 2001: Voice and audio processing considerations
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
JPH1097280A (ja) 音声画像認識翻訳装置
JP2002073081A (ja) 音声認識方法と電子装置
JPH10320397A (ja) 携帯型音声翻訳端末
JPH0863185A (ja) 音声認識装置
KR100777569B1 (ko) 멀티모달을 이용한 음성 인식 방법 및 그 장치

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061122