JP3834243B2 - 情報端末機器 - Google Patents
情報端末機器 Download PDFInfo
- Publication number
- JP3834243B2 JP3834243B2 JP2002031555A JP2002031555A JP3834243B2 JP 3834243 B2 JP3834243 B2 JP 3834243B2 JP 2002031555 A JP2002031555 A JP 2002031555A JP 2002031555 A JP2002031555 A JP 2002031555A JP 3834243 B2 JP3834243 B2 JP 3834243B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- information terminal
- dictionary
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Mobile Radio Communication Systems (AREA)
Description
【発明の属する技術分野】
本発明は、携帯電話などの無線を使用した情報端末機器や、Lモード、J−Webで代表されるような有線公衆回線を使用した情報端末機器、パソコン等を使用したインターネットの情報検索用情報端末などの情報端末機器に関するものである。
【0002】
【従来の技術】
本発明の従来例として、下記の2つの技術が知られている。
1)特開2000−215023号公報に示されるように、インターネットをブラウズする際の制御手段として音声認識を使うものがある。この方式は、Webのリンク先へ飛んでいくための情報をページ記述言語のリンク先文字情報や色、そして、CRT画面上の位置などを利用してそれらを音声認識の認識対象単語として変換して実行するというものである。また、それらの認識結果から総合的に判断して、マウス入力や、キーボード入力の代わりの入力デバイスとして使用してリンク先へと飛んでいく。
【0003】
2)特開2001−22374号公報に記載の技術は、テレビにおける電子番組ガイドを音声認識で操作する際に番組情報から音声認識用辞書を生成し、日々アップデートされる番組情報を音声認識で操作できるようにするものである。ここでは、番組情報の読みを生成する手段と、その読みから音声認識辞書を生成することが記述されている。
【0004】
【発明が解決しようとする課題】
前記1)においては、主にパーソナルコンピュータなどでインターネットをブラウズしようとするときに効果があるが、この技術によると、リンク先の情報、表示色、CRTの表示座標などを用いるため、全体のシステムが大きくなり、無線簡易情報端末や公衆回線を使用した情報端末などでは、コストや消費電力などの面で不向きである。
【0005】
また、前記2)における音声認識操作では、辞書の生成を読みだけで行っており、音声認識の性能という面では必ずしもよいとは言えない。例えば、その認識単語文字列がよく似た文字列の場合あるいは音声認識単語としてよく似た音韻列の場合に、誤認識が増えてしまい実用的に問題が発生する。
【0006】
近年、携帯電話や有線公衆回線を使用した情報検索端末が普及してきた。これらの端末は、いつでもどこでも、必要なときに必要な情報を取得できる便利なツールである。しかし、一方で、携帯端末の場合はその携帯性という利便性において利用者の欲しい情報を入力するための手段にキーボードやマウスを使用することができないため、電話用のテンキーや情報検索用の特殊スクロールキーを使っての文字入力や取得したい情報リンク先へ入力するものが一般的である。また、有線公衆回線を使用した端末においては、ショートカットキーを押下することでメニュー画面に切り替わり、あとはスクロールキーや矢印キーなどで情報を検索したり、電話テンキーを使用して文字入力するものが一般的である。
【0007】
ところが、これらの操作においては、特にお年寄りやハンディキャップのある人にとっては使い方がわからなかったり、操作が煩雑になったりして必ずしもよいユーザインタフェースではなかった。これらの問題を解決する手段として音声認識機能を使用するものも商品化されてきた。音声認識装置は、その操作性では優れたユーザインタフェースを提供できる。一発声で自分の行きたいリンク先や知りたい情報を取得することもできる。
【0008】
しかし、現状のサービスにおいて入力を音声に置き換えようとしたとき、いくつかの問題がある。一つは、漢字の問題である。音声認識は発声される母音子音の並びを特徴量に置き換えて認識するために漢字で読みがわからないものについては漢字仮名変換を行わなければならない。しかも漢字は複数の読み方があってその前後関係から読みを判断したり、あるいは地名のように所在地によって読みが変わったりするものもある。例として「行(い)った」「行(おこな)った」や「東京都港区三田(みた)」「兵庫県三田(さんだ)市」などの例がある。
【0009】
もう一つの問題は、音声認識させる単語が類似したときの問題である。例えば、検索エンジンを使用してある事柄について検索を行ったときに、同じようなリンク先が検索結果としてリストアップされることはよく経験することである。これらのリンク先を同じように音声認識させようとすると誤認識してしまうことがあり、必ずしも操作者の意図するリンク先へたどり着くとは限らない。
【0010】
本発明は、大きなシステム構成を構築することなく、インターネットなどの情報検索を音声で操作できる情報端末機器を提供することを目的とする。
【0011】
【課題を解決するための手段】
上記目的を達成するために、請求項1記載の発明は、情報端末記述言語から音声認識用の文字列を解析する言語解析手段と、その解析結果から音声認識単語を生成する認識文字列解析手段と、生成された認識単語を他の認識単語と比較して類似性を判定すると共に、その判定結果から類似性の高い単語に対しては、新たに情報端末記述言語から類似性の異なる音声認識単語を生成する類似性判定手段とを備え、さらに、音声入力手段と、入力音声から音声特徴量を生成する特徴抽出手段と、音声認識単語から作成した音声認識辞書と音声特徴量を照合する照合手段と、その照合結果から情報端末記述言語に記述されたリンク先への入力を指示する結果指示手段とを備えた情報端末機器を最も主要な特徴とする。
【0012】
請求項2記載の発明は、情報端末記述言語から音声認識用の文字列を解析する言語解析手段と、その解析結果から音声認識辞書を生成する認識辞書生成手段と、生成された認識辞書を保存する辞書保存手段と、生成された認識辞書を他の認識辞書と比較して類似性を判定する類似性判定手段とを備え、認識辞書生成手段は、その判定結果から類似性の高い辞書に対しては、新たに情報端末記述言語から類似性の異なる音声認識辞書を生成する機能を有し、さらに、音声入力手段と、入力音声から音声特徴量を生成する特徴抽出手段と、音声認識単語から作成した音声認識辞書と音声特徴量を照合する照合手段と、その照合結果から情報端末記述言語に記述されたリンク先への入力を指示する結果指示手段とを備えた情報端末機器を最も主要な特徴とする。
【0013】
【発明の実施の形態】
以下、本発明の実施の形態を図面に従って説明する。図1は本発明の第1の実施形態に係る音声認識機能付き情報端末のブロック構成図である。以下、その構成を機能と併せて説明する。
【0014】
インターネット網に接続されたインターネット接続装置1より必要となる情報が配信される。この情報は言語解析部2において解析を行い、文字情報や、画像情報の配置、形状、表示フォント、表示色、リンク先などに分けられる。その情報は、表示装置3等でユーザに対して表示し、ユーザが必要情報を取得することができる。また、通常の音声を使用しない環境においては入力装置4において、例えばキーボードやマウス等で入力を行い、さらに別の情報の検索を行うことができる。
【0015】
本実施形態においては、言語解析部2で音声認識に必要な認識文字列を解析し、この解析結果を認識文字列解析部5に渡す。認識文字列解析部5においては、例えば、現在表示している情報のさらに詳しい情報を得るためのリンク先を取得し、音声認識対象単語候補とする。このとき、漢字が含まれるリンク先の場合を考慮して、漢字仮名変換が行われることもある。この変換は、例えば、汎用の仮名漢字変換用のソフトウェアを使用してもよいし、リンク先が長い文字列であって漢字以外でも音声認識できる場合であれば、変換しないで仮名のみを候補単語としてもよい。
【0016】
そして、この対象単語候補を認識単語文字列保存部6に保存する。認識単語類似性判定部 (類似性判定部) 7においては、認識単語文字列保存部6に保存された候補単語のリストを順次比較参照しながら、認識対象単語に類似性がないか判定していく。例えば、1番目の候補単語が「天気」、2番目の候補単語が「元気のもと」のようによく似た単語だった場合に、類似性判定部7は、「t−e−n−k−i」と「g−e−n−k−i」が類似することを判断して、さらにそれぞれの候補単語を長い文字列に変換する。
【0017】
例えば、1番目の候補は「全国の天気」、2番目の候補は「元気のもと健康情報」となる。これらの文字列情報は、言語解析部2から認識文字列解析部5に渡された文字列情報より生成される。さらに、認識辞書生成部8においては、前記類似性判定された文字列を音声認識辞書に変換する。変換した結果は音声認識辞書保存部(辞書保存部) 9に保存される。
【0018】
一方、ユーザ(発声者)は音声入力部11から音声を入力する。この音声は、特徴抽出部12を経由して照合部10に入力される。照合部10においては、音声認識辞書保存部9の音声認識辞書と比較演算を行い、最も認識結果としてふさわしいものを出力する。この出力結果は結果指示部13に渡され、例えば、マウスでリンク先をクリックした時と同じ操作をインターネット接続装置1に与える。このようにすると発声者は、行きたい情報検索場所へ行くときには、そのリンク先を順番に読んで行くだけでリンク先にたどり着くことができる。
【0019】
図2は、本発明の第2の実施形態に係る音声認識機能付き情報端末のブロック構成図である。インターネット接続装置1、言語解析部2、表示装置3、入力装置4、認識文字列解析部5までの構成は、第1の実施形態と同じであるが、以下の手順が異なる。
【0020】
認識文字列解析部5から認識辞書生成部8へは文字列を渡し、認識辞書生成部8において生成した辞書を辞書保存部9に保存する。認識辞書類似性判定部7においては、生成された認識用辞書と辞書保存部9に保存されている辞書を参照比較し、各々の単語辞書に類似性がないかを判定する。判定した結果が前記のように類似性ありとなったときには、認識文字列解析部5に戻って新たに文字列を取得する。このときも第1の実施形態のように文字列を長くすると容易に弁別性能を上げることができる。
【0021】
ユーザが発声した音声は、音声入力部11を介して特徴抽出部12で特徴量に変換され、照合部10に渡される。辞書保存部9で保存された認識用辞書と特徴量とを比較し、最も認識結果としてふさわしいものを出力する。この出力結果は結果指示部13に渡され、例えば、マウスでリンク先をクリックした時と同じ操作をインターネット接続装置1に与える。
【0022】
このようにすると、発声者は、行きたい情報検索場所へ行くときには、そのリンク先を順番に読んで行くだけでリンク先にたどり着くことができる。第2の実施形態の場合は、辞書レベルで類似性を判定するため、精度のよい辞書類似性判定を行うことができる。
【0023】
【発明の効果】
以上説明したように、本発明によれば、音声認識のための大きなシステム構成を構築することなく、簡単な構成でインターネットなどの情報検索を音声で操作できるため、利便性の高い情報端末を提供することができる。また、類似語による誤認識を引き起こす文字列単語が情報の検索先になったとしても、それを補うように認識単語を適応させることができ、高性能な音声認識操作が可能である。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声認識機能付き情報端末のブロック構成図である。
【図2】本発明の第2の実施形態に係る音声認識機能付き情報端末のブロック構成図である。
【符号の説明】
2 言語解析部
5 認識文字列解析部
7 類似性判定部
10 照合部
11 音声入力部
12 特徴抽出部
13 結果指示部
Claims (2)
- 情報端末記述言語から音声認識用の文字列を解析する言語解析手段と、その解析結果から音声認識単語を生成する認識文字列解析手段と、生成された認識単語を他の認識単語と比較して類似性を判定すると共に、その判定結果から類似性の高い単語に対しては、新たに情報端末記述言語から類似性の異なる音声認識単語を生成する類似性判定手段とを備え、
さらに、音声入力手段と、入力音声から音声特徴量を生成する特徴抽出手段と、音声認識単語から作成した音声認識辞書と音声特徴量を照合する照合手段と、その照合結果から情報端末記述言語に記述されたリンク先への入力を指示する結果指示手段とを備えたことを特徴とする情報端末機器。 - 情報端末記述言語から音声認識用の文字列を解析する言語解析手段と、その解析結果から音声認識辞書を生成する認識辞書生成手段と、生成された認識辞書を保存する辞書保存手段と、生成された認識辞書を他の認識辞書と比較して類似性を判定する類似性判定手段とを備え、認識辞書生成手段は、その判定結果から類似性の高い辞書に対しては、新たに情報端末記述言語から類似性の異なる音声認識辞書を生成する機能を有し、
さらに、音声入力手段と、入力音声から音声特徴量を生成する特徴抽出手段と、音声認識単語から作成した音声認識辞書と音声特徴量を照合する照合手段と、その照合結果から情報端末記述言語に記述されたリンク先への入力を指示する結果指示手段とを備えたことを特徴とする情報端末機器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002031555A JP3834243B2 (ja) | 2002-02-07 | 2002-02-07 | 情報端末機器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002031555A JP3834243B2 (ja) | 2002-02-07 | 2002-02-07 | 情報端末機器 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003233390A JP2003233390A (ja) | 2003-08-22 |
JP3834243B2 true JP3834243B2 (ja) | 2006-10-18 |
Family
ID=27774926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002031555A Expired - Fee Related JP3834243B2 (ja) | 2002-02-07 | 2002-02-07 | 情報端末機器 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3834243B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100664105B1 (ko) * | 2003-12-04 | 2007-01-04 | 엘지전자 주식회사 | 휴대단말기의 음성 인식 방법 |
JP4910420B2 (ja) * | 2006-02-24 | 2012-04-04 | カシオ計算機株式会社 | 画像処理装置および画像処理のプログラム |
-
2002
- 2002-02-07 JP JP2002031555A patent/JP3834243B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003233390A (ja) | 2003-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100552085B1 (ko) | 감소된 키보드 명확화 시스템 | |
RU2377664C2 (ru) | Способ ввода текста | |
US6401065B1 (en) | Intelligent keyboard interface with use of human language processing | |
KR100912753B1 (ko) | 언어 입력 인식 방법, 기계 판독 가능 매체, 데이터 처리시스템, 사용자 언어 입력 처리 방법 및 언어 입력 예측방법 | |
JPWO2005101235A1 (ja) | 対話支援装置 | |
US20050268231A1 (en) | Method and device for inputting Chinese phrases | |
EP1617409A1 (en) | Multimodal method to provide input to a computing device | |
US20150228280A1 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
CN1742273A (zh) | 多模态语音-语音语言翻译和显示 | |
US20080158201A1 (en) | Character input device | |
US20070016420A1 (en) | Dictionary lookup for mobile devices using spelling recognition | |
US20030014449A1 (en) | Character input system and communication terminal | |
KR100654183B1 (ko) | 음성 인식을 이용한 문자 입력 시스템 및 그 방법 | |
JP3834243B2 (ja) | 情報端末機器 | |
KR20010015934A (ko) | 음성인식을 이용한 응용프로그램의 메뉴 실행방법 | |
JP4230142B2 (ja) | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 | |
JP2011186994A (ja) | 文字入力装置および文字入力方法 | |
JP2011210149A (ja) | 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム | |
JP5008248B2 (ja) | 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体 | |
JP4251000B2 (ja) | かな漢字変換装置及びかな漢字変換方法、並びにかな漢字変換プログラム | |
JP4622861B2 (ja) | 音声入力システム、音声入力方法、および、音声入力用プログラム | |
JP4004060B1 (ja) | 文字検索方法 | |
JP4675265B2 (ja) | 声調及び筆画によって入力文字を決定する携帯端末及びプログラム | |
JP2002014751A (ja) | オンラインヘルプシステム | |
JP2001109740A (ja) | 中国語文書作成装置及び中国語文書作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041208 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060718 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060721 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090728 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100728 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110728 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120728 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120728 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130728 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |