JP2000315097A - 電子機器、その制御方法、及び記録媒体 - Google Patents

電子機器、その制御方法、及び記録媒体

Info

Publication number
JP2000315097A
JP2000315097A JP11123796A JP12379699A JP2000315097A JP 2000315097 A JP2000315097 A JP 2000315097A JP 11123796 A JP11123796 A JP 11123796A JP 12379699 A JP12379699 A JP 12379699A JP 2000315097 A JP2000315097 A JP 2000315097A
Authority
JP
Japan
Prior art keywords
operation information
input
voice
pieces
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11123796A
Other languages
English (en)
Inventor
Nobuyuki Shigee
伸之 重枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP11123796A priority Critical patent/JP2000315097A/ja
Publication of JP2000315097A publication Critical patent/JP2000315097A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 簡単、安価な構成で音声認識技術を効果的に
利用し、電子機器の操作性を向上できるようにする。 【解決手段】 音声入力がなされたら(S202,20
3)、入力された音声の先頭の1音に該当する1文字を
認識する(S204)。認識した1文字を検索キーとし
て、記憶手段にそれぞれ文字列として登録された複数の
操作情報の内で登録した文字列の所定順位(例えば先
頭)の1文字が検索キーに合致する操作情報を検索する
(S206)。検索結果を表示し(S208)、検索さ
れた操作情報が1件だったら、その操作情報に応じた処
理を行なう(S209,210)。検索された操作情報
が複数件だったら、その複数件を新たに検索対象の母集
団に指定し(S211)、音声入力、先頭音声認識、検
索を繰り返す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、所定言語、例えば
日本語の音声認識機能を有した電子機器、その制御方
法、及びその制御プログラムを格納したコンピュータに
より読み取り可能な記録媒体に関するものである。
【0002】
【従来の技術】今日、各種の電子機器において、機能向
上に伴なって操作が複雑になってきている。例えば、デ
ジタル複写機並びにファクシミリ等の機能を有するデジ
タル複合機において、その機能向上に伴い、所定の動作
を行わせる場合、操作パネル上で複数のキー操作並びに
項目選択・入力などの複雑な手動操作が必要となってき
た。特に複雑なコピーモードを指定する場合やファクシ
ミリの送信・受信モードを指定する場合、更には所定の
キーに情報を登録したり、これを変更したりする場合に
は、操作パネル上で多数の操作を経て、ようやく実現す
る場合も少なくない。また、操作パネル上の表示部に表
示される設定項目の階層が深く、目的とする設定項目に
なかなか到達できないケースもある。
【0003】これは、機器の機能向上に伴い、幅広いユ
ーザーに対応するべく様々な設定ができるように、すな
わち様々な複雑な操作ができるように装置が設計されて
いるためであり、今後この傾向は益々増加すると考えら
れる。一方で、この様な傾向に起因する弊害として、操
作に不慣れな操作者に却って使いづらい製品を提供する
原因となることが懸念される。
【0004】ところで、上記のデジタル複合機等におけ
る登録情報の検索等のための操作は、現在発展途上にあ
る音声認識、音声合成技術を応用することで一部容易に
することができる。すなわち、音声によって目的とする
操作を指定することで、その操作に対応した処理を実行
させることが可能であるし、また所定の登録先へ通信す
る場合も、その登録先の名称の音声入力に応じて、予め
登録先と共に登録されている電話番号を検索し発呼する
事が可能である。更に、名称が登録されていない場合に
おいては、音声で直接に電話番号を指定すれば、これを
端末が認識し、指定の番号に発呼する事が可能である。
【0005】今日、さまざまな音声認識のアルゴリズム
改善により、音声認識・合成技術が種々の電子機器に応
用されるようになり、電子機器の操作性はより改善され
つつある。しかし、音声認識は、認識アルゴリズムが複
雑であると共に、認識用データベースとして大容量の音
声辞書を必要とする。これは音声入力時の周囲雑音と操
作者の音声を弁別し認識率を向上させると同時に、不特
定話者の音声認識を可能とするためである。このため、
機器制御用メモリ並びにデータベース用メモリにおいて
多大なメモリ容量が必要となる。単純に認識アルゴリズ
ムを簡素化し、音声辞書を削減しサイズを小さくするこ
とでメモリ容量を減らすことは可能であるが、この場
合、入力音声を誤認識する確率が増加してしまうなどの
欠点がある。機器が誤認識した場合、再度音声入力をし
なければならず、操作が却って煩雑になるおそれがあ
る。また、誤認識の率を下げるために大容量の音声辞書
用メモリを機器に搭載する必要があるが、その分のコス
トが上がるといった欠点もある。このため、実際には電
子機器が製品化に及んだ場合の現実的なコストの制約を
顧慮すると、今日、音声認識技術の各種電子機器への応
用は必ずしも十分その効果を発揮し得ていない。
【0006】
【発明が解決しようとする課題】上述のように、従来の
各種電子機器における音声認識技術を利用した音声入力
による機器操作並びに情報入力は、音声認識が失敗し再
度音声入力や操作パネルのキー操作によって内容の訂正
・再入力を行う場合、再び音声認識の誤認識が生じたり
キー操作の煩雑さによって却って情報入力のための時間
がかかってしまうという欠点があった。また、音声認識
の正解率を向上するために大容量の音声辞書用メモリを
有する場合は、機器のコストが上がってしまうという欠
点があった。
【0007】そこで本発明の課題は、音声認識機能を有
する電子機器、その制御方法、及びその制御プログラム
を格納したコンピュータにより読み取り可能な記録媒体
において、上記のような欠点を解消し、簡単、安価な構
成で音声認識技術を効果的に利用し、電子機器の操作性
を向上できるようにすることにある。
【0008】
【課題を解決するための手段】上記の課題を解決するた
め、本発明によれば、所定言語の音声認識機能を有した
電子機器、その制御方法、及びその制御プログラムを格
納したコンピュータにより読み取り可能な記録媒体にお
いて、該電子機器を操作するための複数の操作情報をそ
れぞれ前記所定言語の文字列として登録した記憶手段を
用い、操作者の音声を入力し、入力された音声の先頭の
1音に該当する前記所定言語の1文字を認識し、認識さ
れた1文字を検索キーとして、前記記憶手段に登録され
た複数の操作情報の内で登録した文字列の所定順位の1
文字が前記検索キーに合致する操作情報を検索し、検索
された操作情報を表示するようにした。
【0009】さらに、検索された操作情報が1件のみの
場合、該操作情報に応じた処理を行ない、一方、検索さ
れた操作情報が複数件あった場合、前記音声入力、及び
認識を再度行ない、さらに、前記検索された複数件の操
作情報を新たに検索対象の母集団として、前記検索を再
度行なうようにした。
【0010】あるいは、検索された操作情報が複数件あ
り、該複数件の操作情報が表示された場合、操作者が手
動操作で入力を行なう入力手段により前記複数件の操作
情報の内の所望の1件の操作情報を指定する入力を行な
うのを受け付け、その入力により前記所望の1件の操作
情報が指定された場合、該操作情報に応じた処理を行な
うようにした。
【0011】また、操作者が手動操作で入力を行なう入
力手段からの所定の入力に応じて前記認識を開始するよ
うにした。
【0012】
【発明の実施の形態】以下、図を参照して本発明の実施
の形態を説明する。ここでは、ファクシミリ機能と共に
デジタル複写機の機能を有し、さらに日本語の音声認識
機能を有するデジタル複合機の実施形態を示す。
【0013】図1は本発明の実施形態のデジタル複合機
(以下、本機という)の構成を説明するブロック図であ
る。図1において、101はCPUであり、ファームウ
ェアとしてROM115に格納された制御プログラムに
従って本機の動作並びにデータ処理を集中的に制御す
る。ROM115は、本発明に係る電子機器の制御プロ
グラムを格納したコンピュータにより読み取り可能な記
録媒体の実施形態に相当する。また、CPU101は、
各種処理データの一時的な格納などのためにRAM11
6を使用する。さらに、CPU101には、アドレス、
データ及びコントロール信号のバス114を介して、R
OM115,RAM116と共に以下の構成が接続され
ている。
【0014】102はMODEMであり、ファクシミリ
通信の際に画像データ等の信号の変復調を行なう。
【0015】103はスキャナであり、原稿の画像を読
み取り電子的な画像データに変換する機構を含んでい
る。例えば、不図示のCCDを用いた縮小光学系ユニッ
ト及び画像データ補正用の手段から構成されており、読
み取った画像データに対しシェーディング補正を行なう
手段や自動背景濃度補正を行なう手段が含まれている。
【0016】104はプリンタであり、スキャナ103
で読み取った画像データを補正処理を経て直接プリント
出力することが可能である。また、ファクシミリ画像の
受信の際は、ファクシミリ受信画像に対し所定の解像度
変換を施してプリント出力する事も可能である。本機は
デジタル複写機の機能も有し、その場合、スキャナ10
3で原稿の多値画像データを読み取り、不図示の二値化
手段で画像データを二値化し、プリンタ104で画像を
プリント出力する。
【0017】106は手動で各種のデータを入力するた
めのキー入力手段である。107は入力されたデータや
情報、及び後述の音声認識の検索結果等を表示するため
のデータ表示手段である。キー入力手段106及びデー
タ表示手段107は、操作パネル105として、本機の
前面若しくは上面に配置される。また、図1では、キー
入力手段106はデータ表示手段107と別に独立して
記載してあるが、例えば透明なタッチパネル等として、
データ表示手段107と一体に構成してもよい。その場
合は操作パネル105からメカニカル・キーが不要とな
り、機器操作性の向上が期待できるほか優れたデザイン
性を得ることが可能である。
【0018】108は本実施形態に特徴的な音声入力・
認識機能を提供する音声入力・認識部であり、音声入力
・分析手段109、音声認識手段110及び音声認識用
データベース111によって構成されている。
【0019】音声入力・分析手段109は、図示してい
ないが、音声入力部と音分析部に別れる。音声入力部
は、具体的にはマイクロホンであり、入力される音声波
形中の雑音成分を抑圧し音声成分を強調することで音声
認識機能を高めるために、例えば指向性マイクやマイク
ロホン・アレイ等で構成される。一方、音分析部は入力
した音声信号を所定の微小フレームに分割し、当該フレ
ームに含まれる雑音パターンを除去する為の種々の機構
が含まれる。雑音はオフィスの空調音や走行中の車内の
ように定常的に付加される音などが該当する。本実施形
態では、この種の雑音を除去するために、音声入力前の
音スペクトルパターンを定期的に雑音スペクトルとして
サンプリングしておき、音声入力があった時に雑音下の
入力音声スペクトルパターンから当該雑音スペクトルを
減算する手法を用いている。尚、各フレームにおけるス
ペクトル分析には高速フーリエ変換(FFT)を用いて
おり、具体的にはソフト的な信号処理手段以外に、DS
P(デジタル信号処理)コアを使用したAS(特定用途
向け)ICでこれを実現することが可能である。また、
雑音成分の除去を目的として所定のフィルタリング手段
も併せて用いる。これは、人間の発音する周波数帯域を
外れた周波数成分を除去する目的の手段であり、具体的
にはハイパスフィルタ、バンドパスフィルタ等を用い
る。
【0020】音声入力・分析手段109を経て、微小フ
レームに分割され雑音成分を除去された音データは、次
に音声認識手段110に入力される。音声認識手段11
0は、DSPコアを使用したASIC等で構成され、図
示していないが、機能的には音素認識部と単語認識部に
分けられる。
【0021】音素認識部では、入力された音データに関
し、予め用意されている音素モデルを基準に、各微小フ
レームの周波数スペクトルの時間変化を加味して比較・
照合し、音素、すなわち母音、子音の特定を行う。通
常、音声波の周波数スペクトルには複数のピークが存在
し、このピークの周波数並びにピークの時系列変化が音
声波の母音・子音の認識に重要であることが一般的に知
られている。本実施形態では、微小フレームにおける周
波数スペクトルの特徴、並びに時間変化を基に、母音・
子音すなわち音素の区別を行う。
【0022】尚、音声のアクセントやイントネーション
の識別は、音声認識の重要な要素であるが、本実施形態
では単語ではなく、入力された音声の先頭の1音に該当
する1文字の音声認識を行うにとどまるため、アクセン
トやイントネーションの識別は行わない。これによっ
て、従来の音声認識手段に比べ処理速度の向上並びに音
声認識用データベースとして必要なメモリ領域の大幅な
削減が可能である。
【0023】音声認識手段110中の単語認識部では、
上記の音素認識部により特定された音素モデルと、予め
登録されている単語モデルを比較・照合する事で、両者
の一致頻度を計算し、単語の特定を行う。単語モデルと
しては、単語中の母音の無声化・長音化・鼻音化、子音
の口蓋化など音素の変形を考慮したモデルが用意される
が、本実施形態では日本語の文字の基本要素である仮名
の51音(「あ」〜「ん」)のみを認識するに十分なだ
けの単語モデルを用意するにとどまる。
【0024】一般的には、意味を持つ文字列としての単
語を認識させるために、それだけ多くの単語モデルを予
め用意しておく必要があり、その分大量のメモリ領域を
確保する必要があった。これに対し本実施形態では、意
味を持つ文字列としての単語を認識せずに、操作者が発
音した音声の先頭の1音に該当する1文字のみを認識
し、後述の登録データ検索に供する。そのため、単語モ
デル(実際には上記仮名の51音の文字のそれぞれのモ
デル)用のメモリ領域も従来に比べ非常に少なくて済
み、処理速度並びにコストにおいて大きなメリットを有
することとなった。
【0025】尚、先に説明した音素モデル並びに単語モ
デルの各データは、図1中の音声認識用データベース1
11が合わせて保持するが、各モデルのデータ量が少な
いため、音声入力・分析手段109及び音声認識手段1
10の各パートが各々別々に保持していても良い。音声
認識用データベース111は、具体的にはROM、RA
M、或いはハードディスク等の種々のデータ記憶手段で
構成することが可能である。
【0026】音声入力・認識部108を経て音声認識さ
れた先頭音の1文字は一時的にRAM116に記憶さ
れ、操作情報検索手段112に供される。
【0027】ここで操作情報とは、本機を操作するため
の各種情報であって、例えば、本機における複写機モー
ドで原稿のコピーを実行する際に指定する記録紙サイ
ズ、紙種、給紙口、並びに濃度等の各種設定情報であ
る。また、ファクシミリ通信の各種モードや送信時に指
定する送信先の会社名や個人名、あるいは本機がインタ
ーネットに接続した際のインターネットを介した通信相
手の会社名や個人名等の情報である。
【0028】操作情報検索手段112は、CPU101
が制御プログラムに含まれる検索プログラムを実行する
ことにより実現され、予定されている各種操作の中から
操作者が望む操作を検索する機能を提供する。具体的に
は、上記の各種の操作情報がそれぞれ日本語の仮名の文
字列として操作情報登録手段113に登録されており、
検索手段112は上記先頭音の1文字を検索キーとし
て、登録手段113に登録された複数の操作情報の内で
後述する検索条件に該当する操作情報を検索する。
【0029】登録手段113はRAMやハードディスク
等で構成され、上記の各種の操作情報がそれぞれ日本語
の仮名の文字列として、所定の順番、例えば、その文字
列の先頭の文字に関して「あ」〜「ん」の51音の昇順
または降順にソートされて登録される。なお、ファクシ
ミリ送信先ないしはインターネットを介した通信相手の
会社名、個人名は、それぞれの電話番号ないしはインタ
ーネットアドレスやメードアドレスのデータとともに登
録される。
【0030】尚、本実施形態では図1に示すように音声
認識用データベース111と操作情報登録手段113を
別々に分離した形態として記載したが、これらは論理的
に独立した機能として分離してあれば良く、ハードウエ
アとしては一体の記憶手段で構成されていてもよい。
【0031】次に、上記の図1の構成からなる本機の本
発明に係る特徴的な動作について図2により説明する。
図2は本機における音声入力に応じた操作情報検索処理
のフローチャートである。この制御動作は、CPU10
1が実行するROM115に格納された制御プログラム
に従って行なわれる。なお、図2及び以下の説明中で
「ステップ」を「S」と略記してある。また、図2中で
丸を付した符号Aの部分どうしの間、及び符号Bの部分
どうしの間でフローが連続しているものとする。
【0032】従来の装置では、操作者はファクシミリ送
信や電話のために発呼する際、先ず相手先電話番号をテ
ンキーで入力するか、若しくは予め相手先電話番号が登
録されているワンタッチキーを押下し、その後に開始キ
ーを押下する。
【0033】これに対して、本実施形態では、まず最初
に操作者が図2のS201で操作パネル105のキー入
力手段106に配置された開始キーの押下を実行する。
これは、音声認識を開始するタイミングを開始キーの入
力により本機に与えるためである。既に述べたように、
音声入力・分析手段109は音声信号から雑音を除去す
るために、音声入力前の音スペクトルパターンを定期的
に雑音スペクトルとしてサンプリングしておき、音声入
力があった時に雑音下の入力音声スペクトルパターンか
ら当該雑音スペクトルを減算する。そのため、音声入力
前の雑音データ入力と、本来認識すべき音声入力とを区
別しなければならない。また、本実施形態では、音声認
識機能を応用して、例えば予め電話番号とともに登録し
てある会社名や個人名の発呼先に発呼することができ、
従って電話番号あるいは登録キーを手動で押下する工程
がない。そこで、開始ボタンを押下するS201を先ず
行い、これを開始タイミングとして音声認識が実行され
る。
【0034】開始ボタンの押下により、S202に遷移
し、音声入力・分析手段109は操作者からの音声入力
待ちの状態になる。ここでは、音声入力を検出するソフ
ト的なタスクが起動しており、S203として示すよう
に、音声入力があったか否かを他の制御タスクとは独立
して検知する。音声入力が無い場合はS202に遷移
し、再び音声入力を待つ。ここで、操作者からの音声入
力があると、S204の先頭音声認識工程へ遷移する。
【0035】S204の先頭音声認識工程では、音声入
力・認識部108の音声認識手段110において先に述
べたとおり、所定のプロセスを経て、操作者の発音した
音声(入力された音声)の先頭の1音に該当する日本語
の仮名の1文字を認識する。すなわち、操作者の発音し
た音声を単語ないし語句という意味を持つ文字列として
は認識せずに、発音した音声の先頭音の1文字のみを認
識する。これによって、S204の先頭音声認識工程で
要する処理時間は、通常の単語認識処理に比べ短時間で
済む。
【0036】ところで、今日の音声認識技術は今だ開発
途上の技術であると同時に、オフィス環境によっては雑
音が極度にひどいケースもあり、すべての音声入力に対
し必ず認識できるとは限らない。ある確率で誤認識ある
いは認識不能となる場合がある。通常、この様な状況で
は音声入力のやり直しを求め、再度操作者からの音声入
力を待ち音声認識を再実行する。このため、本実施形態
においても、S204の後に、S205で先頭音声認識
の成功・失敗を判定し、失敗だったら操作者からの音声
入力のやり直しを求める。すなわち、S204におい
て、入力された音声データと所定の音素モデル若しくは
単語モデルとの比較・照合に失敗した場合は、先頭音声
の1文字の特定ができないと判断し、再び音声入力待ち
のS202へ遷移する。この時、併せてデータ表示手段
107に操作者からの音声入力を再度求めるメッセージ
を表示する。
【0037】一方、S204で先頭音声認識が成功した
場合はS205からS206へ遷移し、当該認識した先
頭音声の文字をもとに、CPU101が先に説明した操
作情報検索手段112として操作情報登録手段113か
ら登録された操作情報を検索する。
【0038】操作情報登録手段113に登録・蓄積され
た操作情報群は、前述のように、予め登録する際に、例
えば登録した文字列の先頭文字の51音順で昇順あるい
は降順にソートされている。従って、S206の工程で
検索を行う場合は、音声入力・認識部108によるS2
04の先頭音声認識の結果得られた先頭音声の1文字を
検索キーとして、当該登録された操作情報群の中からそ
の登録文字列の先頭文字が検索キーの文字に合致する情
報を全て選択し出力する。
【0039】S206での検索が終了したら、S207
に遷移し、検索の結果、検索された登録情報、すなわち
上記検索条件に該当する登録情報が有ったか否か判別す
る。そして、該当する登録情報がなかったらS212に
ジャンプし、この音声認識による操作情報検索処理のル
ーチンを終了する。また、該当する登録情報が有った場
合はS208へ遷移する。
【0040】S208では、S206での検索結果の該
当する登録情報のデータを操作パネル105のデータ表
示手段107に表示する。該当する登録情報が複数件あ
る場合は、これら全てを表示する。また、該当する登録
情報の件数が多くて一度に表示できない場合は、該当デ
ータが他にある事を知らせる為の表示も行ない、表示の
スクロールや切り換え等により操作者が該当する登録情
報の全件数を見れるようにする。
【0041】次に、S209で検索結果の該当する登録
情報が1件か複数件か判別し、1件のみの場合はS21
0へ遷移し、その該当する登録操作情報の内容に応じた
処理を起動する。例えば該当する登録操作情報の内容が
紙サイズの指定であった場合は、記録紙設定ルーチンに
移行し、直ちに指定紙サイズを設定する。また、給紙口
の指定であった場合は、記録紙設定ルーチンに移行し、
同ルーチンにおいて指定給紙口の設定を行う。また、フ
ァクシミリ通信やプリンタ機能の場合も同様に、各種モ
ードの設定等を行う。その後、S212に移行し、この
音声認識による操作情報検索処理のルーチンを終了す
る。
【0042】一方、S209の判定で、S206で検索
された登録情報が複数件だった場合には、S211に移
行し、その複数件の登録情報を新たに検索対象の母集団
として登録し、その後、S202に戻り、上述したS2
02以下の処理を繰り返す。すなわちS202,S20
3での音声入力、S204での先頭音声認識を再度行な
い、S205で先頭音声認識の成功が判別されたら、S
206において、S204で認識された1文字(入力音
声の先頭の1音に該当する1文字)を検索キーとして、
上記の新たに検索対象の母集団として登録された複数件
の登録操作情報の内から検索条件に該当する登録情報を
検索する。ただし、ここでは検索条件を前回の条件と異
なるものに変更し、検索対象の操作情報群の中からその
登録文字列の先頭から2番目の文字が検索キーの文字に
合致する情報を検索する。これは、検索条件を変更しな
いと検索目的の1件の登録情報まで絞り込めないからで
ある。なお、この前提として、操作者は2回目の音声入
力で、指定したい目的の登録操作情報の登録文字列の先
頭から2番目の文字の音を先頭音として発音するものと
する。
【0043】このように、検索結果の登録情報が1件に
なるまでS202〜S209の処理を繰り返す。ここで
3回目の検索では検索対象の操作情報群の中からその登
録文字列の先頭から3番目の文字が検索キーの文字に合
致する情報を検索するというように、繰り返しの毎に検
索条件を変更する。すなわち、検索キーの文字と合致す
るか否かを判断する登録文字列中の文字の順位を1回の
検索の繰り返しごとに1つづつずらしていく。
【0044】このようにして、1回目の検索で検索され
た登録情報が複数件であっても、検索された複数件の登
録情報を新たに検索対象の母集団として、音声入力、先
頭音声認識、検索を繰り返すことにより、操作者が指定
したい目的の1件の登録情報まで絞り込むことができ
る。そして1件に絞り込めたら、S209からS210
に移行し、その1件の登録操作情報の内容に応じた処理
を行ない、その後、S212に移行して、この音声認識
による操作情報検索処理のルーチンを終了する。
【0045】なお、操作情報登録手段113において、
操作情報が階層構造で登録されている場合、例えば、
「のうど」の操作情報の下の階層に「こい」、「ふつ
う」、「うすい」という3つの情報が登録されている場
合で、1回目の音声入力に応じた検索で「のうど」のみ
が検索条件に該当すると、「こい」、「ふつう」、「う
すい」が検索されることになる。この場合、3つの内の
1つに絞り込むための2回目の検索では、上記のように
検索条件を変更する必要はない。すなわち、検索対象を
絞り込むための検索の繰り返しで検索条件を変更するか
否かは、登録手段113における操作情報群の登録の階
層構造の有無など登録の形態やその他の事情による。
【0046】ところで、S209の判定で、S206の
検索結果の該当する登録情報が複数件であった場合に、
その複数件から1件への絞り込みを操作者がキー入力手
段106のカーソルキーなどの手動操作による入力で指
定することによっても行えるようにすることもできる。
【0047】この場合、S209の判定で、S206の
検索結果の該当する登録情報が複数件だったら、操作者
がカーソルキー等の手動操作により、この時点で既に表
示手段107に表示されているS206での検索結果の
該当する複数件の登録情報の内で所望の1件の情報を指
定する入力を行なうのを受け付けるタスクを起動する。
このタスクは、S209の後のS202〜S209の繰
り返しによる音声入力での検索処理のタスクと独立して
行ない、任意のタイミングで上記指定の入力を受け付け
る。
【0048】そして、操作者がデータ表示手段107に
表示された複数件の登録情報の中に目的の情報を見つけ
て、その指定のための入力がなされたら、S210に移
行し、指定された登録情報の内容に応じた処理を行な
う。
【0049】この様にすることで、操作者は音声入力に
よって多数の登録操作情報群から所望の情報を少数に絞
り込み、この過程で目的とする操作情報が見つかった場
合は、手動操作のキー入力でそれを指定できる。従っ
て、操作者は、所望の操作情報が最後に一つ現れるまで
音声による検索を続けなくとも良く、より高速な情報選
択が可能となる。また、音声の誤認識によって情報検索
にかえって時間がかかるといった不具合もより少なくて
済み、より操作性の向上が望める。
【0050】以上のような本実施形態によれば、音声認
識により操作情報の検索を行なうが、その音声認識は、
入力された音声の先頭の1音に該当する1文字を認識す
る先頭音声認識なので、従来の単語の音声認識や連続的
な音声の認識に比べ、認識アルゴリズムが簡単であり、
誤認識が少ない。また、認識アルゴリズムが簡単である
ことと、認識のための単語モデルなどのデータが従来に
比べて非常に少なくて済むことから音声認識のために必
要な音声認識手段110と音声認識用データベース11
1のメモリの容量も従来に比べて非常に少なくて済み、
コストダウンが図れる。また、認識の処理速度も速くな
る。
【0051】また、音声入力により操作情報を検索して
操作を行なえるので、複雑なキー操作が不要になり、操
作が簡単、容易で迅速に行なえるようになり、操作者に
負担を強いることなく、操作性を向上することができ
る。また、キー入力手段106において複雑なキー操作
を行なうための多種類の入力キーが不要になり、キー入
力手段106の構成を簡単なものとしてコストダウンが
図れる。
【0052】なお、以上説明した本発明に係る技術は、
デジタル複合機以外の各種電子機器に広く適用できるこ
とは勿論である。
【0053】
【発明の効果】以上の説明から明らかなように、本発明
によれば、音声認識機能を有した電子機器において、入
力された音声の先頭の1音に該当する1文字を認識し、
これを検索キーとして予め登録された複数の操作情報の
内で検索条件に該当する操作情報を検索し、その操作情
報に応じた処理を行なえるようにしたので、操作が簡
単、容易で迅速に行なえるようになり、操作者に負担を
強いることなく、操作性を向上することができる。しか
も、音声認識は、先頭の1音のみの認識であるので、そ
の認識のための構成は簡単で、誤認識も少なく、認識の
処理速度も速い。さらに、電子機器のキー入力手段など
の手動操作の入力手段の構成と音声認識のための構成を
簡単なものとして機器のコストダウンが図れるという優
れた効果が得られる。
【図面の簡単な説明】
【図1】本発明の実施形態におけるデジタル複合機の構
成を示すブロック図である。
【図2】同機における音声入力に応じた操作情報検索処
理の制御手順を示すフローチャート図である。
【符号の説明】
101 CPU 102 MODEM 103 スキャナ 104 プリンタ 105 操作パネル 106 キー入力手段 107 データ表示手段 108 音声入力・認識部 109 音声入力・分析手段 110 音声認識手段 111 音声認識用データベース 112 操作情報検索手段 113 操作情報登録手段 114 バス 115 ROM 116 RAM

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 所定言語の音声認識機能を有した電子機
    器において、 該電子機器を操作するための複数の操作情報をそれぞれ
    前記所定言語の文字列として登録した記憶手段と、 操作者の音声を入力する音声入力手段と、 該音声入力手段により入力された音声の先頭の1音に該
    当する前記所定言語の1文字を認識する先頭音声認識手
    段と、 該先頭音声認識手段により認識された1文字を検索キー
    として、前記記憶手段に登録された複数の操作情報の内
    で登録した文字列の所定順位の1文字が前記検索キーに
    合致する操作情報を検索する検索手段と、 該検索手段により検索された操作情報を表示する表示手
    段とを有することを特徴とする電子機器。
  2. 【請求項2】 前記検索手段により検索された操作情報
    が1件のみの場合、該操作情報に応じた処理を行なうよ
    うに制御し、一方、前記検索手段により検索された操作
    情報が複数件あった場合、前記音声入力手段による音声
    入力、及び前記先頭音声認識手段による前記1文字の認
    識を再度行ない、さらに、前記検索された複数件の操作
    情報を新たに検索対象の母集団として、前記検索手段に
    よる検索を再度行なうように制御する制御手段を有する
    ことを特徴とする請求項1に記載の電子機器。
  3. 【請求項3】 前記検索手段により検索された操作情報
    が複数件あり、該複数件の操作情報が前記表示手段に表
    示された場合に、操作者が前記複数件の操作情報の内の
    所望の1件の操作情報を指定する入力を手動操作で行な
    うための入力手段と、 該入力手段による入力により前記所望の1件の操作情報
    が指定された場合、該操作情報に応じた処理を行なうよ
    うに制御する制御手段を有することを特徴とする請求項
    1または2に記載の電子機器。
  4. 【請求項4】 操作者が手動操作で入力を行なうための
    入力手段を有し、 前記先頭音声認識手段は、該入力手段からの所定の入力
    に応じて前記認識を開始することを特徴とする請求項1
    に記載の電子機器。
  5. 【請求項5】 所定言語の音声認識機能を有した電子機
    器であって、該電子機器を操作するための複数の操作情
    報をそれぞれ前記所定言語の文字列として登録した記憶
    手段を有した電子機器の制御方法において、 操作者の音声を入力する音声入力工程と、 該音声入力工程により入力された音声の先頭の1音に該
    当する前記所定言語の1文字を認識する先頭音声認識工
    程と、 該先頭音声認識工程により認識された1文字を検索キー
    として、前記記憶手段に登録された複数の操作情報の内
    で登録した文字列の所定順位の1文字が前記検索キーに
    合致する操作情報を検索する検索工程と、 該検索工程により検索された操作情報を表示する表示工
    程とを有することを特徴とする電子機器の制御方法。
  6. 【請求項6】 前記検索工程により検索された操作情報
    が1件のみの場合、該操作情報に応じた処理を行なうよ
    うに制御し、一方、前記検索工程により検索された操作
    情報が複数件あった場合、前記音声入力工程、及び前記
    先頭音声認識工程を再度行ない、さらに、前記検索され
    た複数件の操作情報を新たに検索対象の母集団として、
    前記検索工程を再度行なうように制御することを特徴と
    する請求項5に記載の電子機器の制御方法。
  7. 【請求項7】 前記検索工程により検索された操作情報
    が複数件あり、前記表示工程で前記複数件の操作情報が
    表示された場合、操作者が手動操作で入力を行なう入力
    手段により前記複数件の操作情報の内の所望の1件の操
    作情報を指定する入力を行なうのを受け付ける指定入力
    受け付け工程を有し、 該指定入力受け付け工程で前記入力により前記所望の1
    件の操作情報が指定された場合、該操作情報に応じた処
    理を行なうように制御することを特徴とする請求項5ま
    たは6に記載の電子機器の制御方法。
  8. 【請求項8】 操作者が手動操作で入力を行なう入力手
    段からの所定の入力に応じて前記先頭音声認識工程を開
    始することを特徴とする請求項5に記載の電子機器の制
    御方法。
  9. 【請求項9】 所定言語の音声認識機能を有した電子機
    器であって、該電子機器を操作するための複数の操作情
    報をそれぞれ前記所定言語の文字列として登録した記憶
    手段を有した電子機器の制御プログラムを格納したコン
    ピュータにより読み取り可能な記録媒体において、 操作者の音声を入力する音声入力工程と、 該音声入力工程により入力された音声の先頭の1音に該
    当する前記所定言語の1文字を認識する先頭音声認識工
    程と、 該先頭音声認識工程により認識された1文字を検索キー
    として、前記記憶手段に登録された複数の操作情報の内
    で登録した文字列の所定順位の1文字が前記検索キーに
    合致する操作情報を検索する検索工程と、 該検索工程により検索された操作情報を表示する表示工
    程とを行なうための制御プログラムを格納したことを特
    徴とする記録媒体。
  10. 【請求項10】 前記検索工程により検索された操作情
    報が1件のみの場合、該操作情報に応じた処理を行なう
    ように制御し、一方、前記検索工程により検索された操
    作情報が複数件あった場合、前記音声入力工程、及び前
    記先頭音声認識工程を再度行ない、さらに、前記検索さ
    れた複数件の操作情報を新たに検索対象の母集団とし
    て、前記検索工程を再度行なうように制御するための制
    御プログラムを格納したことを特徴とする請求項9に記
    載の記録媒体。
  11. 【請求項11】 前記検索工程により検索された操作情
    報が複数件あり、前記表示工程で前記複数件の操作情報
    が表示された場合、操作者が手動操作で入力を行なう入
    力手段により前記複数件の操作情報の内の所望の1件の
    操作情報を指定する入力を行なうのを受け付ける指定入
    力受け付け工程を行ない、 該指定入力受け付け工程で前記入力により前記所望の1
    件の操作情報が指定された場合、該操作情報に応じた処
    理を行なうように制御するための制御プログラムを格納
    したことを特徴とする請求項9または10に記載の記録
    媒体。
  12. 【請求項12】 操作者が手動操作で入力を行なう入力
    手段からの所定の入力に応じて前記先頭音声認識工程を
    開始するように制御するための制御プログラムを格納し
    たことを特徴とする請求項9に記載の記録媒体。
JP11123796A 1999-04-30 1999-04-30 電子機器、その制御方法、及び記録媒体 Pending JP2000315097A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11123796A JP2000315097A (ja) 1999-04-30 1999-04-30 電子機器、その制御方法、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11123796A JP2000315097A (ja) 1999-04-30 1999-04-30 電子機器、その制御方法、及び記録媒体

Publications (1)

Publication Number Publication Date
JP2000315097A true JP2000315097A (ja) 2000-11-14

Family

ID=14869533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11123796A Pending JP2000315097A (ja) 1999-04-30 1999-04-30 電子機器、その制御方法、及び記録媒体

Country Status (1)

Country Link
JP (1) JP2000315097A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011015422A (ja) * 1999-01-25 2011-01-20 Canal Plus ディジタル伝送システムにおけるアドレス割り当て
JP2015501106A (ja) * 2011-12-07 2015-01-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated デジタル化された音声ストリームを分析するための低電力集積回路
JP2018060207A (ja) * 2017-11-08 2018-04-12 クゥアルコム・インコーポレイテッドQualcomm Incorporated デジタル化された音声ストリームを分析するための低電力集積回路
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
JP2020098342A (ja) * 2020-01-17 2020-06-25 クゥアルコム・インコーポレイテッドQualcomm Incorporated デジタル化された音声ストリームを分析するための低電力集積回路

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011015422A (ja) * 1999-01-25 2011-01-20 Canal Plus ディジタル伝送システムにおけるアドレス割り当て
US9992745B2 (en) 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
JP2015501106A (ja) * 2011-12-07 2015-01-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated デジタル化された音声ストリームを分析するための低電力集積回路
US10381007B2 (en) 2011-12-07 2019-08-13 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
US11069360B2 (en) 2011-12-07 2021-07-20 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
US11810569B2 (en) 2011-12-07 2023-11-07 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
JP2018060207A (ja) * 2017-11-08 2018-04-12 クゥアルコム・インコーポレイテッドQualcomm Incorporated デジタル化された音声ストリームを分析するための低電力集積回路
JP2020098342A (ja) * 2020-01-17 2020-06-25 クゥアルコム・インコーポレイテッドQualcomm Incorporated デジタル化された音声ストリームを分析するための低電力集積回路

Similar Documents

Publication Publication Date Title
JP2836159B2 (ja) 同時通訳向き音声認識システムおよびその音声認識方法
EP2122539B1 (en) Translation and display of text in picture
CN110880316A (zh) 一种音频的输出方法和系统
JP5343652B2 (ja) 操作画面制御装置、画像形成装置、およびコンピュータプログラム
JP3795692B2 (ja) 文字処理装置および方法
JP2010147624A (ja) 通信装置、検索処理方法および検索処理プログラム
JP2000315097A (ja) 電子機器、その制御方法、及び記録媒体
JP2000099546A (ja) 音声によるデータ検索装置、データ検索方法、及び記憶媒体
JP6365520B2 (ja) 音声出力装置、音声出力方法、およびプログラム
JPH07219957A (ja) 情報分類装置、情報検索装置及び情報収集装置
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
US20220201136A1 (en) Information processing system that executes command corresponding to utterance, image processing apparatus, control method for information processing system, and storage medium storing control program for information processing system
JP2003330925A (ja) 自動通訳装置及び自動通訳用プログラム
CN106168945B (zh) 声音输出装置以及声音输出方法
JP3895797B2 (ja) 変換候補生成方法
JP3515143B2 (ja) パターン追加登録装置
JPH05210635A (ja) 入力装置
JP2003302994A (ja) 音声認識機能付き電子機器及びその制御方法
KR960024884A (ko) 정보통신 서비스 메뉴를 음성 제어하는 방법
JP3305343B2 (ja) 辞書編集装置
JPS63189967A (ja) 伝票の摘要入力方法、及びその装置
JPH04208758A (ja) 画像ファイリング装置
JPS62229300A (ja) 音声認識装置
JP2007305046A (ja) 漢字の読みを生成する情報処理装置、情報処理方法、これらの情報処理を実現するプログラム、およびそのプログラムを記録した記録媒体
JP2000105659A (ja) 文書作成読み上げ装置