JP2004072274A - 音声処理システム及びその制御方法 - Google Patents

音声処理システム及びその制御方法 Download PDF

Info

Publication number
JP2004072274A
JP2004072274A JP2002226585A JP2002226585A JP2004072274A JP 2004072274 A JP2004072274 A JP 2004072274A JP 2002226585 A JP2002226585 A JP 2002226585A JP 2002226585 A JP2002226585 A JP 2002226585A JP 2004072274 A JP2004072274 A JP 2004072274A
Authority
JP
Japan
Prior art keywords
voice
reading
dictionary
command
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002226585A
Other languages
English (en)
Inventor
Kazue Kaneko
金子 和恵
Tetsuo Kosaka
小坂 哲夫
Hiroki Yamamoto
山本 寛樹
Tsuyoshi Yagisawa
八木沢 津義
Masaaki Yamada
山田 雅章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002226585A priority Critical patent/JP2004072274A/ja
Publication of JP2004072274A publication Critical patent/JP2004072274A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】複数台の子機を有する親子電話機において、音声処理を子機ごとにカスタマイズすることは困難であった。
【解決手段】親機および子機のそれぞれが、語の読み情報を登録した、専用の読み付け用ユーザ辞書203を親機内の音声合成部108に登録する。音声合成部108においては、入力された文字情報文字情報に基づく音声データを、出力先である子機に応じた読み付け用ユーザ辞書203を参照して合成し、出力する。
【選択図】  図2

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識及び/または音声合成機能を有する音声処理システム及びその制御方法に関する。
【0002】
【従来の技術】
複数台の子機を有する親子電話機の普及は著しく、家庭においても家族の個人ごとに子機を占有するような利用形態が増えている。このような親子電話機において、電話番号を記憶させた電話帳を子機ごとに登録したり、子機間で共有したりする技術が、特開平7−38957に記載されている。
【0003】
また、近年のLモード機能を搭載したファクシミリ装置の実用化等に伴い、電子メールやインターネット上のホームページ等の文字情報に対し、家庭にある電話装置やファクシミリ装置等を用いてアクセスを行うことが増大することが予想される。
【0004】
また、ユーザの音声を認識して発信する、いわゆる音声ダイヤル機能を有する電話機について、電話帳の読みデータを音声認識語彙とする技術が、特開2002−57781公報に記載されている。
【0005】
【発明が解決しようとする課題】
一般に、上述したような複数台の子機を有する親子電話機においては、子機の有する表示画面は小さいため、子機において文字情報を閲覧する際には、合成音声による情報読み上げ機能を併用することは有用であると考えられる。しかしながら、例えば家族の個人ごとに子機が占有された利用形態を想定すると、閲覧対象となる文字情報、すなわち読み上げる文章において、かなりの個人差が生じてしまうことが容易に想到される。
【0006】
したがって、子機を利用する個人ごとに最適な読み上げ機能を実現するためには、読み辞書を個人単位でカスタマイズし、また、該辞書の一部については共有し、さらに一部については秘匿する、というような機能が必要となってくるが、上記従来の親子電話機においては、音声合成や音声認識機能の子機ごとのカスタマイズは想定されていなかった。
【0007】
また近年、音声合成を利用した電子メールやインターネットのホームページの読み上げサービス等が知られている。このようなサービスは、メールサーバやホームページサーバなどによるネットワーク上のサービスとして実現されるものであるため、例えばユーザ辞書のカスタマイズ等の機能については、サーバ側に任されていた。
【0008】
また音声ダイヤル機能としても、子機ごとに登録する特定話者認識機能を利用するか、上述した特開2002−57781公報に記載されているように、親機に登録されている電話帳の読み情報を複数の子機で共有して利用するか、のいずれかしかなかった。また、子機ごとに音声コマンドを利用する場合も、利用する機能やその機能を何と呼ぶかについても個人差が大きく、カスタマイズが必要になると思われる。さらに、認識対象とする話者により、認識率にばらつきが生じることが想定される。
【0009】
本発明は上述した問題を解決するためになされたものであり、複数台の子機を有する音声処理システムにおいて、音声処理に関する辞書等を子機ごとに登録することによって、音声処理の子機ごとのカスタマイズを可能とした音声処理システム及びその制御方法を提供することを目的とする。
【0010】
また、音声処理に関する辞書等を子機間で部分的に共有することにより、子機ごとの秘匿性を保ちつつ、辞書登録の手間を省いた音声処理システム及びその制御方法を提供することを目的とする。
【0011】
【課題を解決するための手段】
上記目的を達成するための一手段として、本発明の音声処理システムは以下の構成を備える。
【0012】
すなわち、1台の親機とその他の子機からなる複数台の音声処理装置によって構成される音声処理システムであって、前記親機は、語の読み情報を登録した、前記音声処理装置ごとの読み辞書と、文字情報を入力する文字情報入力手段と、前記文字情報に基づく音声データを、前記読み辞書に登録された読み情報を参照して合成する音声合成手段と、前記音声データを出力する音声データ出力手段と、を有し、前記音声合成手段は、前記音声データ出力手段による出力先である音声処理装置に応じて前記読み辞書を選択的に利用して、音声データを合成することを特徴とする。
【0013】
また、1台の親機とその他の子機からなる複数台の音声処理装置によって構成される音声処理システムであって、前記親機は、語とその指示するコマンドとの対応関係を登録した、前記音声処理装置ごとのコマンド辞書と、音声データを入力する音声データ入力手段と、前記音声データを認識する音声認識手段と、前記音声認識手段によって認識された語に基づき、前記コマンド辞書から対応するコマンドを検索するコマンド検索手段と、前記コマンド検索手段によって検索されたコマンドの情報を出力するコマンド出力手段と、を有し、前記コマンド検索手段は、前記音声データ入力手段への入力元である音声処理装置に応じて前記コマンド辞書を選択的に利用して、コマンドを検索することを特徴とする。
【0014】
【発明の実施の形態】
以下、本発明に係る一実施形態について、図面を参照して詳細に説明する。
【0015】
<第1実施形態>
●システム構成
本実施形態は、1台の親機と複数台の子機が無線接続された、いわゆるコードレス電話機、またはコードレスファクシミリ装置に対して適用される。
【0016】
図1は、本実施形態のコードレス親子電話機の概要構成を示す図である。同図において、100が親機であり、200,300,400が親機100に無線接続された子機である。以下、これらを単に親機、子機と称する。
【0017】
101はインターネットなどのネットワークであり、本実施形態の親機はすなわち、インターネット接続を可能とする。102は公衆電話回線網を示すネットワーク、103は回線接続の切り替えを行なう回線接続部である。104は、電話機能やファクシミリ機能、電子メールやインターネットアクセス等に対するユーザ指示を、ボタンの押下などによって入力するキー入力部である。105は、文字や画像を表示する文字・画像表示部である。106は、電話機能やファクシミリ機能、インターネットアクセスや音声認識/合成機能や、子機との接続制御等を行なう制御部である。
【0018】
107は、子機や親機から入力された音声コマンドについての認識処理を行なう音声認識部である。108は、電子メールやインターネットのホームページや機器の操作ガイダンス等の文字情報から、親機や子機で音声出力すべき音声データを作成する音声合成部である。109は子機との入出力を行なう無線送受信部、110は親機で出力すべき音声出力を行なう音声出力部、111はアンテナである。
【0019】
図2は、図1に示す音声合成部108の詳細構成を示すブロック図であり、音声合成部108は、文字データを入力して音声データを出力する。
【0020】
同図において、201は受け取った文字データを言語解析して適切な読みやイントネーションを付与する言語解析部である。202は言語解析に用いるシステム辞書、203は子機ごとに登録された読み付け用ユーザ辞書であり、子機ごとに複数作成される。204は読みやイントネーションの情報から音声波形データを作成する波形生成部であり、205は波形生成に用いる音声波形辞書である。
【0021】
図3は、図1に示す音声認識部107の詳細構成を示すブロック図であり、音声認識部107は、音声データを入力して、それに対応づけされたコマンドシーケンスを出力する。
【0022】
同図において、301は音声データの発話内容を認識する音声認識部である。302は音声データの発話内容を認識するための認識モデルであり、303は子機ごとに対応づけられる話し手(ユーザ)の特徴に応じた音声認識を行うための音響モデルである。音響モデルは子機ごとに複数作成される。304は、発話内容に対応づけされた音声コマンドを検索するためのコマンド検索部であり、305はシステムがデフォルトで用意する音声コマンドを蓄積する音声コマンドデータベース、306は子機ごとに登録される認識すべき語と実行すべきコマンドの対応づけを蓄積する認識用ユーザ辞書であり、子機ごとに複数作成される。
【0023】
●音声合成処理
以下、親機の音声合成部108における音声合成処理について、図4のフローチャートを用いて説明する。
【0024】
まずステップS401において文字(文章)データを入力する。ここで入力となる文字データは、電子メールやインターネットのホームページである場合もあり、また、本装置の操作方法を音声でガイダンスするためのマニュアルである場合もある。
【0025】
次にステップS402で言語解析部201において、ステップS401で入力された文字データを言語解析し、適切な読みやイントネーションを付与する。このとき、システム辞書として言語解析用辞書202を用いるが、その合成音声を出力する親機もしくは子機用の読み付け用ユーザ辞書203が存在すれば、それを参照することによって読みのカスタマイズを行なう。
【0026】
次にステップS403で波形生成部204において、付与された読みとイントネーションに基づいて音声波形辞書205を参照することによって音声波形データを作成し、ステップS404で音声データを出力する。このとき、出力先が親機であればその音声出力部110に出力されるが、出力先が子機であれば無線送受信部109を介して、音声信号が子機に出力される。
【0027】
なお、図4においては文章を一括で処理する例を示したが、例えば文章を一文づつ切り出す機能をもうけ、一文ごとに読み上げを行うようにしてもよい。
【0028】
●読み付け用ユーザ辞書登録
本実施形態においては、親機および複数の子機のそれぞれが、専用の読み付け用ユーザ辞書203を親機に登録可能であることを特徴とする。
【0029】
図5は、親機の音声合成部108に対し、子機ごとの読み付け用ユーザ辞書203の登録を行なう場合の操作例を示す図である。同図においては、矩形で囲んだ部分が子機の文字表示画面を示し、各画面右側の吹き出し内に平仮名で示した文章が合成音声として出力され、各画面右側の箇条書き部分が、ボタン等によるユーザ操作を示す。なお、ユーザによって操作されるボタンは図示しないが、子機上に設けられた固定ボタンであっても、コンテキストによってその機能の変わるボタンであっても良い。なお、後述する図9,図6,図10及び図12においても、図5と同様の形態によって文字表示画面及びユーザ操作を示している。
【0030】
図5においては、子機において合成音声による電子メールの読み上げ中に、ユーザが読み誤りに気付いた場合を例として説明する。
【0031】
まず画面601は、電子メールの内容を部分的に表示しながら、合成音声による読み上げを行なっている途中の状態を示す。そして、「さんかしゃわうちやまさんといせきさんとほんだ」まで読みあげた時点で、電子メールに記載されていた「伊勢亀」が「いせき」と読まれてしまった不都合にユーザが気付き、「一時停止」ボタンを押す。この時点で画面においては、最新の読み上げ個所である「本田」が強調表示されている。
【0032】
そしてユーザは、読みを付し直したい個所へ、「戻る」ボタンを押して移動する。この移動は、言語解析結果の一つの形態素区切りを移動単位とし、この例では「戻る」ボタンの3回の押下によって、画面602に示される様に「伊勢亀」が強調表示される。するとユーザはこの状態で、「読み登録」ボタンを押す。
【0033】
すると、画面603に示される様に、読みを付けるべき語、及び該語に対する読み入力のプロンプトが表示され、ここでユーザは画面604に示すように正しい読みである「いせかめ」を文字列として入力する。そして「登録」ボタンを押し、さらに「読み再開」ボタンを押すと、画面605のように、直前に登録した個所からの読み上げが再開される。
【0034】
なお、なんら操作を行っていない状態で「読み登録」ボタンが押された場合に、読み付けの対象となる語を入力するためのステップを設けても良い。
【0035】
このように、子機において読み付けすべき語とその読みが確定されると、その情報(読み付けデータ)が親機に送信され、対応する子機の読み付け用ユーザ辞書203に登録される。
【0036】
●読み付け用ユーザ辞書の一部使用許可
本実施形態においては、ある子機によって登録された読み付け用ユーザ辞書203について、その一部を他の子機または親機に対して開放する、すなわち、一部使用を許可することを特徴とする。
【0037】
図6は、読み付け用ユーザ辞書203に対して一部使用許可を与える場合の操作例を示す図である。ある子機において、他の操作を行っていない状態で「読み一覧」ボタンが押されると、親機内の音声合成部108に登録されている該子機の読み付け用ユーザ辞書203の内容を示す情報が送信され、一覧画面801が表示される。一覧画面801においては初期表示時に、リストの一番上にある項目が強調表現されている。ここで該子機のユーザは、他の子機からの使用を許可する項目を選択してゆく。例えば選択画面802に示すように、一番目の「伊勢亀」については使用を許可しないため「進む」ボタンを押し、次の「冒陳」については許可するとして「選択」ボタンを押した後、「進む」ボタンを押す。さらに、「援交」「側頭部」についても許可するとして「選択」ボタンと「進む」ボタンの押下を繰り返す。
【0038】
選択画面802において「冒陳」「援交」「側頭部」の3項目が選択された状態で、ユーザが「使用許可」ボタンを押すと、画面803に示すように、該項目の使用を許可する子機内線の入力プロンプトが表示される。ここでユーザが画面804に示すように「3」キーを入力すると内線番号3が指定され、再度「使用許可」ボタンを押すと、使用許可終了画面805が表示される。これにより、子機において設定された使用許可情報が親機に送信され、対応する子機の読み付け用ユーザ辞書203の内容が更新される。
【0039】
ここで図7に、子機1によって図6に示したような一部使用許可がなされた後の、子機1用および子機3用の読み付け用ユーザ辞書203の状態を示す。読み付け用ユーザ辞書203においては、表記と読みとが対として管理されており、図7に示す読み付け用ユーザ辞書203の例においては、子機1用として5項目の読み付けデータが登録されており、子機3用としては子機1からの使用許可に基づき、子機1用の辞書からコピーされた3項目の読み付けデータが登録されている。
以上説明したように本実施形態の音声合成機能においては、造語や流行語や人名など、初期に提供されるシステム辞書(言語解析用辞書202)に登録されていない語について、読み付けを行なうための読み付け用ユーザ辞書203を子機ごとに登録管理することで、効率的な辞書のカスタマイズが実現できる。
【0040】
また、人名やその読み等、他の子機のユーザに知らせても構わないものについて辞書を共有とすることで、登録作業の重複が避けられる。また、知らせたくないものについては秘匿することができるので、ユーザのプライバシーが確保される。
【0041】
●音声認識処理
以下、親機の音声認識部107における音声認識処理について、図8のフローチャートを用いて説明する。
【0042】
まずステップS501において、親機または子機から音声を入力し、ステップS502で音声認識部301において該音声を認識する。このとき、認識モデル302を用いるが、該音声が入力された親機もしくは子機用の認識用ユーザ辞書306が存在すれば、それを参照することによって認識語彙のカスタマイズを行なう。また、その親機もしくは子機用の音響モデル303が存在すれば、それを参照することによって話者適応を行なう。
【0043】
次にステップS503でコマンド検索部304において、音声認識結果に対応付けされたコマンドを検索する。このとき、該音声が入力された親機もしくは子機用の認識用ユーザ辞書306が存在すれば、まずそれを参照して音声コマンドを検索し、存在しなければ音声コマンドデータベース305からの検索を行なう。
【0044】
次にステップS504において、検索された音声コマンドのコマンドシーケンスを出力する。このとき、出力先が親機であれば、そのコマンドシーケンスは制御部106等において実行される。一方、出力先が子機であれば無線送受信部109を介して、制御信号として子機に出力される。
【0045】
●認識用ユーザ辞書(音声コマンド)登録
本実施形態においては、親機および複数の子機のそれぞれが、専用の音声認識用ユーザ辞書306を親機に登録可能であることを特徴とする。
【0046】
図9は、親機の音声認識部107に対し、子機ごとの認識用ユーザ辞書306として音声コマンドの登録を行なう場合の操作例を示す図である。
【0047】
子機において、他の操作を行っていない状態で「音声コマンド登録」ボタンが押されると、ガイダンス画面701が表示される。ここで子機のユーザは、登録すべきコマンドキーの並びを押す。図9においては、「機能」キー、「#」キー、「1」キー、「機能」キーが順次押された例を示しており、これにより、親機からのプリント操作を指示するコマンド「#1」の登録が指示される。すると画面702において、この登録指示に対応する音声コマンドの入力プロンプトが表示される。ここでユーザは画面703に示すように、「プリント」という文字列を音声コマンドとして入力し、「登録」ボタンを押すことによって、登録終了画面704が表示される。これにより、該子機用の認識用ユーザ辞書306内に「プリント」という音声コマンドが登録される。
【0048】
●音声コマンドの一部使用許可
本実施形態においては、ある子機によって認識用ユーザ辞書306として登録された音声コマンドについて、その一部を他の子機または親機に対して開放する、すなわち、一部使用を許可することを特徴とする。
【0049】
図10は、認識用ユーザ辞書306に対して一部使用許可を与える場合の操作例を示す図である。ある子機において、他の操作を行っていない状態で「音声コマンド一覧」ボタンが押されると、親機に登録されている該子機の認識用ユーザ辞書306の内容を示す情報が送信され、一覧画面901が表示される。一覧画面901においては、認識用ユーザ辞書306内に登録されている音声コマンドが、コマンドシーケンスと読みとの対として表示されている。
【0050】
一覧画面901において、リストの一番上に表示された「プリント」コマンドが強調表示されている状態で「選択」ボタンを押すと、選択画面902に示されるように、「プリント」コマンドが選択された状態で表示される。ここでユーザが、この「プリント」コマンドのみについて使用を許可するとして「使用許可」ボタンを押すと、画面903に示すように、該音声コマンドの使用を許可する子機内線の入力プロンプトが表示される。ここでユーザが画面904に示すように「3」キーを入力すると内線番号3が指定され、再度「使用許可」ボタンを押すと、使用許可終了画面905が表示される。これにより、子機において設定された使用許可情報が親機に送信され、対応する子機の認識用ユーザ辞書306の内容が更新される。
【0051】
ここで図11に、子機1において図10に示したような一部使用許可がなされた後の、子機1用および子機3用の認識用ユーザ辞書306の状態を示す。認識用ユーザ辞書306においては、コマンドシーケンスと読みとが対として管理されており、図11に示す例においては、子機1用として2項目の音声コマンドが登録されており、子機3用としては子機1からの使用許可に基づき、子機1用の辞書からコピーされた1項目の音声コマンドが登録されている。
【0052】
以上説明したように本実施形態の音声認識機能によれば、宛先の名前を指定してダイヤルする音声ダイヤルのみでなく、複数のキーを続けて押すことで設定される機能や、親機にしかないボタンで設定される機能を、任意の音声コマンドとして登録することができる。
【0053】
また、このような任意の音声コマンドを他の子機と共有することができるため、機器操作の苦手なユーザも簡単に該コマンドを利用できるようになる。
●音響モデル登録
一般に、音声認識は認識対象とする話者(ユーザ)によって、認識精度のばらつきが見られる。そこで本実施形態においては、親機および複数の子機のそれぞれが、専用の音響モデル303を作成可能であることを特徴とする。
【0054】
図12は、親機の音声認識部107に対し、子機ごとの音響モデル303を登録する場合の操作例を示す図である。
【0055】
子機において、他の操作を行っていない状態で「音声学習」ボタンが押されると、ガイダンス画面1401において、ユーザに対する指示とともに読み上げるべき語と読みが表示される。ユーザが該ガイダンスに従って一語を読み上げた後、「進む」ボタンを押すと、ガイダンス画面1402及び1403において、次の語の読み上げ指示が表示され、ユーザは読み上げ及び「進む」ボタンの押下作業を継続する。このように、予め設定された全ての語の読み上げが終了した時点で、学習終了画面1404が表示される。これにより、子機において設定された学習データが親機に送信され、対応する子機ごとの音響モデル303として登録される。
【0056】
従って本実施形態では音声認識の際に、子機ごとに作成された音響モデル303を利用することによって、認識精度の向上が図れる。
【0057】
以上説明したように本実施形態によれば、インターネット上のサーバではなく、複数の子機を有するコードレス親子電話機に音声認識/音声合成のエンジン(音声認識部107,音声合成部108)を搭載することにより、電子メールやインターネットホームページなどの文字情報を音声情報に変換する機能が家庭の電話機で実現できるようになる。
【0058】
そして、該電話機の子機ごとに、音声合成用の読み付け辞書や、音声認識用の認識語彙辞書や音響モデルを登録/管理することによって、子機に対応したユーザごとのカスタマイズが可能となる。
【0059】
また、登録した辞書を子機間で部分的に共有する機能を設けたことにより、ユーザのプライバシーを尊重しながら、辞書登録の手間を省くことができる。
【0060】
【変形例】
本発明は、上述した実施形態に限定されるものではなく、以下に示すような様々な変形が可能である。
【0061】
上述した実施形態においては、ユーザ辞書を子機ごとに分け、子機からの使用許可に基づいて登録内容をコピーして新たにエントリを作成する例を示したが、本発明はこの例に限定されず、1つのユーザ辞書を作成し、該辞書のエントリに対して利用可能な子機の指定を与えることで、エントリの重複を避けることが可能となる。
【0062】
ここで図13及び図14に、このような辞書エントリに対して子機指定を行う例を示す。図13によれば、「伊勢亀」と「鏑木」の各エントリについては子機1のみに対して利用を許可し、「冒陳」「援交」「側頭部」については、子機1と子機3での利用を許可する。また図14によれば、「プリント」という音声コマンドは子機1と子機3で利用できるが、「るすでんセット」については子機3でしか利用できない。
【0063】
また実施形態においては、読み付け用ユーザ辞書203においては表記と読みを対で管理するとして説明したが、これにアクセント型などのアクセント情報を付与してもよい。その場合、登録時のアクセント型の入力は、数字を入力する方法のみとしても良いし、各アクセント型によるサンプルの合成音を作成してユーザに選択させるようにしてもよい。
【0064】
また実施形態においては、音声コマンドを登録する際に、その読みを文字列として入力する例を示したが、特定話者による音声認識機能を別に設け、ユーザが音声を直接吹き込むことによって、コマンド登録ができるようにしてもよい。なお、この方法によって登録したデータは該登録を行ったユーザに対してのみ有効であるため、他の子機への使用は許可されない。
【0065】
また実施形態においては、各ユーザが使用する子機を限定し、子機ごとにユーザ辞書を登録する例を示したが、各ユーザに対して使用する子機を限定せずに、ユーザに対して子機を使用する際にパスワード入力を課すことによって、ユーザを特定する機能を設けることにより、ユーザごとの辞書登録が可能となる。
【0066】
また実施形態においては、子機から登録した読みや音声コマンドは、その子機特有のものとして登録される例を示したが、登録のモード設定として個人/共有のモードの切り替え機能を設け、共有モードで登録された項目については、親機、子機のいずれからも利用可能とすることもできる。
【0067】
また、辞書の利用許可形態として、項目単位での指定のみならず、全項目を許可する等の一括許可のモードを設けても良い。
【0068】
また実施形態においては、辞書登録時等のガイダンスを文字表示によって行う例を示したが、これを合成音声による音声ガイダンスに代えることも可能である。
【0069】
<他の実施形態>
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェイス機器、スピーカ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、電話機、ファクシミリ装置など)に適用しても良い。
【0070】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUまたはMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。
【0071】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0072】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることが出来る。
【0073】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0074】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0075】
【発明の効果】
以上説明したように本発明によれば、複数台の子機を有する音声処理システムにおいて、音声処理に関する辞書等を子機ごとに登録することによって、音声処理の子機ごとのカスタマイズが可能となる。
【0076】
また、音声処理に関する辞書等を子機間で部分的に共有することにより、子機ごとの秘匿性を保ちつつ、辞書登録の手間を省くことができる。
【図面の簡単な説明】
【図1】本発明に係る一実施形態における親機の構成を示すブロック図である。
【図2】音声合成部の構成を示すブロック図である。
【図3】音声認識部の構成を示すブロック図である。
【図4】音声合成処理を示すフローチャートである。
【図5】子機ごとの読み付け用ユーザ辞書への登録操作例を示す図である。
【図6】読み付け用ユーザ辞書を他機に対して一部使用許可する際の操作例を示す図である。
【図7】読み付け用ユーザ辞書の登録内容例を示す図である。
【図8】音声認識処理を示すフローチャートである。
【図9】子機ごとの認識用ユーザ辞書への登録操作例を示す図である。
【図10】認識用ユーザ辞書内の音声コマンドを他機に対して一部使用許可する際の操作例を示す図である。
【図11】認識用ユーザ辞書の登録内容例を示す図である。
【図12】子機ごとの音響モデルの登録操作例を示す図である。
【図13】変形例における、読み付け用ユーザ辞書の登録内容例を示す図である。
【図14】変形例における、認識用ユーザ辞書の登録内容例を示す図である。
【符号の説明】
100 親機
101,102 ネットワーク
103 回線接続部
104 キー入力部
105 文字・画像表示部
106 制御部
107 音声認識部
108 音声合成部
109 無線送受信部
110 音声入出力部
111 アンテナ
200,300,400 子機
201 言語解析部
202 言語解析用辞書
203 読み付け用ユーザ辞書
204 波形生成部
205 音声波形辞書
301 音声認識部
302 認識モデル
303 音響モデル
304 コマンド検索部
305 音声コマンドデータベース
306 認識用ユーザ辞書

Claims (23)

  1. 1台の親機とその他の子機からなる複数台の音声処理装置によって構成される音声処理システムであって、
    前記親機は、
    語の読み情報を登録した、前記音声処理装置ごとの読み辞書と、
    文字情報を入力する文字情報入力手段と、
    前記文字情報に基づく音声データを、前記読み辞書に登録された読み情報を参照して合成する音声合成手段と、
    前記音声データを出力する音声データ出力手段と、を有し、
    前記音声合成手段は、前記音声データ出力手段による出力先である音声処理装置に応じて前記読み辞書を選択的に利用して、音声データを合成することを特徴とする音声処理システム。
  2. 前記親機はさらに、
    語及びその読みを対として、前記読み辞書へ登録する読み辞書登録手段を有することを特徴とする請求項1記載の音声処理システム。
  3. 前記読み辞書登録手段は、前記音声処理装置からの登録指示に基づいて、該音声処理装置に対応した読み辞書への登録を行うことを特徴とする請求項2記載の音声処理システム。
  4. 前記音声処理装置は、
    前記音声出力手段から出力された音声データを読み上げる読み上げ手段と、
    前記読み上げ手段による読み上げ中に、前記音声合成手段において音声合成がなされた文字情報における現在の読み上げ個所を表示する表示手段と、
    前記表示手段に表示された文字情報において、読みの登録対象となる語およびその読みを指定して、これらを対として前記読み辞書への登録を指示する登録指示手段と、
    を有することを特徴とする請求項3記載の音声処理システム。
  5. 前記登録指示手段は、前記読み上げ手段による読み上げを任意個所で停止させた後に前記読み辞書への登録を指示し、
    前記読み上げ手段及び前記表示手段は、前記読み辞書への登録を反映して前記停止個所からの読み上げ及び表示を再開することを特徴とする請求項4記載の音声処理システム。
  6. 前記読み辞書登録手段は、語の漢字表記及びその読みを対として、前記読み辞書への登録を行うことを特徴とする請求項3記載の音声処理システム。
  7. 前記親機はさらに、
    一方の音声処理装置に対応した前記読み辞書の登録内容の一部について、他方の音声処理装置からの使用を許可する読み辞書使用許可手段を有することを特徴とする請求項1記載の音声処理システム。
  8. 前記読み辞書使用許可手段は、前記一方の音声処理装置からの許可指示に基づいて、該音声処理装置に対応した読み辞書の登録内容の一部使用を、前記他方の音声処理装置に許可することを特徴とする請求項7記載の音声処理システム。
  9. 前記文字情報入力手段は、前記文字情報を外部装置より受信することを特徴とする請求項1記載の音声処理システム。
  10. 1台の親機とその他の子機からなる複数台の音声処理装置によって構成される音声処理システムであって、
    前記親機は、
    語とその指示するコマンドとの対応関係を登録した、前記音声処理装置ごとのコマンド辞書と、
    音声データを入力する音声データ入力手段と、
    前記音声データを認識する音声認識手段と、
    前記音声認識手段によって認識された語に基づき、前記コマンド辞書から対応するコマンドを検索するコマンド検索手段と、
    前記コマンド検索手段によって検索されたコマンドの情報を出力するコマンド出力手段と、を有し、
    前記コマンド検索手段は、前記音声データ入力手段への入力元である音声処理装置に応じて前記コマンド辞書を選択的に利用して、コマンドを検索することを特徴とする音声処理システム。
  11. 前記親機はさらに、
    語とその指示するコマンドを対として、前記コマンド辞書へ登録するコマンド辞書登録手段を有することを特徴とする請求項10記載の音声処理システム。
  12. 前記コマンド辞書登録手段は、前記音声処理装置からの登録指示に基づいて、該子機に対応したコマンド辞書への登録を行うことを特徴とする請求項11記載の音声処理システム。
  13. 前記音声処理装置は、
    前記コマンドを示す所定のキー列と、該コマンドに対応する音声データを示す文字列を対として、前記コマンド辞書への登録を指示する登録指示手段
    を有することを特徴とする請求項12記載の音声処理システム。
  14. 前記親機はさらに、
    一方の音声処理装置に対応した前記コマンド辞書の登録内容の一部について、他方の音声処理装置からの使用を許可する認識辞書使用許可手段を有することを特徴とする請求項10記載の音声処理システム。
  15. 前記コマンド辞書使用許可手段は、前記一方の音声処理装置からの許可指示に基づいて、該音声処理装置に対応したコマンド辞書の登録内容の一部使用を、前記他方の音声処理装置に許可することを特徴とする請求項14記載の音声処理システム。
  16. 前記親機はさらに、前記音声処理装置ごとの認識対象話者の音響モデルを管理する音響モデル管理手段を有し、
    前記音声認識手段は、前記音声データ手段への入力元である音声処理装置に応じて前記音響モデルを選択的に利用して、該音声データを認識することを特徴とする請求項10記載の音声処理システム。
  17. 前記音声処理装置は、
    所定の語に対する音声入力に基づいて音声学習を行うことによって、前記音響モデルの登録を指示する音響モデル登録指示手段
    を有することを特徴とする請求項16記載の音声処理システム。
  18. 1台の親機とその他の子機からなる複数台の音声処理装置によって構成される音声処理システムであって、
    前記親機は、
    語の読み情報を登録した、前記音声処理装置ごとの読み辞書と、
    入力された文字情報に基づく音声データを、前記読み辞書に登録された読み情報を参照して合成する音声合成手段と、
    語とその指示するコマンドとの対応関係を登録した、前記音声処理装置ごとのコマンド辞書と、
    入力された音声データを認識する音声認識手段と、
    前記音声認識手段によって認識された語に基づき、前記コマンド辞書から対応するコマンドを検索するコマンド検索手段と、を有し、
    前記音声合成手段は、前記合成された音声データの出力先である音声処理装置に応じて前記読み辞書を選択的に利用して、音声データを合成し、
    前記コマンド検索手段は、前記入力された音声データの入力元である音声処理装置に応じて前記コマンド辞書を選択的に利用して、コマンドを検索する
    ことを特徴とする音声処理システム。
  19. 1台の親機とその他の子機からなる複数台の音声処理装置によって構成される音声処理システムの制御方法であって、
    前記親機側に、語の読み情報を登録した、前記音声処理装置ごとの読み辞書を備え、
    前記親機側において、
    文字情報を入力する文字情報入力工程と、
    前記文字情報に基づく音声データを、前記読み辞書に登録された読み情報を参照して合成する音声合成工程と、
    前記音声データを出力する音声データ出力工程と、を有し、
    前記音声合成工程においては、前記音声データの出力先である音声処理装置に応じて前記読み辞書を選択的に利用して、音声データを合成することを特徴とする音声処理システムの制御方法。
  20. 1台の親機とその他の子機からなる複数台の音声処理装置によって構成される音声処理システムの制御方法であって、
    前記親機側に、語とその指示するコマンドとの対応関係を登録した、前記音声処理装置ごとのコマンド辞書を備え、
    前記親機側において、
    音声データを入力する音声データ入力工程と、
    前記音声データを認識する音声認識工程と、
    前記音声認識工程によって認識された語に基づき、前記コマンド辞書から対応するコマンドを検索するコマンド検索工程と、
    該検索されたコマンドの情報を出力するコマンド出力工程と、を有し、
    前記コマンド検索工程においては、前記音声データの入力元である音声処理装置に応じて前記コマンド辞書を選択的に利用して、コマンドを検索することを特徴とする音声処理システムの制御方法。
  21. コンピュータ上で動作することによって、該コンピュータを請求項1乃至18のいずれかに記載の音声処理システムにおける音声処理装置として動作させることを特徴とするプログラム。
  22. コンピュータ上で動作することによって、該コンピュータを請求項1乃至18のいずれかに記載の音声処理システムにおける親機として動作させることを特徴とするプログラム。
  23. 請求項21または22記載のプログラムを記録した記録媒体。
JP2002226585A 2002-08-02 2002-08-02 音声処理システム及びその制御方法 Withdrawn JP2004072274A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002226585A JP2004072274A (ja) 2002-08-02 2002-08-02 音声処理システム及びその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002226585A JP2004072274A (ja) 2002-08-02 2002-08-02 音声処理システム及びその制御方法

Publications (1)

Publication Number Publication Date
JP2004072274A true JP2004072274A (ja) 2004-03-04

Family

ID=32013883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002226585A Withdrawn JP2004072274A (ja) 2002-08-02 2002-08-02 音声処理システム及びその制御方法

Country Status (1)

Country Link
JP (1) JP2004072274A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006154568A (ja) * 2004-11-30 2006-06-15 Tokyo Univ Of Agriculture & Technology 音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラム
JP2007248886A (ja) * 2006-03-16 2007-09-27 Mitsubishi Electric Corp 読み修正装置
JP2011170087A (ja) * 2010-02-18 2011-09-01 Fujitsu Ltd 音声認識装置
JP2011222046A (ja) * 2011-07-28 2011-11-04 Konica Minolta Business Technologies Inc 画像処理装置および操作項目判別テーブル共有方法
JP2015200860A (ja) * 2014-04-01 2015-11-12 ソフトバンク株式会社 辞書データベース管理装置、apiサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006154568A (ja) * 2004-11-30 2006-06-15 Tokyo Univ Of Agriculture & Technology 音声認識機能付きロギングシステムおよび同システムにおける端末装置ならびにプログラム
JP2007248886A (ja) * 2006-03-16 2007-09-27 Mitsubishi Electric Corp 読み修正装置
JP4704254B2 (ja) * 2006-03-16 2011-06-15 三菱電機株式会社 読み修正装置
JP2011170087A (ja) * 2010-02-18 2011-09-01 Fujitsu Ltd 音声認識装置
JP2011222046A (ja) * 2011-07-28 2011-11-04 Konica Minolta Business Technologies Inc 画像処理装置および操作項目判別テーブル共有方法
JP2015200860A (ja) * 2014-04-01 2015-11-12 ソフトバンク株式会社 辞書データベース管理装置、apiサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム

Similar Documents

Publication Publication Date Title
EP1603291A2 (en) Information transmission system and information transmission method
US20050131686A1 (en) Information processing apparatus and data input method
JP2011254553A (ja) 小型キーパッド用日本語入力メカニズム
EP2455936B1 (en) Speech translation system, dictionary server, and program
JP2008268684A (ja) 音声再生装置、電子辞書、音声再生方法、音声再生プログラム
TWI305314B (en) Zhu yin symbol and tone mark input method, and electronic device
CN101682662B (zh) 终端、功能启动方法以及终端用程序
US6985147B2 (en) Information access method, system and storage medium
JP2007219218A (ja) 語学学習用電子機器および訳文再生方法
JP2004072274A (ja) 音声処理システム及びその制御方法
JP4200874B2 (ja) 感性情報推定方法および文字アニメーション作成方法、これらの方法を用いたプログラム、記憶媒体、感性情報推定装置、文字アニメーション作成装置
JP2011186994A (ja) 文字入力装置および文字入力方法
JP5008248B2 (ja) 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体
JP2004318441A (ja) かな漢字変換装置及びかな漢字変換方法、並びにかな漢字変換プログラム
JP2006017932A (ja) 学習装置、携帯電話機、学習装置の制御方法、学習装置の制御プログラムおよび記録媒体
JP3867775B2 (ja) 単語入力による文章作成装置
JPH10162005A (ja) 記憶媒体、並びに検索装置および検索方法
JP2002288167A (ja) 翻訳システム
JP2009048374A (ja) 文字入力装置および情報処理機器における文字入力方法
JP2007163967A (ja) 音声認識装置及び音声認識方法
JPH11238063A (ja) 情報処理装置および方法、並びに提供媒体
JP2004287756A (ja) 電子メール作成装置及び電子メール作成方法
JP2001067375A (ja) 名称検索装置、キーボード及び名称検索プログラムを記録した記録媒体
JP3280729B2 (ja) 発音記号作成装置
JP2000047684A (ja) 音声認識方法および音声サービス装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051004