JP6883471B2

JP6883471B2 - 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置

Info

Publication number: JP6883471B2
Application number: JP2017094467A
Authority: JP
Inventors: 恒仁関
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2017-05-11
Filing date: 2017-05-11
Publication date: 2021-06-09
Anticipated expiration: 2037-05-11
Also published as: JP2018189904A; US20180330716A1; US10777187B2

Description

本発明は、ディクテーションに有効な収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置に関する。

近年、音声認識技術の進歩に伴い、音声入力によってテキストを生成するディクテーションシステムが利用されている。ディクテーションシステムでは、従来キーボード等を利用して入力していたテキストを音声によって入力する。

ディクテーションシステムは、パーソナルコンピュータ上での口述筆記の自動化や携帯端末におけるメール文章の入力等、様々な分野で利用される。例えば、医療分野においては、カルテ作成等の利用方法も考えられる。医師にとっては、様々な医療器具や情報端末の取り扱いや、患者への接触のために必要な時間を確保する必要があり、カルテを短時間に作成できるディクテーションシステムは極めて有用である。

ところで、音声認識処理は、マイクロホンによって入力音声を取込み、取込んだ入力音声から音響特徴量を抽出し、抽出した特徴量と音響モデルとのマッチング結果に基づいて単語辞書により構築される言語モデルを参照することでテキストを求めるものである。

ディクテーションシステムでは、予めシステムに用意されている音響モデル、単語辞書及び言語モデルを利用する。しかし、汎用の言語モデル等だけでは、各ユーザの発話の特徴によっては認識精度が低くなることもある。そこで、ディクテーションシステムでは、音素誤り、単語誤り、文誤り等の誤認識を最小化するように、ユーザ毎に学習を行って学習結果を個人辞書に記憶させることで、次回の音声認識における認識精度を向上させるようになっている。近年、パーソナルコンピュータの普及に伴い、ディクテーションを自分専用のパーソナルコンピュータ（以下、専有ＰＣという）を用いて実施する場合もあり、専有ＰＣの内蔵記録媒体上に個人辞書を記録しておくことで、認識性能の向上が図られる。
なお、特許文献１においては、話者を認識して音声認識を行うシステムにおいて、話者認識機能をオフにした場合でも、ユーザの嗜好を特定する技術が開示されている。

特開２０１７−３６０８号公報

しかしながら、外出先でディクテーションを行う場合のように、個人辞書が記録されていない例えば他人のパーソナルコンピュータ（以下、パソコンという）や共用パソコンを用いてディクテーションを行う場合があり、十分な認識精度を得ることができないことがある。

本発明は、個人辞書を登録した記録部を備えて、ディクテーション装置に個人辞書を転送可能にすることにより、専有パーソナルコンピュータ以外のコンピュータを用いる場合でも、音声認識性能を向上させることができる収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置を提供することを目的とする。

本発明の一態様による収音装置は、音を収音するマイクロホンにより構成された収音部と、前記収音部において収音された音声に対するディクテーション時の音声認識処理に用いる個人辞書を記録する記録部と、前記収音部において収音された音声に対するディクテーションを実行する情報処理装置への前記個人辞書の提供を制御する制御部と、前記収音部において収音された音声を前記情報処理装置に送信すると共に、前記制御部に制御されて前記個人辞書を前記情報処理装置に送信する通信部と、を具備し、前記制御部は、前記情報処理装置のユーザ情報に基づいて、前記情報処理装置への前記個人辞書の提供の可否を決定する。

本発明の一態様による収音方法は、マイクロホンにより構成された収音部によって音を収音する手順と、前記収音部において収音された音声に対するディクテーションを実行する情報処理装置の前記ディクテーションにおいて採用される音声認識処理に用いる個人辞書の前記情報処理装置への提供の可否を判定する手順と、前記収音部において収音された音声を前記情報処理装置に送信すると共に、前記提供の可否の判定結果に基づいて、前記個人辞書を前記情報処理装置に送信する通信手順とを具備し、前記提供の判定する手順は、前記情報処理装置のユーザ情報に基づいて、前記個人辞書の前記情報処理装置への提供の可否を判定する。

本発明の一態様による収音プログラムは、コンピュータに、マイクロホンにより構成された収音部によって音を収音する手順と、前記収音部において収音された音声に対するディクテーションを実行する情報処理装置の前記ディクテーションにおいて採用される音声認識処理に用いる個人辞書の前記情報処理装置への提供の可否を判定する手順と、前記収音部において収音された音声を前記情報処理装置に送信すると共に、前記提供の可否の判定結果に基づいて、前記個人辞書を前記情報処理装置に送信する通信手順とを実行させる。

本発明の一態様によるディクテーション方法は、収音部を有する収音装置から送信された音声を受信する手順と、前記収音装置から前記音声に対するディクテーションにおいて採用する音声認識処理に用いる個人辞書を受信する手順と、受信した音声に対するディクテーション処理によってドキュメントを生成する手順と、生成されたドキュメントに対する学習処理の結果更新した個人辞書の更新データを前記収音装置に送信する手順と、を具備し、前記個人辞書を受信する手順は、前記収音装置のユーザ情報に基づいて、前記個人辞書の受信の可否を決定する。

本発明の一態様による情報処理装置は、音を収音するマイクロホンにより構成された収音装置と通信する通信部と、前記収音装置において収音された音声に対するディクテーションを実行するために前記ディクテーションにおいて採用される音声認識処理に用いる個人辞書を上記通信部を介して取得する制御部と、を具備し、前記制御部は、前記収音装置のユーザ情報に基づいて、前記個人辞書の取得の可否を決定する。

本発明によれば、個人辞書を登録した記録部を備えて、ディクテーション装置に個人辞書を転送可能にすることにより、専有パーソナルコンピュータ以外のコンピュータを用いる場合でも、音声認識性能を向上させるという効果を有する。

本発明の第１の実施の形態に係る収音装置及び情報処理装置によって構成されるディクテーションシステムを示すブロック図。図１の収音装置１０の各部を収納する筐体１０ａを切断して側方から見て模式的に示す説明図。ドキュメント化部２１ｃによって生成されるドキュメントの一例を説明するための説明図。収音装置の動作を説明するためのフローチャート。情報処理装置２０の動作を説明するためのフローチャート。本発明の第２の実施の形態に係る収音装置を示すブロック図。第２の実施の形態における収音装置の動作を説明するためのフローチャート。変形例における収音装置の動作を示すフローチャート。変形例におけるディクテーション処理を示すフローチャート。

以下、図面を参照して本発明の実施の形態について詳細に説明する。
（第１の実施の形態）
図１は本発明の第１の実施の形態に係る収音装置及び情報処理装置によって構成されるディクテーションシステムを示すブロック図である。

本実施の形態における収音装置は、例えば携帯可能なマイクロホン装置によって構成することができ、情報処理装置は例えばパーソナルコンピュータによって構成することができる。これらの収音装置及び情報処理装置は、それぞれ各使用者が専有できる場合があり、以下の説明では、所定の使用者が専有する収音装置を専有収音装置又は専有マイクロホンといい、所定の使用者が専有する情報処理装置を専有情報処理装置又は専有ＰＣ（パーソナルコンピュータ）というものとする。ディクテーションに際して、常に専有ＰＣを利用することができる場合には特には問題は無い。しかし、他人が専有するＰＣや共用のＰＣを利用してディクテーションを行う場合も考えられる。

そこで、本実施の形態は、専有マイクロホン装置にディクテーションに必要な個人の情報である個人辞書を登録可能にすることにより、所定の使用者が自分専用の専有マイクロホン装置を所持していれば、共用ＰＣ或いは他人の専有ＰＣを用いてディクテーションを行う場合でも、自分の専有ＰＣを用いてディクテーションを行う場合と同様に高精度の音声認識処理によるディクテーション処理を可能にするものである。この場合において、本実施の形態においては、情報処理装置であるパーソナルコンピュータから各種情報が収音装置内の記録媒体に読み出されて持ち出されることを防止することを可能にする。

図１において、収音装置１０には制御部１が設けられている。制御部１は、ＣＰＵ等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で一部を置き換えてもよい。収音装置１０には収音部２が設けられており、収音部２は、複数のマイクロホンを有するマイク部２ａを有している。

図２は図１の収音装置１０の各部を収納する筐体１０ａを切断して側方から見て模式的に示す説明図であり、収音装置１０の内蔵物の配置、特にマイクロホン（以下、マイクという）２ａ１，２ａ２によって構成されるマイク部２ａの配置の一例を示している。なお、図２はユーザが筐体１０ａの正面と背面を右手の親指５３Ｒと人差し指５４Ｒとによって把持している状態を示している。

図２の例ではマイク部２ａは、正面マイク２ａ１と背面マイク２ａ２の２つのマイクロホンによって構成される。マイク部２ａは、周囲の音を収音して収音音声を音声信号に変換して出力する。筐体１０ａの正面の上端には筐体１０ａの長手方向に対して斜めに傾斜して配置されるフィルタ部４２が構成されている。フィルタ部４２は筐体１０ａの正面側上端に設けた開口部を閉塞するものであり、筐体１０ａの外部側から内部側に向かって、比較的荒いメッシュ状の金属部４２ａ、不織布４２ｂ及び比較的細かいメッシュ状の金属部４２ｃの３層構造を有する。フィルタ部４２は、口５２から発せられる音声のうちポップノイズを除去する。

筐体１０ａ内部の背面側には、フィルタ部４２に対向する位置に正面マイク２ａ１が配設されている。また、筐体１０ａ内部の背面側には、正面マイク２ａ１の下方に、背面マイク２ａ２を配置する収納部４４が設けられている。この収納部４４の上面と正面マイク２ａ１の底面との間にはゴム等の弾性部材４３ｂが配設され、正面マイク２ａ１の上面と筐体１０ａの上面との間にはゴム等の弾性部材４３ａが配設されている。弾性部材４３ａ，４３ｂによって、正面マイク２ａ１が筐体１０ａ内に保持されると共に、筐体１０ａに生じる振動のマイク２ａ１への影響が緩和される。特に、弾性部材４３ａ，４３ｂによって指５３Ｒ，５４Ｒからの振動の影響を緩和することができる。

収納部４４は筐体１０ａの背面に設けられた凹部により構成され、この凹部は多数の小孔を有する閉塞部材４６によって閉塞されている。収納部４４の凹部内に背面マイク２ａ２が配置される。マイク２ａ２の上面と凹部の上面との間にはウレタン等の弾性部材４５ａが配設され、マイク２ａ２の底面と凹部の底面との間にはウレタン等の弾性部材４５ｂが配設される。弾性部材４５ａ，４５ｂによって、マイク２ａ２が凹部内に保持される。

また、筐体１０ａ内部の下方側には、図１の収音装置１０の各回路用の部品等が搭載された基板４７が配置される。

正面マイク２ａ１は、図２の破線の収音範囲Ｄ１で収音可能な指向特性を有し、背面マイク２ａ２は、図２の破線の収音範囲Ｄ２で収音可能な指向特性を有する。本実施の形態においては、後述するように、電気的な制御によって、正面マイク２ａ１及び背面マイク２ａ２によるマイク部２ａの全体的な指向特性を制御することができるようになっている。

なお、筐体１０ａの厚みをＺｍとし、正面マイク２ａ１とフィルタ部４２との水平方向の距離（マイク深さ）をＺｄとする。装置の薄型化を考慮すると、厚みＺｍはなるべく小さい方が良い。また、マイク深さＺｄは、収音時に気流の影響を受けて音声に歪が生じない程度の十分な距離に設定する。また、弾性部材４５ａ，４５ｂとして用いるクッション材と弾性部材４３ａ，４３ｂとして用いるクッション材とを異なる材料にすることにより、筐体１０ａ上面から収納部４４底面までの高さＹｍが大きくなり過ぎることを防止している。

収音部２は指向性制御部２ｂを有しており、指向性制御部２ｂは、制御部１に制御されて、マイク部２ａの収音の指向性を制御する。即ち、指向性制御部２ｂは、マイク部２ａの収音に際して、最も感度が高くなる方向（以下、ビーム方向という）及び収音の範囲を制御することができるようになっている。

また、収音部２にはノイズリダクション（ＮＲ）部２ｃが設けられている。ＮＲ部２ｃは、指向性制御部２ｂからの各音声信号が与えられて、ノイズ成分を除去して出力する。声の音声パターンは、単語や音節の感情表現や言い回しに従って、周囲のノイズと異なり、周波数特性が大きく変化する。一方、ノイズは、周波数特性の差異よりも音の大きさ（振幅）の変化が大きく、音の大きさがあまり変わらない人の声とは明らかに特徴が異なる。そこで、ＮＲ部２ｃは、例えば、周波数特性があまり変化しない特定周波数をノイズの周波数であるものと判定し、周波数特性が変化する成分を音声成分であると判定して、入力された音声信号からノイズ成分を除去するようになっていてもよい。

また、収音部２にはノイズ判定部２ｄが設けられている。ノイズ判定部２ｄは、収音した音声のうち環境ノイズを求める。例えば、ノイズ判定部２ｄは、マイク２ａ１，２ａ２によって得られた音声信号の合成信号に基づいて環境ノイズを求めてよく、また、マイク２ａ１，２ａ２のいずれか一方、例えば背面マイク２ａ２によって得られた音声信号に基づいて環境ノイズを求めてよい。例えば、ノイズ判定部２ｄは、マイク２ａ１，２ａ２によって得られた音声信号の合成信号の二乗平均を求め、求めた二乗平均の値を環境ノイズとして求めて出力してもよい。また、ノイズ判定部２ｄは、例えば背面マイク２ａ２によって得られた音声信号の二乗平均を求め、求めた二乗平均の値を環境ノイズとして求めて出力してもよい。

こうして、収音部２は、マイク部２ａが収音した音声信号に対して指向性制御を施した後、ノイズを除去して制御部１に出力する。また、収音部２は、ノイズ判定部２ｄによる環境ノイズの判定結果を制御部１に出力するようになっている。

収音装置１０には操作部３が設けられている。操作部３は、各種キーやボタン等によって構成されており、ユーザ操作に基づく操作信号を制御部１に出力するようになっている。制御部１は、操作部３のユーザ操作に基づく操作信号が与えられ、この操作信号に基づいて各部を制御するようになっている。例えば、操作部３によってユーザはマイク部２ａの指向特性を制御する操作を行うこともでき、制御部１は、ユーザ操作に応じた指向特性をマイク部２ａに設定することができるようになっている。

また、収音装置１０には、姿勢判定部４も設けられている。姿勢判定部４は、例えば、加速度センサやジャイロセンサ等によって構成することができ、収音装置１０の筐体１０ａの姿勢を判定して判定結果を制御部１に出力するようになっている。また、収音装置１０には音質調整部７も設けられている。音質調整部７は、制御部１に制御されて、収音部２によって収音された音声の周波数特性を調整することができる。例えば、音質調整部７は、フィルタ部４２のフィルタ特性を補正する調整を行うようになっていてもよい。収音装置１０には、時計部９も設けられている。時計部９は、時刻情報を発生して制御部１に出力する
収音装置１０には通信部５が設けられている。通信部５は、制御部１に制御されて、外部機器との間で有線又は無線によるデータの送信及び受信が可能である。例えば、通信部５としては、Ｗｉｆｉ等の無線ＬＡＮやブルートゥース（登録商標）等による無線通信が可能に構成されている。制御部１は、通信部５を介して、収音部２によって取得した音声信号を外部機器に送信することができるようになっている。
この通信部５は、音声などリアルタイム性が要求されるリアルタイム通信（アイソクロナス転送）や機器の制御コマンドをやり取りするコントロール通信、ファイル化された情報をやり取りするファイル転送（バルク転送）などに対応しており、これらを時系列で行っても、並列で行ってもよい。これらは通信方式に応じてどのように行うかは取捨選択可能となっている。

本実施の形態においては、収音装置１０は記録部６を有している。記録部６は、例えば半導体メモリ等の所定の記録媒体により構成されており、書込み及び読み出しが制御部１によって制御されるようになっている。制御部１にはユーザ登録部１ａが構成されている。ユーザ登録部１ａは、操作部３のユーザ操作に基づいて、ユーザに関する情報（ユーザ情報）を記録部６のユーザ情報部６ａに記録することができるようになっている。なお、以下、ユーザ情報部６ａに登録されている使用者を専有者というものとする。

記録部６には個人辞書部６ｂも構成されている。個人辞書部６ｂは、ディクテーションに際して用いる専有者の個人辞書が記録されている。制御部１には、提供部１ｃが構成されている。提供部１ｃは、ディクテーション作業が開始された場合には、後述する情報処理装置２０との間で情報の授受を行うことで、ディクテーションに必要であるとして提供が指示された場合には、個人辞書部６ｂから読み出した専有者の個人辞書を通信部５を介して情報処理装置２０に送信することができるようになっている。なお、提供部１ｃは、ユーザ情報部６ａに登録されたユーザ（専有者）以外の他人が専用する情報処理装置２０又は共用の情報処理装置２０に対してのみ、個人辞書を送信させるようになっていてもよい。また、提供部１ｃは、情報処理装置２０からの個人辞書の提供の指示に拘わらず、収音装置１０の専有者と情報処理装置２０の専有者とが同一ユーザであると判定した場合には、通信部２２を介して収音装置１０の制御部１に対して個人辞書の提供するようになっていてもよい。

このように、収音装置１０は、個人辞書を登録した記録部６を備えており、情報処理装置２０に個人辞書を転送可能にすることにより、収音装置１０のユーザ（専有者）が、他人の専有する情報処理装置２０或いは共用の情報処理装置２０を用いてディクテーションを実施する場合でも、音声認識性能を向上させることができるようになっている。

しかしながら、このような記録媒体を搭載した収音装置１０は、情報処理装置２０であるパーソナルコンピュータが保持している情報を持ち出す記録媒体としても利用することが可能となる。このようなパーソナルコンピュータからの情報の流出を防止するために、本実施の形態における記録部６は読み取り専用の設定で用いられる。

本実施の形態においては、制御部１には、記録部６の書込み及び読み出しの許可・禁止を制御する書込み許可制御部１ｄが構成されている。書込み許可制御部１ｄは、収音装置１０の電源投入直後において、記録部６を読み取り専用（リードオンリー）に設定するようになっている。

しかしながら、ディクテーションにおいては、ディクテーション結果に対する学習処理によって、音声認識性能を向上させることができることが知られている。即ち、学習によって個人辞書を更新することで、音声認識性能を向上させ、より正確なディクテーションを可能にすることができる。

そこで、本実施の形態においては、このような学習結果を記録部６に記録させるために、書込み許可制御部１ｄは、判定部１ｂに制御されて、記録部６を書込み許可に設定することができるようになっている。判定部１ｂは、記録部６を読み取り専用から書き込み可能に設定する期間を判定し、判定結果を書込み許可制御部１ｄに与える。書込み許可制御部１ｄは、判定部１ｂの判定結果に従って、記録部６の書込み及び読み出しの設定を制御する。例えば、判定部１ｂは、ユーザ情報部６ａに登録されているユーザ（専有者）が専有する情報処理装置２０から、学習結果の更新情報である個人辞書の更新データが通信部５を介して入力される場合にのみ、記録部６を書込み可能にする書込み許可期間に設定するようになっていてもよい。なお、書込み許可制御部１ｄは、個人辞書の更新が終了すると、記録部６を書き込み可能から読み取り専用に設定を戻すようになっている。

パーソナルコンピュータ等によって構成された情報処理装置２０には、制御部２１が設けられている。制御部２１は、ＣＰＵ等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で一部を置き換えてもよい。

情報処理装置２０は通信部２２を有している。通信部２２は、制御部２１に制御されて、収音装置１０の通信部５との間で所定の伝送路を介して通信可能である。通信部２２は、収音装置１０から送信された音声信号やコマンド等を制御部２１に出力することができる。
つまり通信部２２は、音声などリアルタイム性が要求されるリアルタイム通信（アイソクロナス転送）や機器の制御コマンドをやり取りするコントロール通信、ファイル化された情報をやり取りするファイル転送（バルク転送）などに対応しており、これらを時系列で行っても、並列で行ってもよい。これらは通信方式に応じてどのように行うかは取捨選択可能となっている。

情報処理装置２０には操作入力部２５が設けられている。操作入力部２５は、図示しないキーボード等によって構成されており、ユーザ操作に基づく操作信号を制御部２１に出力するようになっている。制御部１は、操作入力部２５のユーザ操作に基づく操作信号が与えられ、この操作信号に基づいて各部を制御するようになっている。

情報処理装置２０には記録部２４が設けられている。記録部２４は、例えばハードディスク、半導体メモリ等の記録媒体によって構成されている。制御部２１に構成された記録制御部２１ｂは、記録部２４の記録及び再生を制御するようになっている。

制御部２１にはユーザ登録部１２ａが構成されている。ユーザ登録部２１ａは、操作入力部２５のユーザ操作に基づいて、ユーザに関する情報（ユーザ情報）を記録部２４のユーザ情報部２４ｄに記録することができるようになっている。なお、以下、ユーザ情報部２４ｄに登録されている使用者を専有者というものとする。なお、このユーザ情報は、手動入力可能であったり、システム管理者が設定できたり、あるいは接続される機器から取得できるようにしてもよい。

情報処理装置２０にはテキスト化部２３が設けられている。テキスト化部２３は、制御部２１に制御されて、公知の音声認識処理により、入力された音声信号に基づくテキストを生成する。記録部２４は、このテキスト化に用いる音声テキスト化辞書部２４ｂを有する。テキスト化部２３は、音声信号の特徴量を求め、求めた特徴量と音響モデルとのマッチング演算を行い、音声テキスト化辞書部２４ｂの音声テキストを参照して、音声信号に含まれる人の声の情報をテキスト化する。

記録部２４には、個人辞書部２４ａが設けられており、個人辞書部２４ａは、音声認識に用いる専有者の個人辞書を記憶している。個人辞書は、音声認識処理に際して個人の発声の特徴に対応した情報を含むものであり、個人辞書を用いることで、個人辞書に発声特徴が登録されている人物については、音声認識精度を向上させることが可能である。テキスト化部２３は、テキスト化に際して、個人辞書部２４ａに記録されている個人辞書を参照することで、音声認識精度を向上させるようになっている。

制御部２１は、通信部２２を介して受信される音声信号に対するディクテーション処理に際して、登録されているユーザ情報を参照することで、個人辞書の利用方法を決定する。例えば、制御部２１は、通信部２２，５による通信によって、ユーザ情報の照合を行いユーザ情報部２４ｄに登録されている専有者のユーザ情報と収音装置１０に登録されている専有者のユーザ情報とが一致しているか否かを判定する。制御部２１はユーザ情報同士の照合の結果、収音装置１０の専有者と情報処理装置２０の専有者とが同一ユーザであるものと判定した場合には、ディクテーションに際して個人辞書部２４ａに記録されている登録ユーザの個人辞書を用いるように制御を行う。一方、制御部２１は、収音装置１０の使用者（専有者）と情報処理装置２０の専有者とが同一ユーザでないと判定した場合には、ディクテーションの開始前に、通信部２２を介して収音装置１０の制御部１に対して個人辞書の提供を指示する。
このユーザ情報は、システム全体の管理者が設定可能でもよく、収音装置の専有者、所持者、管理者、情報処理装置の所持者、管理者が設定可能でもよい。これはセキュリティレベルに応じて選択可能で、ユーザ情報を一方の機器から要求して、もう一方の機器が送信して取得するようなやり取りを行っても良い。つまり、ディクテーションを実行する情報処理装置のユーザ要求に基づいて音声認識処理に用いる個人辞書の提供の可否を判定してもよいし、厳密にユーザの照合などをもとに可否を判定してもよい。

収音装置１０の提供部１ｃから個人辞書が提供されると、制御部２１の記録制御部２１ｂは、この個人辞書をテキスト化に用いるために、例えば一時的に、個人辞書部２４ａの空き領域に格納する。

記録部２４にはフォーマット情報部２４ｃも記録されている。フォーマット情報部２４ｃは、テキスト化された音声情報から所定のドキュメントを生成するためのフォーマットが記述されたフォーマット情報が記録されている。制御部２１のドキュメント化部２１ｃは、フォーマット情報部２４ｃのフォーマット情報を参照することで、テキスト化された音声情報からドキュメントを生成する。記録制御部２１ｂは、生成されたドキュメントを記録部２４に与えて記録させる。

図３はドキュメント化部２１ｃによって生成されるドキュメントの一例を説明するための説明図である。図３はドキュメントとしてカルテを生成する例を示している。ドキュメント化部２１ｃは、フォーマット情報によってカルテのフォーマットを取得してカルテのドキュメントを生成する。図３のカルテは、「患者」、「年齢」、「性別」、「部位」、「所見」及び「日付」の項目を有する。

例えば、医師が図３のカルテの各項目順に発話するものとする。この場合には、テキスト化部２３は、この項目順に発話された音声をテキスト化することで、各項目に設定すべきテキストを順次生成する。ドキュメント化部２１ｃは、順次取得されたテキストを、各項目の欄に配置することで、カルテを生成する。

また、例えば、ドキュメント化部２１ｃは、人の名前がテキスト化された場合には、「患者」の欄にテキスト化された名前を配置し、「ｘ歳」と発話された音声がテキスト化された場合には、「年齢」の欄にテキスト化された年齢を配置する等のように、テキスト化された情報の内容を判定して、カルテの各欄にテキスト化された情報を配置するようにしてもよい。また、例えば、ドキュメント化部２１ｃは、テキスト化された文字列が各項目の文字列に一致することによって、各項目に対する入力操作であるものと判定してもよい。例えば、「患者」の発音に続けて入力された音声のテキストを「患者」の欄に配置するようにしてもよい。こうして、ドキュメント化部２１ｃにより、自動的にカルテが生成される。

情報処理装置２０には、表示部２６が設けられている。表示部２６は例えばＬＣＤ（液晶ディスプレイ）等によって構成することができ、制御部２１から供給される画像を表示画面に表示することができる。例えば、表示部２６は、制御部２１に制御されて、ディクテーション作業に必要な各種メニュー画面や、ディクテーション結果の表示等のディクテーション処理を進めるための画面表示を行うことができる。

テキスト化部２３は、テキスト化に際して、ユーザによる学習操作を受け付けるようになっている。ユーザは表示部２６に表示されたテキスト化された音声認識結果を参照して、音声認識結果に誤りがある場合には、操作入力部２５を操作して、音声認識結果として正しい音声をテキスト入力することができるようになっている。テキスト化部２３は、ユーザの入力操作に基づいて、個人の発声の特徴を記述した個人辞書を修正する学習処理を実行する。記録制御部２１ｂは、この学習処理の結果によって、記録部２４の個人辞書部２４ａの個人辞書を更新するようになっている。

制御部２１は、収音装置１０の専有者と情報処理装置２０の専有者とが同一であると判定した場合には、個人辞書部２４ａに記録されている個人辞書を収音装置１０に転送するために、通信部２２を介して個人辞書の転送要求を行う。上述したように、収音装置１０の記録部６は、初期設定ではリードオンリーに設定されているが、書込み許可制御部１ｄは、情報処理装置２０からの転送要求によって、記録部６を書き込み許可に設定するようになっている。こうして、制御部２１は、個人辞書部２４ａの個人辞書を通信部２２，５を介して収音装置１０に転送し、転送された個人辞書は制御部１によって記録部６の個人辞書部６ｂに書き込まれるようになっている。

制御部２１は、収音装置１０の専有者と情報処理装置２０の専有者とが同一でないと判定した場合には、個人辞書の転送を行わないようになっていてもよい。ただし、この個人辞書の書き込みはこれに限らず、システム全体の管理者が設定可能でもよく、収音装置の専有者、所持者、管理者、情報処理装置の所持者、管理者が禁止、許可、その他の設定が可能でもよい。これはシステムが要求するセキュリティレベルに応じて選択可能で、ユーザ情報を収音装置１０が送信要求して、情報処理装置２０が受信して取得するようなやり取りを行っても良い。

情報処理装置２０には通信部２７も設けられている。通信部２７は、所定の伝送路を介して外部の機器との間で情報の授受が可能である。例えば、通信部２７は、図示しないクラウド上のコンピュータと接続可能であり、制御部２１は、クラウド上のコンピュータを利用してディクテーション処理を行うこともできるようになっている。

なお、収音装置１０について、ユーザ登録部１ａは、実際の使用者についても登録可能である。しかし、本実施の形態は、収音装置１０については、専有者と実際の使用者とが同一の場合を想定したものであり、両者が異なる場合については説明を省略する。なお、収音装置１０における専有者は、個人辞書部６ｂに個人辞書が記録されている使用者を意味し、情報処理装置２０における専有者は、個人辞書部２４ａに個人辞書が記録されている使用者を意味していることにしてもよく、それぞれ複数の専有者が登録されている場合でも適用可能である。

次に、このように構成された実施の形態の動作について図４及び図５を参照して説明する。図４は収音装置の動作を説明するためのフローチャートであり、図５は情報処理装置２０の動作を説明するためのフローチャートである。

収音装置１０に電源が投入されると、図４のステップＳ１において、収音装置１０の制御部１の書込み許可制御部１ｄは、記録部６を読み取り専用に設定した後、ステップＳ２に移行する。収音及びディクテーションに際して、収音装置１０の制御部２１と情報処理装置２０の制御部２１とは、図４のステップＳ２及び図５のステップＳ２１において、互いに専有者の確認を行う。即ち、制御部１は記録部６のユーザ情報部６ａからユーザ情報を読み出し、制御部２１は記録部２４のユーザ情報部２４ｄからユーザ情報を読み出し、制御部１，２１は、通信部５，２２を介して相互に通信を行い、自機及び接続相手の機器のユーザ情報を照合して、収音装置１０と情報処理装置２０の専有者が同一であるか否かを確認する。

次に、制御部１はステップＳ３において収音開始の待機状態となり、制御部２１はステップＳ２２において音声受信の待機状態となる。ここで、ユーザがディクテーションのための発話を開始するものとする。例えば、ユーザは、図２に示すように、筐体１０ａを右手の指５３Ｒ，５４Ｒによって把持し、マイク部２ａに口５２を近づけた状態で発話する。収音装置１０において収音が開始されると、制御部１は、ステップＳ３からステップＳ４に移行して、専有者同一であるか否かを判定する。

（専有者不一致）
いま、収音装置１０と情報処理装置２０の専有者が同一（以下、単に専有者同一ともいう）ではない（専有者不一致）ものとする。この場合には、制御部１は、処理をステップＳ５に移行して、ユーザの発話による音声入力を行い、収音した音声を送信する。即ち、制御部１は、指向性制御部２ｂを制御して、例えば、ユーザ操作に基づく指向性を設定した状態で、マイク部２ａにより発話を収音させる。例えば、制御部１は、収音範囲を狭くして、所定のビーム方向に設定した状態で音声記録を開始する。例えば、ビーム方向としては、図２の角度θの方向をビーム方向としてもよい。

ＮＲ部２ｃは指向性制御部２ｂによる指向性制御後の音声データに対してノイズキャンセル処理行い、ノイズキャンセル後の音声データを制御部１に出力する。制御部１は、収音部２からの音声データ、又はこの音声データを音質調整部７によって音質調整した後の音声データを、通信部５を介して情報処理装置２０に送信する。

次に、制御部１は、ステップＳ６において、記録部６の個人辞書部６ｂの個人辞書を読み出して、通信部５を介して情報処理装置２０に送信する。制御部１は、ステップＳ７において、ディクテーションのための収音処理が終了したか否かを判定し、収音処理が終了するまで、ステップＳ５〜Ｓ７を繰り返す。

情報処理装置２０の制御部２１は、ステップＳ２２において音声の受信を開始すると、ステップＳ２３において専有者同一か否かを判定する。専有者同一でない場合には、制御部２１は、ステップＳ２４において通信部２２を介して音声信号を受信する。更に、制御部２１は、ステップＳ２５において、収音装置１０からの個人辞書を取得する。制御部２１は通信部２２を介して収音装置１０の提供部１ｃが提供した個人辞書を受信し、記録制御部２１ｂは、受信した個人辞書を個人辞書部２４ａの空き領域に記録する。

次のステップＳ２７において、テキスト化部２３は、記録部２４の音声テキスト化辞書部２４ｂから音声テキスト化辞書を読み出すと共に、ステップＳ２５において個人辞書部２４ａに記録した個人辞書を読み出して、テキスト化を行う。ドキュメント化部２１ｃは、記録部２４のフォーマット情報部２４ｃのフォーマット情報を読み出して、テキスト化された音声に基づくドキュメントを生成する。テキスト化部２３は、生成されたドキュメントを表示部２６に与えて表示させる（ステップＳ２８）。

ユーザは表示部２６に表示されたドキュメントを参照して、ディクテーションの正誤を判定し（ステップＳ２９）、正しければ処理をステップＳ３２に移行して、ディクテーションが終了したか否かを判定する。制御部２１は、ディクテーション処理が終了していなければ処理をステップＳ２３に戻し、終了すると処理をステップＳ３３に移行する。テキスト化部２３は、ステップＳ２９において、ユーザにより誤りが指摘された場合には、当該指摘に基づいてテキスト化を修正する。なお、ドキュメント化部２１ｃは、テキスト化部の修正結果に基づいてドキュメントを修正し、この修正結果は表示部２６に表示される。テキスト化部２３は、ステップＳ３１において、修正結果に基づいて個人辞書部６ｂの個人辞書を更新する学習処理を実行する。

収音装置１０の制御部１は、ステップＳ７においてディクテーション処理が終了したものと判定すると、次のステップＳ８において、個人辞書の消去コマンドを送信する。このコマンドは通信部５，２２を介して情報処理装置２０の制御部２１に受信される。

制御部２１は、ステップＳ３２においてディクテーション処理が終了したものと判定すると、次のステップＳ３３において、専有者同一であるか否かを判定する。専有者同一でない場合には、制御部２１は、ステップＳ３４において、コマンドに従って制御を行う。即ち、この場合には、制御部２１の記録制御部２１ｂは、ステップＳ２５において個人辞書部２４ａに記録した個人辞書を消去する。

このように、専有者が不一致の場合には、収音装置１０は、記録部６に記録されている個人辞書を他人が専有する情報処理装置や共有の情報処理装置に転送してディクテーション処理に利用させることができる。これにより、専有マイクロホン装置である収音装置１０の専有者は、専有ＰＣ以外の情報処理装置を用いる場合でも、専有ＰＣを用いる場合と同様の音声認識性能によってディクテーションが可能である。

（専有者一致）
次に、収音装置１０と情報処理装置２０の専有者が同一であるものとする。この場合には、制御部１は、ステップＳ４からステップＳ１１に移行して、ユーザの発話による音声入力を行い、収音した音声を送信した後、ステップＳ１２において個人辞書の更新処理が発生しているか否かを判定する。なお、ステップＳ１１の音声入力及び送信処理はステップＳ５と同様の処理である。この場合には、専有者同一であるので、収音装置１０の記録部６に記録されている個人辞書と同一の情報が情報処理装置２０の記録部２４に記録されていると考えられるので、個人辞書の提供処理は省略される。

一方、情報処理装置２０の制御部２１は、ステップＳ２３において専有者同一であるものと判定すると、ステップＳ２６において通信部２２を介して音声信号を受信する。なお、ステップＳ２６の処理はステップＳ２４の処理と同様の処理である。次に、情報処理装置２０では、ステップＳ２７〜Ｓ３２において、テキスト化、ドキュメント化及び学習処理が行われる。

制御部２１は、ステップＳ３２においてディクテーション処理が終了したものと判定すると、次のステップＳ３３において、専有者同一であるか否かを判定する。この場合には専有者同一であるので、制御部２１は、ステップＳ３５において、学習結果の更新要求を行って、学習結果を送信して処理を終了する。例えば、制御部２１は、個人辞書部２４ａに記録された個人辞書をそのまま読み出して通信部２２を介して送信してもよく、また、個人辞書の変更分である差分データのみを通信部２２を介して送信してもよい。

収音装置１０の判定部１ｂは、ステップＳ１２において学習結果の更新要求が発生したか否かを判定しており、更新要求を受信すると、学習結果の更新期間には記録部６を書込み許可に設定するように書込み許可制御部１ｄに指示を与える。書込み許可制御部１ｄは、ステップＳ１３において記録部６を書込み許可に設定する。制御部１は、情報処理装置２０から送信された学習結果の更新データを受信して、更新データで個人辞書部６ｂを更新する（ステップＳ１４）。なお、判定部１ｂはステップＳ１２において更新要求が発生していないと判定した場合には処理をステップＳ１６に移行する。

個人辞書部６ｂの更新が終了すると、書込み許可制御部１ｄは、記録部６を再度読み取り専用に設定する（ステップＳ１５）。制御部１は、次のステップＳ１６において、ディクテーションのための収音処理の終了操作が発生したか否かを判定し、終了操作がない場合には処理をステップＳ１１に戻し、終了操作があった場合には処理を終了する。

このように、専有者が同一の場合には、収音装置１０は、情報処理装置２０からの学習結果によって個人辞書部６ｂを更新することで、次回以降のディクテーションにおいて専有ＰＣ以外の情報処理装置を用いる場合でも、専有ＰＣを用いる場合と同様の音声認識性能によるディクテーションを可能にすることができる。また、制御部１は、学習結果の更新期間にのみ記録部６を書込み許可にし、他の期間には読み取り専用に設定しているので、情報処理装置２０からの情報が収音装置１０により流出することを防止することができる。

このように本実施の形態においては、ディクテーションに必要な個人辞書を登録する記録部を備え、必要に応じて個人辞書を情報処理装置に転送する機能を有しているので、他人が専用するパーソナルコンピュータや共用パーソナルコンピュータを用いてディクテーションを行う場合でも、高精度の音声認識処理によるディクテーション処理を可能にすることができる。しかも、この場合において、情報処理装置であるパーソナルコンピュータから各種情報が収音装置内のメモリに読み出されて持ち出されることを防止することが可能である。
つまり、マイクロホンと通信する通信部と、前記収音部において収音された音声に対するディクテーションを実行するために音声認識処理に用いる個人辞書を、上記通信部を介して取得する制御部とを具備したことを特徴とする情報処理装置を提供して、専有マイクロホン装置を所持するユーザが、どのＰＣを使っても、正確な音声認識処理を実行可能にしている。

（第２の実施の形態）
図６は本発明の第２の実施の形態に係る収音装置を示すブロック図である。図６において図１と同一の構成要素には同一符号を付して説明を省略する。本実施の形態は、図１の通信部５としてＵＳＢ規格のコントローラであるＵＳＢ通信部５ａを採用した例を示している。ＵＳＢ通信部５ａは、図示しないＵＳＢケーブルを介して図１の情報処理装置２０の通信部２２に接続される。

なお、情報処理装置２０の通信部２２は、ＵＳＢ接続が行われると、制御部２１に制御されて、ＵＳＢのマスタ（ＵＳＢホスト）として動作するようになっている。一方、収音装置６０のＵＳＢ通信部５ａは、ＵＳＢケーブルを介して通信部２２に接続されると、ＵＳＢのスレーブとして機能するようになっている。

本実施の形態においては、制御部６１は、書込み許可制御部１ｄに代えてＵＳＢ接続に対応した書込み許可制御部１ｅを採用した点が、図１の制御部１と異なる。制御部６１と記録部６とは信号線６２ａ，６２ｂによって接続されており、書込み許可制御部１ｅは信号線６２ａを介して各種コマンドを伝送して記録部６を制御することができる。また、制御部６１は、信号線６２ｂを介して記録部６に記録されているデータを読出すことができるようになっている。

本実施の形態においても、判定部１ｂ及び書込み許可制御部１ｅは、収音装置６０の電源投入時以降、記録部６を読み取り専用に設定し、情報処理装置２０からの学習結果によって個人辞書部６ｂを更新する期間にのみ、記録部６を書込み許可に設定するようになっている。

しかし、ＵＳＢ通信部５ａが通信部２２との間でＵＳＢ接続されると、情報処理装置２０の制御部２１は、ＯＳの機能によって、収音装置６０の記録部６をマウントする。このマウント処理後には、制御部２１において動作しているＯＳやＯＳ上で動作するアプリケーションプログラムによって、収音装置６０の記録部６に記録されているファイルにアクセス可能である。なお、記録部６は読み取り専用に設定されていることから、情報処理装置２０によって記録部６への書込みを行うことはできない。

一方、収音装置６０は、ＵＳＢ接続によって記録部６がマウントされた状態では、制御部６１が独自に記録部６に対する書込み、読み出し及びその制御を行うことはできず、記録部６については情報処理装置２０の制御部２１によって動作が制御されるＵＳＢ接続モードに設定される。従って、記録部６のマウント時には、制御部２１による読出し制御等に従って、記録部６から転送データの読出し及び転送等が行われるのみである。

そこで、本実施の形態においては、記録部６のマウントを収音装置６０側で解除（アンマウント）するために、収音装置１０にはスイッチ６３が設けられている。スイッチ６３は、書込み許可制御部１ｅにオン，オフ制御されるようになっている。スイッチ６３がオフとなることによって、信号線６２ｂが遮断されて、情報処理装置２０の制御部２１が制御部１を介して記録部６にアクセスすることができなくなるようになっている。

書込み許可制御部１ｅは、学習結果によって個人辞書を更新する期間が判定部１ｂによって指定されると、スイッチ６３をオフにして情報処理装置２０の制御部２１から記録部６へのアクセスを遮断するようになっている。これにより、記録部６のマウントは解除される。書込み許可制御部１ｅは、記録部６のマウント解除後に、記録部６を書込み許可に設定した後スイッチ６３をオンにして記録部をマウントさせて、個人辞書の更新を可能にする。また、書込み許可制御部１ｅは、個人辞書の更新が終了すると、スイッチ６３をオフにして記録部６のマウントを解除して記録部６を読み取り専用に再設定した後、スイッチ６３をオンにして記録部６をマウントさせるようになっている。

即ち、本実施の形態においては、情報処理装置２０に対するユーザ操作によって直接記録部６を書込み許可に設定することはできない。また、記録部６を書込み許可にするために、ＵＳＢ通信部５ａと通信部２２との間のＵＳＢケーブルの接続を切断して記録部６をアンマウントする必要はなく、判定部１ｂが個人辞書の更新期間を判定することで、自動的にアンマウント処理及びマウント処理が行われるようになっている。これにより、ユーザが記録部６の書込み許可期間を把握することは困難であり、記録部６を介した情報の流出が防止される。

次に、このように構成された実施の形態の動作について図７のフローチャートを参照して説明する。図７は収音装置の動作を説明するためのフローチャートである。図７において図４と同一の手順には同一符号を付して説明を省略する。

本実施の形態においては、図７に示すように、図４のフローにステップＳ４１〜Ｓ４４の処理を付加した点が第１の実施の形態と異なる。専有者が不一致の場合の動作は第１の実施の形態と同様である。専有者同一の場合には、学習結果の更新が行われることから、記録部６の読み取り専用設定と書込み許可設定とを切換えるために、アンマウント処理及びマウント処理が行われる。

即ち、書込み許可制御部１ｅは、ステップＳ１２において、学習結果に基づく個人辞書部６ｂの更新要求が発生した場合には、ステップＳ４１に処理を移行して、スイッチ６３をオフにして記録部６のアンマウント処理を実行する。書込み許可制御部１ｅは、記録部６のアンマウント後に、記録部６を書込み許可に設定し（ステップＳ１３）、次いでスイッチ６３をオンにして記録部６を再度マウントさせる（ステップＳ４２）。これにより、情報処理装置２０の制御部２１は、記録部６へのアクセスが可能となり、学習結果に基づく個人辞書の更新データを通信部２２、ＵＳＢ通信部５ａ及び制御部６１を介して記録部６に与えて、個人辞書部６ｂを更新する（ステップＳ１４）。

個人辞書の更新が終了すると、書込み許可制御部１ｅは、記録部６を再度読み取り専用に設定するために、ステップＳ４３おいてスイッチ６３をオフにして記録部６のアンマウント処理を実行する。書込み許可制御部１ｅは、記録部６のアンマウント後に、記録部６を読み取り専用に設定し（ステップＳ１５）、次いでスイッチ６３をオンにして記録部６を再度マウントさせる（ステップＳ４４）。これにより、情報処理装置２０の制御部２１は、記録部６に対して読み取り専用でアクセス可能となる。

なお、このような更新処理を行う場合でも、ＵＳＢケーブルの接続を切断する必要がないことから、収音装置６０は継続して収音及び音声信号の送信処理を行うことが可能である。

他の作用は第１の実施の形態と同様である。

このように本実施の形態においては、収音装置の記録部が情報処理装置のスレーブとして動作する場合でも、学習結果に基づく個人辞書の更新データの書込みに際して、記録部に対してアンマウント処理及びマウント処理を行うことで、記録部の読み取り設定と書込み許可設定とを切換えることを可能にしている。これにより、本実施の形態においても、第１の実施の形態と同様の効果を得ることができる。また、ＵＳＢケーブルの接続を切断することなく、記録部の設定変更が可能であり、収音及び音声信号の送信機能を継続させることができると共に、ユーザに書込み許可期間を把握させることがないので、情報の流出を抑制しやすいという利点がある。

なお、本実施の形態においては、スイッチ６３によって制御部２１から記録部６に対するアクセスを遮断することによりアンマウント処理を行ったが、制御部１において、ＵＳＢ通信を一時的に遮断することで、アンマウント処理を行うようにしてもよい。

（変形例）
図８及び図９は変形例を示すフローチャートである。図８は収音装置の動作を示し、図９はディクテーション処理を図示しないクラウド上のコンピュータにおいて実施する場合のディクテーション動作を示している。図８及び図９において夫々図４及び５と同一の手順には同一符号を付して説明を省略する。

図８では図４のステップＳ２の専有者確認処理に代えてステップＳ４１におけるユーザ情報照合処理が設けられている。また、図９では図５のステップＳ２１の専有者確認処理に代えてステップＳ５１におけるユーザ情報照合処理が設けられている。一般的に、クラウド上のコンピュータシステムを利用してディクテーションを行う場合には、各ユーザ毎に専用の記録領域が確保されているものと考えられる。従って、収音装置１０の使用者と専有者とが一致している場合には、第１の実施の形態における専有者同一の場合と同様の動作が行われる。

ユーザ専用の記録領域を利用するために、収音装置１０の制御部１はステップＳ４１においてユーザ情報の照合処理を行い、クラウド上のコンピュータはステップＳ５１においてユーザ情報の照合処理を行う。この照合処理によって、クラウド上のコンピュータは、収音装置１０の専有者用の記録領域を利用してディクテーションを行う。

即ち、収音装置１０においては、図８に示すように、図４のステップＳ４〜Ｓ８は省略されて、ステップＳ１１〜Ｓ１６の処理のみが行われる。また、クラウド上のコンピュータにおいては、図９に示すように、図５のステップＳ２３−Ｓ２５，Ｓ３３，Ｓ３４は省略されて、ステップＳ２６〜Ｓ３２，Ｓ３５の処理のみが行われる。

他の作用は第１の実施の形態と同様である。

このようにクラウド上のコンピュータシステムを用いてディクテーションを行う場合でも、学習結果を収音装置１０に記録することができ、次回のディクテーション時に他人のパーソナルコンピュータや共有パーソナルコンピュータを使用する場合でも、音声認識性能を向上させて確実なディクテーションを行うことができる。

なお、ＵＳＢ接続を行う収音装置６０を情報処理装置２０を介してクラウド上のコンピュータに接続し、クラウド上のコンピュータを利用してディクテーションを実行することも可能である。この場合には、収音装置６０は、図７のフローチャートのステップＳ２の専有者確認処理に代えてユーザ情報照合処理を実施すると共に、専有者同一の場合の処理のみを採用すればよいことは明らかである。
また、上記各実施の形態においては、収音装置は、収音した音声にノイズキャンセル処理や所定の音質調整した後の音声データを、情報処理装置にそのまま出力する例について説明したが、個人辞書を有していることから、個人辞書を用いて専有者の発声の特徴を補正した後、情報処理装置２０に出力するようになっていてもよい。この場合には、情報処理装置において、個人辞書を用いることなく、高精度の音声認識処理が可能となる可能性がある。
また、上記各実施の形態の形態においては、収音装置と情報処理装置の専有者が不一致の場合に個人辞書を収音装置から情報処理装置に転送し、専有者同一の場合に個人辞書の更新データを情報処理装置から収音装置に転送する例について説明したが、収音装置は、情報処理装置に接続されたことによって個人辞書を情報処理装置に転送するようになっていてもよく、ユーザ情報に拘わらず情報処理装置からの要求に従って個人辞書を情報処理装置に転送するようになっていてもよい。また、情報処理装置は、収音装置に接続されたことによって個人辞書の更新データを収音装置に転送するようになっていてもよく、ユーザ情報に拘わらず収音装置からの要求に従って個人辞書の更新データを収音装置に転送するようになっていてもよい。

本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。例えば、ディクテーションに限らず、音声による機器の操作などにも使える。また、翻訳機などを併用したり音声出力装置と組み合わせたりして、コミュニケーションや、検索機能の補助、ロボットとの会話も行うことが可能となる。つまり、収音部と、前記収音部において収音された音声に対する音声認識処理に用いる個人辞書を記録する記録部とを具備して、音声認識による機器操作やコミュニケーション補助を円滑に行うことが出来る。

なお、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。また、これらの動作フローを構成する各ステップは、発明の本質に影響しない部分については、適宜省略も可能であることは言うまでもない。

なお、ここで説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、半導体やその他の記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。また、外部の機器が必要に応じて連携し、いくつかの機能や判断の代役を果たしてもよい。

１制御部、１ａ，２１ａ…ユーザ登録部、１ｂ…判定部、１ｃ…提供部、１ｄ…書込み許可制御部、２…収音部、２ａ…マイク部、２ｂ…指向性制御部、２ｃ…ＮＲ部、２ｄ…ノイズ判定部、３…操作部、４…姿勢判定部、５，２２…通信部、６…記録部、６ａ，２４ｄ…ユーザ情報部、６ｂ，２４ａ…個人辞書部、７…音質調整部、９…時計部、１０…収音装置、２０…情報処理装置、２１…制御部、２１ｂ…記録制御部、２１ｃ…ドキュメント化部、２３…テキスト化部、２４…記録部、２４ｂ…テキスト化辞書部、２４ｃ…フォーマット情報部、２６…表示部。

Claims

音を収音するマイクロホンにより構成された収音部と、
前記収音部において収音された音声に対するディクテーション時の音声認識処理に用いる個人辞書を記録する記録部と、
前記収音部において収音された音声に対するディクテーションを実行する情報処理装置への前記個人辞書の提供を制御する制御部と、
前記収音部において収音された音声を前記情報処理装置に送信すると共に、前記制御部に制御されて前記個人辞書を前記情報処理装置に送信する通信部と、を具備し、
前記制御部は、前記情報処理装置のユーザ情報に基づいて、前記情報処理装置への前記個人辞書の提供の可否を決定することを特徴とする収音装置。
前記制御部は、前記情報処理装置の要求に基づいて、前記情報処理装置への前記個人辞書の提供の可否を決定することを特徴とする請求項１に記載の収音装置。
前記情報処理装置の音声認識処理における学習の結果更新された個人辞書の更新データの記録の可否を判定する判定部と、
前記記録部を読み取り専用に設定すると共に、前記判定部によって前記更新データの記録可が判定された期間にのみ前記記録部を書き込み許可に設定する書込み許可制御部とを具備したことを特徴とする請求項１又は２に記載の収音装置。
前記判定部は、前記情報処理装置のユーザ情報に基づいて、前記更新データの記録の可否を判定することを特徴とする請求項３に記載の収音装置。
前記判定部は、前記情報処理装置の要求に基づいて、前記更新データの記録の可否を判定することを特徴とする請求項３に記載の収音装置。
前記記録部は、前記情報処理装置によってマウントされ、
前記書込み許可制御部は、読み取り専用の設定と前記書き込み許可の設定との切換えに際して、前記記録部のマウントを一時的に解除することを特徴とする請求項３に記載の収音装置。
マイクロホンにより構成された収音部によって音を収音する手順と、
前記収音部において収音された音声に対するディクテーションを実行する情報処理装置の前記ディクテーションにおいて採用される音声認識処理に用いる個人辞書の前記情報処理装置への提供の可否を判定する手順と、
前記収音部において収音された音声を前記情報処理装置に送信すると共に、前記提供の可否の判定結果に基づいて、前記個人辞書を前記情報処理装置に送信する通信手順とを具備し、
前記提供の判定する手順は、前記情報処理装置のユーザ情報に基づいて、前記個人辞書の前記情報処理装置への提供の可否を判定することを特徴とする収音方法。
コンピュータに、
マイクロホンにより構成された収音部によって音を収音する手順と、
前記収音部において収音された音声に対するディクテーションを実行する情報処理装置の前記ディクテーションにおいて採用される音声認識処理に用いる個人辞書の前記情報処理装置への提供の可否を判定する手順と、
前記収音部において収音された音声を前記情報処理装置に送信すると共に、前記提供の可否の判定結果に基づいて、前記個人辞書を前記情報処理装置に送信する通信手順とを実行させるための収音プログラム。
収音部を有する収音装置から送信された音声を受信する手順と、
前記収音装置から前記音声に対するディクテーションにおいて採用する音声認識処理に用いる個人辞書を受信する手順と、
受信した音声に対するディクテーション処理によってドキュメントを生成する手順と、
生成されたドキュメントに対する学習処理の結果更新した個人辞書の更新データを前記収音装置に送信する手順と、を具備し、
前記個人辞書を受信する手順は、前記収音装置のユーザ情報に基づいて、前記個人辞書の受信の可否を決定することを特徴とするディクテーション方法。
前記送信する手順は、前記収音装置のユーザ情報に基づいて、前記更新データの前記収音装置への送信の可否を決定することを特徴とする請求項９に記載のディクテーション方法。
音を収音するマイクロホンにより構成された収音装置と通信する通信部と、
前記収音装置において収音された音声に対するディクテーションを実行するために前記ディクテーションにおいて採用される音声認識処理に用いる個人辞書を上記通信部を介して取得する制御部と、を具備し、
前記制御部は、前記収音装置のユーザ情報に基づいて、前記個人辞書の取得の可否を決定することを特徴とする情報処理装置。