JP2018191234A

JP2018191234A - 音声取得機器、音声取得方法、および音声取得用プログラム

Info

Publication number: JP2018191234A
Application number: JP2017094457A
Authority: JP
Inventors: 一崇田中; Kazutaka Tanaka
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2017-05-11
Filing date: 2017-05-11
Publication date: 2018-11-29
Also published as: US20180330742A1

Abstract

【課題】人が音声を聴いてトランスクリプトを作成する場合と、音声認識を用いて音声データからトランスクリプトを作成する場合で、それぞれの特性に相応しい音声記録を行うようにした音声取得機器、音声取得方法、および音声取得用プログラムを提供する。【解決手段】収音部により録音を行い、音声データを記録する場合には、音声認識を行う場合か（Ｓ５Ｎｏ）、人によるトランスクライバーを行う場合か（Ｓ５Ｙｅｓ）のいずれであるかを判定し、この判定結果に応じて、音質調整部における音質調整を異ならせる（Ｓ９、Ｓ１０、Ｓ１９、Ｓ２０）。【選択図】図４Ａ

Description

本発明は、音声を音声認識または人によって文字に書き起こす音声取得機器、音声取得方法、および音声取得用プログラムに関する。

従来より、例えばＩＣレコーダ等の音声記録装置によって利用者が音声データを記録しておき、この音声データを再生し、この再生音を聞きながらその口述内容をタイプ打ちして文書にする所謂トランスクリプションが企業、病院、弁護士事務所等で行われている。また、近年、音声認識技術が向上してきており、音声を記録した音声データを解析し、文書を作成するディクテーションも可能になってきている。なお、本明細書では、トランスクリプションを行う者をトランスクリプショニスト、またトランスクリプションを行うに適した装置をトランスクライバー装置という。また、音声認識を用いて文書を作成する装置をディクテーション装置という。さらに、トランスクライバー装置またはディクテーション装置によって音声をテキストまたは文書に変換されたものをトランスクリプトという。

トランスクリプショニストがトランスクライバー装置を用いて、記録された音声データを再生し、この再生音を聴きながら文書を作成する場合（トランスクリプション）に、音声を明瞭に聴くことができるようにした技術が提案されている（例えば、特許文献１参照）。さらに、音声からノイズを除去する技術も種々提案されている。

特開平６−１７５６８６号公報

音声認識を用いて機械的に音声を文書化する際に誤りが少なくなるようする音声処理技術（例えば、ノイズ除去）と、人が再生音を聴いて音声を文書化する際に明瞭な音声を再生するための音声処理技術（例えば、ノイズ除去）は、異なっている。例えば、人がトランスクライバー装置を用い、再生音を聴いて文書化する場合には、ノイズ音を極力除去し、明瞭な音声にした方がよい。一方、機械（ディクテーション装置）で音声認識を用いて文書化する場合には、ノイズ除去を極端に行うと、音声の特徴が失われ認識率が低下してしまう。

本発明は、このような事情を鑑みてなされたものであり、人が音声を耳で聴いてトランスクリプトを作成にする場合と、機械が音声認識を用いて音声データからトランスクリプトを作成するにする場合で、それぞれの特性に相応しい音声記録を行うようにした音声取得機器、音声取得方法、および音声取得用プログラムを提供することを目的とする。

上記目的を達成するため第１の発明に係る音声取得機器は、音声を音声データに変換するための収音部と、上記音声データの音質を調整する音質調整部と、を有し、上記音質調整部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、音質調整を異ならせる。

第２の発明に係る音声取得機器は、上記第１の発明において、上記音質調整部は、音声データに重畳するノイズ成分の除去の調整、または周波数帯域の調整を行い、さらに、上記音質調整部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、ノイズ成分の除去の程度、ノイズ成分の除去の仕方を異ならせる、または周波数帯域の範囲を異ならせる。
第３の発明に係る音声取得機器は、上記第１の発明において、上記収音部の収音特性に関する収音特性情報および／または修復情報を記憶する記憶部を有し、上記音質調整部は、上記収音特性情報および／または修復情報に基づいて音質調整を異ならせる。

第４の発明に係る音声取得機器は、上記第１の発明において、上記音質調整部は、音声データに重畳するノイズ成分の除去を行い、さらに、除去された上記ノイズ成分を記憶する第２記憶部を有する。
第５の発明に係る音声取得機器は、上記第１の発明において、上記収音部は、その指向範囲を異ならせることができ、上記音質調整部は、上記収音部の指向範囲に応じて音質調整を異ならせる。

第６の発明に係る音声取得機器は、上記第１の発明において、上記音質調整部によって調整された音声データを記録する記録部を有し、上記記録部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合のそれぞれに相応しい音質調整を行った音声データを、２系統並行して記録する。

第７の発明に係る音声取得方法は、音声を音声データに変換し、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、上記音声データの音質調整を異ならせる。

第８の発明に係る音声取得用プログラムは、音声取得機器内のコンピュータに音声取得を実行させるための音声取得用プログラムにおいて、音声を音声データに変換し、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、上記音声データの音質調整を異ならせる。

本発明によれば、人が音声を聴いてトランスクリプトを作成する場合と、音声認識を用いて音声データからトランスクリプトを作成する場合で、それぞれの特性に相応しい音声記録を行うようにした音声取得機器、音声取得方法、および音声取得用プログラムを提供することができる。

本発明の一実施形態に係るディクテーション・トランスクライバーシステムの主として電気的構成を示すブロック図である。本発明の一実施形態に係る情報取得機器の内部構成を示す断面図である。本発明の一実施形態に係る情報取得機器によって、ノイズと音声を分離して取得する電気回路の構成を示すブロック図である。本発明の一実施形態に係る情報取得機器におけるメイン動作を示すフローチャートである。本発明の一実施形態に係る情報取得機器におけるメイン動作を示すフローチャートである。本発明の一実施形態に係るディスクリプション部および再生記録機器の動作を示すフローチャートである。本発明の一実施形態に係るディスクリプション部おける機械式音声認識の動作を示すフローチャートである。本発明の一実施形態において、人が音声を聴いて行うトランスクライバーの動作を示すフローチャートである。本発明の一実施形態において、ノイズ除去を説明するグラフである。本発明の一実施形態において、音声ファイルのファイル構造を示す図である。本発明の一実施形態において、情報取得機器の設置に応じたモード設定を説明する図である。

以下、本発明の一実施形態としてディクテーション・トランスクライバーシステムに本発明を適用した例について説明する。このディクテーション・トランスクライバーシステムは、図１に示すように、情報取得機器１０と、ディクテーション部２０と、ドキュメント３０と、再生記録機器４０とから構成される。

本実施形態においては、情報取得機器１０はＩＣレコーダを用いる例について説明するが、情報取得機器１０としてはＩＣレコーダに限らず、スマートフォン、パーソナルコンピュータ（ＰＣ）、タブレット等、録音機能を有する機器であればよい。また、ディクテーション部２０、ドキュメント３０、再生記録機器４０は、本実施形態においては、パーソナルコンピュータ（ＰＣ）５０がこれらの機能を兼ね備える。しかし、ディクテーション部２０は専用機器であってもよく、情報取得機器１０がディクテーション部２０を兼用するようにしてもよい。また、ドキュメント３０は、ＰＣ５０内のメモリに記憶されるが、これに限らず、専用のハードディスク等のメモリであってもよい。さらに、情報取得機器１０と再生記録機器４０を同一の装置内に設けてもよく、また情報機器１０とディクテーション部２０を同一の装置内に設けてもよい。

また、本実施形態のようにスタンドアロンで構成されたディクテーション・トランスクライバーシステムに限らず、ディクテーション部２０、ドキュメント部３０、再生記録機器４０の全部または一部を、インターネットを介して接続するようにしてもよい。この場合、各部の全部または一部をクラウド内のサーバーが担うようにしてもよい。また、各部の全部または一部を、企業、病院、法律・特許事務所、建築・建設事業者、官公庁等内のイントラネットに接続し、イントラネット内のサーバーが担うにようにしてもよい。

情報取得機器１０は、収音部２によって音声データを取得し、取得した音声データに対して、設定されたトランスクリプトの種類等に応じた最適な特性を有する音声データとなるように処理を施す。

情報取得機器１０内の収音部２は、マイクロフォン、音声処理回路等を有し、マイクロフォンで取集した音声をアナログ信号に変換し、増幅等のアナログ音声処理後に、アナログデジタル変換し、デジタル化した音声データを制御部１に出力する。本実施形態におけるマイクロフォンは、図２を用いて後述するように、ノイズ除去用（ＮＲ用）マイクが配設されている。このため、ユーザがマイクロフォンの極近傍で音声の吹込みを行い、息や風があたることによって生ずるポップノイズのような雑音を除去することができる。収音部２は、音声を音声データに変換するための収音部として機能する。また、収音部は、その指向範囲を異ならせることができる。

記録部３は、電気的書き換え可能な揮発性メモリおよび電気的書き換え可能な不揮発性メモリを有する。この記録部３は、収音部２によって取得され制御部１等によって音声データ処理が施された音声データを記録する。また、後述する音質調整部７において使用される各種調整値等を記憶する。なお、音質調整部７において使用される各種調整値は、フィルタ情報部９において記憶するようにしてもよい。また、記録部３は、制御部１内のＣＰＵ（Central Processor Unit）におけるプログラムを記憶する。なお、音声データは通信部５を介して外部の記録部４３に記録することにして、情報取得機器１０内に記録部３の配置を省略してもよい。

記録部３（フィルタ情報部７）は、収音部の収音特性に関する収音特性情報および／または修復情報を記憶する記憶部として機能する。記録部３は、音質調整部によって調整された音声データを記録する記録部として機能する。この記録部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合のそれぞれに相応しい音質調整を行った音声データを、２系統並行して記録する（図４ＡのＳ７以下の録音と、Ｓ１７以下の録音を並行して行う）。

姿勢判定部４は、ジャイロ、加速度センサ等を有し、情報取得機器１０に加えられた動き（振動）を検出し、および／または情報取得機器１０の姿勢、例えば情報取得機器１０の長手方向が鉛直方向であるか水平方向であるか等の姿勢情報を検出する。図１０を用いて後述するように、情報取得機器１０がスタンドに設置された否かは、姿勢判定部４によって検出された手ブレ情報に基づいて判定する。

通信部５は、送信回路／受信回路等の通信回路を有し、ディクテーション部２０の通信部２２、および再生記録機器４０の通信部４１と通信を行う。ディクテーション部２０および再生記録機器４０との通信は、通信用ケーブルによって電気的に接続し、有線通信を行ってもよく、また電波、光等を用いた無線通信を行ってもよい。

操作部６は、音声記録を開始する録音釦等の操作釦を有し、また録音時の各種モードを設定するための複数のモード設定釦を有する。モード設定としては、録音範囲の指向性を設定するモード、ノイズ除去のレベルを設定するモード、人または機械式（音声認識利用）によるトランスクリプトに適した録音を設定するトランスクリプト設定モード等がある。また、ディクテーション部２０や再生記録機器４０等の外部機器に音声ファイルを送信するための送信釦等も有する。

本実施形態においては、モード設定は、ユーザがＰＣ５０のモニタ画面の表示を見ながら、操作部６の操作釦を操作することによって設定する。指向性とトランスクリプト設定モードの組み合わせは、しばしば使用されることから、本実施形態においては、下記のように簡便な方法で設定できるようにしている。すなわち、指向性が広範囲の第１モード、指向性が狭範囲で機械式トランスクリプトの第２モード、指向性が狭範囲で人によるトランスクリプトの第３モードを用意しておく。そして、操作部６の複数の操作釦の内の第１及び第２の操作釦が同時押しされた際に、所定時間間隔で第１モードから第３モードをサイクリックに順次変化し（ＬＥＤ等の表示部によって表示する）、ユーザが設定を希望するモードとなった際に、操作釦の同時押しを解除する。

音質調整部７は、音質調整回路を有し、収音部２によって取得された音声データの音質をデジタル的に調節する。音質調整部７は、音声認識によって音声をテキスト（音素）に変換する場合に、音素を認識しやすいように、音質を調整する。なお、音素は、音声学上の最小単位であり、母音や子音等の一音に対応し、通常、発音記号（音声記号、音素記号）の一文字に対応する。

音質調整部７は、例えば、音声データに含まれるノイズを除去する。ノイズ除去のレベルは、後述するように、機械式音声認識によるか人によるトランスクライバーによって異ならせる（図４ＡのＳ９、Ｓ１９等参照）。ノイズ除去を、ノイズデータに重み付け係数（１より小さい）を乗算してデータを入力音声データから減算することによって達成する場合には、重み付け係数の値を変えることによって、ノイズ除去のレベルを変更することができる。すなわち、重み付け係数の値が大きいとノイズ除去が強く、一方、重み付け係数の値が小さいとノイズ除去が弱くなる。

また、音質調整部７は、音声データの周波数帯域を変更することにより音声調整を行う。例えば、ディクテーション部２０（ディクテーション装置）によって音声認識を行い、トランスクリプトを作成する場合には、音質調整部７は２００Ｈｚ〜１０ｋＨｚの音声帯域の音声データとする。一方、再生記録装置４０（トランスクライバー装置）によって人が音声を聴いてトランスクリプトを作成する場合には、音質調整部７は４００Ｈｚ〜８ｋＨｚの音声帯域の音声データとする。母音を発音する際に人は共振の特性を変えているが、この振幅スペクトルのピークである共振周波数をフォルマント周波数と呼び、共振周波数の低い方から順に第１フォルマント、第２フォルマント等と呼ぶが、母音の第１フォルマントが４００Ｈｚ近辺にあり、第２フォルマントが変化して音声が認識されているということから、人が音声を聴く場合には、このあたりの周波数を重視し、低周波数と高周波数をなるべくカットした方が聴き易く、一方、機械が音声認識する場合にはカットする周波数領域が広いと、検出する周波数分布のパターン等が崩れ、音素として認識することが困難になるからである。なお、前述の周波数帯域は例示であり、記載の数値に限定されないが、ディクテーション装置の方がトランスクライバー装置よりも低周波数まで記録できるようにすることが望ましい。

また、音質調整部７は、音声入力を行う個人毎にトランスクリプトを行うに最適な音質となるように調整を行ってもよい。同じ文字を発声する場合でも、発音には個人差があることから、予め個人別特性を記録しておき（図４ＢのＳ４１〜Ｓ４９参照）、この個人別特性を読出して、音声認識を行うようにしてもよい。また音質調整部７は、大人と子供、男性と女性、地域による方言、アナウンサー等の職業人と一般人等、種々の状況を自動認識または手動入力によって、音質調整を行うようにしてもよい。

音質調整部７は、音声データの音質を調整する音質調整部として機能する。この音質調整部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、音質調整を異ならせる（図４ＡのＳ９、Ｓ１９等参照）。また、この音質調整部は、音声データに重畳するノイズ成分の除去を行い、さらに、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、ノイズ成分の除去の程度、またはノイズ成分の除去仕方を異ならせる（図４ＡのＳ９、Ｓ１９等参照）。また、この音質調整部は、音声データの周波数帯域の調整を行い、さらに、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、周波数帯域の範囲を異ならせる（図４ＡのＳ１０、Ｓ２０等参照）。

また、音質調整部は、収音特性情報および／または修復情報に基づいて音質調整を異ならせる（図４ＡのＳ９、Ｓ１９等参照）。音質調整部は、音声データに重畳するノイズ成分の除去を行う。ディクテーション部は除去されたノイズ成分に基づいて音声データを復元し、この復元した音声データに基づいて、音声認識を行う。音質調整部は、収音部の指向範囲に応じて音質調整を異ならせる。

時計部８は、計時機能やカレンダ機能を有する。制御部１は時計部８から日時情報等を入力し、音声データを記録部３に記録する際に、併せて日時情報も記録する。日時情報を記録しておくことにより、後日、音声データを検索する際に、日時情報が記録されていると便利である。

フィルタ情報部９は、電気的に書き換え可能な不揮発性メモリを有し、図２を用いて後述するフィルタ部１０３、第２フィルタ部１０６の特性を記憶する。本実施形態におけるフィルタ部１０３、第２フィルタ部１０６を通すことにより、音質が変化してしまう。例えば、フィルタ部によって、特定周波数の音声データが減衰し、また周波数帯域が変化する。そこで、音質調整部７が音声の調整を行う際に、記憶された特性を用い、ディクテーション装置でトランスクリプトを作成するか、トランスクライバー装置を用いてトランスクリプトを作成するかに応じた最適な音質の調整を行う。なお、フィルタ情報部９で記憶しているフィルタ、マイク等の特性は、通信部５を介して、ディクテーション部２０等に送信される。

制御部１は、ＣＰＵとその周辺回路を有し、記録部３に記憶されたプログラムに従って、情報取得機器１０内の全体制御を行う。制御部１内には、モード切換部１ａとトラック入力部（フレーズ判定部）１ｂとを有し、これらの各部はＣＰＵとプログラムによってソフトウエア的に実現される。なお、制御部１内の周辺回路によってハードウエア的に実現するようにしても勿論かまわない。

モード切換部１ａは、ユーザが操作部６によって指定したモードを実行するように切り替えを行う。例えば、録音範囲が広範囲であるか狭範囲であるかの切り替え（図４ＡのＳ３参照）、トランスクライバー装置によって人がトランスクリプトを作成するか、ディクテーション装置によって音声認識を利用してトランスクリプトを作成するかのモードの切り替え設定（図４ＡのＳ５）等を行う。

トラック入力部１ｂは、ユーザの手動操作により音声の区切りの目印となる箇所にインデックスを記録する。インデックスの記録方式としては、これ以外にも、一定時間間隔で自動的にインデックスを記録してもよく、また、音声データに基づいて音声の区切れを検出し（フレーズ判定）、インデックスを記録してもよい。音声データを記録する際にこの区切れ（インデックス）も記録する。また、インデックスの記録の際に、時計部８からの録音日時情報も記録しておいてもよい。インデックスを記録しておくことにより、後で音声を聴きながら頭出する際に便利である。

なお、図１に示した情報取得機器１０内には、録音機能のみを有しているが、録音機能のみならず、記録部３に記録した音声データを再生する機能を設けてもよい。この場合には、音声再生回路、スピーカ等を追加すればよい。また、操作部６に、音声再生を行うための再生釦、早送りを行うための早送り釦、早戻しを行うための早戻り釦等を追加すればよい。

ディクテーション部２０は、前述したディクテーション装置に相当し、情報取得機器１０によって取得された音声データを、音声認識を利用して、機械式で文書化する。前述したように、ディクテーション部２０は、専用機器としてもよいが、本実施形態においては、ＰＣ５０によって実現している。

通信部２２は、送信回路／受信回路等の通信回路を有し、情報取得機器１０の通信部５と通信を行い、情報取得機器１０によって取得された音声データ等を受信する。情報取得機器１０との通信は、通信用ケーブルによって電気的に接続し、有線通信を行ってもよく、また電波、光等を用いた無線通信を行ってもよい。なお、通信部２２は、情報取得機器１０から、マイク、フィルタ等の特性や、個人別特性等、音声認識の際に使用する情報を受信し、記録部２５に記憶する。

時計部２３は、計時機能やカレンダ機能を有する。制御部２１は時計部２３から日時情報等を入力し、ドキュメント化部２１ｂによってドキュメントを作成する場合に、作成日時情報等を記録する。

テキスト化部２４は、情報取得機器１０によって取得された音声データから音声認識を用いてテキストデータを生成する。このテキストデータの生成については、図６を用いて後述する。なお、テキスト化部２４は、制御部２１によってソフトウエア的に実現してもよく、またテキスト化部２４においてハードウエア的に実現してもよい。

記録部２５は、電気的に書き換え可能な不揮発性メモリを有し、音声テキスト化辞書２５ａ、フォーマット情報２５ｂ、音声処理テーブル２５ｃ等を記憶するための記憶領域を有する。これ以外にも音素フーリエ変換したデータを音素と一致しているか否かを判定するための音素辞書も有する（図６のＳ８５、Ｓ８９参照）。なお、記録部２５は、これらの記憶領域以外にも、制御部２１内のＣＰＵを動作させるためのプログラム等、種々の情報を記憶するための記憶領域を有する。

音声テキスト化辞書２５ａは、音声データから音素を抽出し、これらの音素の組み合わせを文字に置き換える際に使用される辞書である（図６のＳ９３、Ｓ９７、Ｓ９９参照）。また、文字の組み合わせを単語として認識する際に使用される辞書である（図６のＳ１０１、Ｓ１０９参照）。

フォーマット情報２５ｂは、ドキュメントを作成する際のフォーマット情報である。ドキュメント化部２１はフォーマット情報２５ｂに従って、テキストがフォーマットし、ドキュメント３０を作成する（図５のＳ７１参照）。

音声テーブル２５ｃは、マイク等の特性情報である。テキスト化部２４において音声データから音素等に変換する際に、音声テーブル２５ｃに記憶されたマイク等の特性を読出し、この情報を用いて変換する。その他、音声テーブル２５ｃには、音声データから音素に変換する際に使用する情報が、マイク毎に記憶されている。また、特定の個人毎に音声の特性を記憶するようにしてもよい。

表示部２６は、表示制御回路と表示モニタを有し、ＰＣ５０の表示部を兼用してもよい。この表示部２６には、操作部６によって設定される各種モードや、またドキュメント化部２１ｂによって作成されたドキュメントが表示される。

制御部２１は、ＣＰＵとその周辺回路を有し、記録部２５に記憶されたプログラムに従って、ディクテーション部２０の全体制御を行う。制御部２１内には、ドキュメント化部２１ｂを有し、このドキュメント化部２１ｂはＣＰＵとプログラムによってソフトウエア的に実現される。なお、制御部２１内の周辺回路によってハードウエア的に実現するようにしても勿論かまわない。また、ディクテーション部２０がＰＣ５０によって実現される場合には、制御部２１はＰＣ５０のＣＰＵ等を含む制御部が機能を兼ねるようにしてもよい。

ドキュメント化部２１ｂは、テキスト化部２４によって変換されたテキストを、フォーマット情報２５を用いて、ドキュメントを作成する（図５のＳ７１参照）。ドキュメント３０は、ドキュメント化部２１ｂによって作成されたドキュメントの一例を示す。ドキュメント３０に示す例は、病院で作成されるカルテであり、音声データに基づくテキストから、患者の氏名（またＩＤ）、年齢、性別、患部の部位、医師の所見、作成日（音声の記録日時、ドキュメントの作成日時）等が抽出されて掲載される。

再生記録機器４０は、前述のディクテーション装置に相当し、人が音声を聴き、この音声に基づいて文書を作成する。すなわち、タイピスト５５は、再生記録機器４０によって音声を再生させ、入力部４４のキーボードで文字を入力することによってトランスクリプト（ドキュメント）を作成することができる。

通信部４１は、送信回路／受信回路等の通信回路を有し、情報取得機器１０の通信部５と通信を行い、情報取得機器１０によって取得された音声データ等を受信する。情報取得機器１０との通信は、通信用ケーブルによって電気的に接続し、有線通信を行ってもよく、また電波、光等を用いた無線通信を行ってもよい。

音声再生部４２は、音声再生回路やスピーカ等を有し、情報取得機器１０が取得した音声データを再生する。再生の際には、トラック入力部１ｂによって設定されたインデックス等を利用すると便利である。再生の操作用に、再生記録機器４０は再生釦、早送り釦、早戻し釦等の操作部材を有する。

入力部４４は、キーボード等であり、文字入力が可能である。再生記録機器４０をＰＣ５０が兼ねる場合には、ＰＣ５０のキーボードであってもよい。また、記録部４３は、入力部４４によって入力された文字等の情報（ドキュメント、トランスクリプト）を記録する。その他、情報取得機器１０から送信されてきた音声データも記録可能である。

次に、図２を用いて情報取得機器１０内の収音部２に設けられたマイクロフォンについて説明する。図２は、ノイズ除去（ＮＲ）用マイクロフォンの併設時における２つのマイクロフォンの配置とその保持構成を示す断面図である。

第１マイク１０２は、情報取得機器１０の前面からの音声を取得するためのマイクロフォンである。第１マイク１０２は、筐体１０１内に配置され、弾性保持部１０２ｂによって保持されている。すなわち、弾性保持部１０２ｂの一端は筐体１０１に固定され、第１マイク１０２は、弾性保持部１０２ｂによって空中に吊られている状態である。弾性保持部１０２ｂは、ユーザの指のこすれ音等が筐体１０１を通じ第１マイク１０２によって収音されるのを軽減する。

第１マイク１０２は、収音範囲１０２ｃの範囲の音声を収音することができる。この収音範囲１０２ｃの近傍で距離Ｚｄ離れた位置にフィルタ部１０３が配置されている。フィルタ部１０３は、ユーザが第１マイク１０２に向かって発声した場合に息等のポップノイズを軽減するためのフィルタである。このフィルタ部１０３は、筐体１０１の四隅の角に、筐体１０１の水平線に対して収音角度θだけ斜めに配置されている。なお、収音範囲１０２ｃの広狭は、公知の方法によりユーザによって変化させることができる。

筐体１０１の厚みＺｍは、情報取得機器１０を小型にし、使いやすくするために、なるべく薄くしたい。しかし、第１マイク１０２とフィルタ部１０３の間の距離Ｚｄを短くすると声の気流の影響を受けてしまう。そこで、距離Ｚｄは声の気流の影響を受けない程度とし、厚みＺｍをなるべく薄くする。

第２マイク１０５は、情報取得機器１０の裏面（背面）からの環境音（雑音）を取得するためのマイクロフォンである。第２マイク１０５は、ユーザの音声ではなく、周囲にある環境音（雑音）を取得し、第１マイク１０２で取得した音声データから環境音を除くことにより、再生時に明瞭な音声とする。

第２マイク１０５は、筐体１０１内に配置されており、弾性保持部１０５ｂによって保持され、この弾性保持部１０５ｂを介して筐体１０１に固定されている。第２マイク１０５は、収音範囲１０５ｃの範囲の音声を収音することができる。また、第２マイク１０５の筐体１０１側に第２フィルタ部１０６が配置されている。第２フィルタ部１０６は、雑音除去のための特性がフィルタ部１０３と異なっている。

フィルタ部１０３と第２フィルタ部１０６によって、音声収集の際の特性が異なっており、さらに第１マイク１０２と第２マイク１０５の録音特性も異なっている。これらの特性を考慮した特性が、フィルタ情報部９に記憶される。フィルタ特性によって特定の周波数で音声が欠落してしまう場合があり、録音時にはこの情報を参照して、音質調整部７が音質調整を行う。

筐体１０１内には、前述の第１マイク１０２、第２マイク１０５等の部品の他、情報取得機器１０内の各部を構成する回路用の部品基板１０４等が配置されている。情報取得機器１０は、ユーザの口２０１が第１マイク１０２に向くように、ユーザの親指２０２と人差し指２０３で把持される。収音部の高さＹｍは、第２マイク１０５の第２フィルタ部１０２の一旦側から第１マイク１０２の第１フィルタ部１０３までの長さである。第２マイクの弾性保持部１０５ｂは第１マイク１０２とは異なるクッション材で高さ対策を行っている。すなわち、本実施形態においては、第２マイク１０５の弾性保持部１０５ｂは、モールド材のアーム構造とすることにより、第１マイク１０２の弾性保持部１０２ｂよりも長手方向を短く、高さＹｍを小さくし、小型化を図っている。

このように、情報取得機器１０内にはメインマイクとしての第１マイク１０２と、サブマイクとしての第２マイク１０５を備えている。サブマイクの第２マイク１０５と、メインマイクの第１マイク１０２は、同じ音源でからの音声であっても、微妙に音源までの距離がことなることから、２つの音声データに位相のずれが生ずる。この位相のずれを検出することによって、収音範囲を電気的に調整することが可能となる。すなわち、マイクロフォンの指向性を広げたり、狭くすることができる。

また、サブマイクの第２マイク１０５は、ノイズ等を含む環境音を主として収音する。そこで、メインマイクの第１マイク１０２の音声データから、サブマイクの第２マイク１０５の音声データを減算することにより、ノイズを除去し、声成分のみを抽出することもできる。

次に、図３を用いて、１つのマイクロフォンによって環境音（雑音）を除去し、声成分のみを抽出する声成分抽出部について説明する。声成分抽出部は、音質調整部７の一部である。前述したように、図２に示す情報取得機器１０は、第１マイク１０２および第２マイク１０５の２つのマイクロフォンからの音声信号を用いて、声成分のみを抽出することができる。しかし、図３に示すような声成分抽出部を用いることによって、１つのマクロフォンを設けるだけでもノイズを除去し、声成分を抽出することもできる。

図３に示す声成分抽出部１１０は、入力部１１１、特定周波数音声判定部１１２、振動変動予測部１１３、および減算部１１４を有し、これらの各部の全部または一部はハードウエア回路で構成され、またはソフトウエアによって実現される。

入力部１１１は、第１マイク１０２に相当するユーザの音声を取得するマイクロフォンによって変換された電気信号を入力し、増幅、ＡＤ変換等の種々の処理を施す。この入力部１１１の出力は特定周波数音声判定部１１２に接続されている。特定周波数音声判定部１１２は、ユーザの声以外の環境音（雑音）に相当する周波数成分を抽出し、振幅変動予測部１１３に出力する。

振動変動予測部１１３は、特定周波数音声判定部１１２によって抽出された周波数成分の判定結果に基づいて、所定時間後の振動を予測し、この予測値を減算部１１４に出力する。所定時間としては、入力部１１１から音声データが出力されてから、減算部１１４において減算を行うまでの遅れ時間程度であればよい。なお、リアルタイムで減算を行う場合には、所定時間は０または０に近い値でよい。

減算部１１４は、入力部１１１から出力される音声データに対し、振動変動予測部１１３から出力される特定周波成分の予測値を減算し、出力する。この減算値は、ユーザの音声から周囲の環境音（雑音）が除去された明瞭が音声に相当する。

このように、図３に示す声成分抽出部によってノイズ除去を行う場合には、情報取得機器１０の備えるマイクロフォンを１つに減らすことができる。このため、情報取得機器１０を小型化することができる。

なお、図２に示すように２つのマイクロフォンを設ける代わりに、第１マイク１０２のみとし、これに図３に示すような声成分抽出部を配設することによりノイズ除去を行うことについて説明した。しかし、この構成以外にも、図２に示す情報取得機器１０と、図３に示す声成分抽出部を組み合わせてもよい。この場合には、ノイズ除去を図３に示す声成分抽出部によって行い、サブマイクは位相を利用した収音範囲の調整を行う。また、図２におけるノイズ除去は、サブマイクで収音した環境音（ノイズ、全周波数）によって行っており、一方、図３におけるノイズ除去は、特定周波成分に着目して行っており、ノイズ除去の方法は異なっている。そこで、両者を組み合わせてノイズ除去を行うようにしてもよい。

次に、図４Ａおよび図４Ｂに示すフローチャートを用いて、情報取得機器１０における録音処理について説明する。このフローは、制御部１内のＣＰＵが記録部３内に記憶されたプログラムに従って情報取得機器１０内の各部を制御することにより実行される。

図４Ａのフローがスタートすると、まず録音か否かについて判定する（Ｓ１）。ここでは、ユーザが操作部６の録音釦を操作したか否かに基づいて判定する。

ステップＳ１における判定の結果、録音を開始する場合には、次に、指向性が強か否かについて判定する（Ｓ３）。ユーザは操作部６を操作することにより、第１マイク１０２の指向性の範囲を狭くする（指向性強）ことができる。このステップでは、マイクの指向性が狭く設定されているか否かについて判定する。なお、前述の第１モードが設定されている場合には、ステップＳ３において指向性弱と判断され、一方、第２、第３モードが設定されている場合には指向性強と判断される。

ステップＳ３における判定の結果、指向性が強い場合には、次に、トランスクライバーか否かの判定を行う（Ｓ５）。前述したように、トランスクリプトを作成するには、再生記録装置４０を用いて録音済みの音声を再生し、この再生音を聴いて人がキーボードによって文字を入力する方法（トランスクライバー：Ｙｅｓ）と、ディスクテーション部２０によって機械的に、すなわち音声認識を利用して、音声を自動的に文字に変換する方法（トランスクライバー：Ｎｏ）があり、本実施形態においては、いずれかを選択できるようにしている。なお、前述の第２モードが設定されている場合にはトランスクライバーＮｏと判断され、第３モードが設定されている場合にはトランスクライバーＹｅｓと判断される。

ステップＳ５における判定の結果、トランスクライバーでない場合、すなわち音声認識を利用してディスクテーション部２０によって音声データをテキストに変換する場合には、次に、ノイズ予測または判定を行う（Ｓ７）。ここでは、第２マイク１０５によって取得した環境音（雑音）に基づいて、ユーザの声の録音中におけるノイズの予測（判定）を行う。一般に、環境音（雑音）は定常的に同一レベルとなることから、録音開始時等に環境音（雑音）を測定すれば、十分である。但し、録音中もノイズ予測（判定）を行えば、ノイズ除去の精度を高くすることができる。また、上述の方法に代えて、または加えて、図３に示す声成分抽出部の特定周波数音声判定部１１２および振動変動予測部１１３を利用してノイズ予測を行ってもよい。

ノイズ予測または判定を行うと、次に、逐次適応型ノイズ除去を弱めて行う（Ｓ９）。ここでは、音質調整部７が、ノイズを逐次検出し、ノイズの状況に応じて逐次ノイズ除去を行う逐次適応型のノイズ除去の強度を弱くして行う。また音声認識を利用して音声データをテキストに変換する場合には、ノイズ除去の強度を強くすると、音声（音素）の波形が変化してしまい、音声認識を精度よく行うことができない。そこで、ノイズ除去の強度を弱くし、できるだけ元の音声波形を保つようにしている。このため、ディクテーション部２０で音声認識を行うに適したノイズ除去を行うことができる。

ステップＳ９における逐次適応型のノイズ除去は、音質調整部７が、図２に示すようなメインマイク（第１マイク１０２）の音声データから、サブマイク（第２マイク１０５）の音声データを減算することにより行う。この場合、サブマイクの音声データの値をそのまま減算するのではなく、重み付け係数を乗算した値を減算する。後述するステップＳ１９において逐次適応型ノイズ除去を行うが、ステップＳ１９の場合と比較し、乗算のための重み付け係数の値を小さくすることにより、ノイズ除去の強度を小さくする。

また、ステップＳ９においては、逐次適応型ノイズ除去に代えて、または加えて、個人別特徴強調型のノイズ除去を行ってもよい。個人別特徴強調型ノイズ除去は、音質調整部７がフィルタ情報部９（または記録部３）に記憶されている個人別の音声の特性に応じたノイズ除去を行う。また、マイク特性等、機器の特性に応じた録音調整を行うようにしてもよい。

ステップＳ９において、逐次適応型ノイズ除去を行うと、次に、周波数帯域調整を行う（Ｓ１０）。ここでは、音質調整部７、音声データの帯域の調整を行う。ディクテーション部２０によって音声認識を行うに相応しい音声データ（例えば、２００Ｈｚ〜１０ＫＨｚ）の音声帯域となるように音声処理を施す。

ステップＳ１０において、周波数帯域調整を行うと、次に、音素判定を行う際に使用する補完用除去ノイズを記録する（Ｓ１１）。ステップＳ９においてノイズ除去を行っている。音声データを用いて音素を判定する場合にはノイズを除去しすぎた場合には精度が低下する。そこで、このステップでは、除去したノイズを記録しておき、音素判定を行う場合には音声データを復元できるようにしている。復元にあたっては、最初から完全に復元しなくてもよく、徐々に元の波形に近づけた音声波形を生成し、音声波形を生成するたびに音素判定を行うようにしてもよい。ノイズ除去と補完用除去ノイズの記録の詳細については図８を用いて後述する。

除去ノイズを記録すると、次に、録音が終了か否かを判定する（Ｓ１３）。ユーザは録音を終了する場合には、録音釦等の操作部６の操作部材を操作する。このステップではこの操作状態に基づいて判定する。この判定の結果、録音終了でない場合には、ステップＳ７に戻り、音声認識によるトランスクリプト作成用（ディクテーション用）の録音を続行する。

ステップＳ１３における判定の結果、録音終了であった場合には、次に、音声ファイル化を行う（Ｓ１５）。録音中は、収音部２によって取得し音質調整部７でノイズ除去や周波数帯域調整等の音質調整がなされた音声データが一時記憶されている。録音が終了すると、一時記憶された音声データのファイル化を行い、生成された音声ファイルを記録部３に記録する。記録された音声ファイルは、通信部５を介してディテーション部２０および／または再生記録機器に４０に送信される。

また、ステップＳ１５における音声ファイル化の際に、マイク特性、修復情報も記録する。マイクの周波数特性等の各種特性に応じて音素判定や音声認識等を行うと、精度が向上する。また、ステップＳ１１において一時記憶した除去ノイズも音声ファイルを生成する際に併せて記録する。音声ファイルの構造については、図９を用いて後述する。

ステップＳ５に戻り、このステップにおける判定の結果がトランスクライバーの場合、すなわち再生記録装置４０によって、音声を再生し、この再生音を聴いて人がトランスクリプト（ドキュメント）を作成する場合には、まず、ノイズ予測、または判定を行う（Ｓ１７）。ここでは、ステップＳ７と同様に、ノイズ予測またはノイズ判定を行う。

続いて、逐次適応型ノイズ除去を行う（Ｓ１９）。ここでは、ステップＳ９と同様、ノイズを逐次検出し、ノイズを音声から減算する逐次ノイズ除去を行う。但し、ステップＳ９の場合に比較し、重み付け係数を大きくすることにより、ノイズ除去のレベルを強くし、明瞭な音声となるようにしている。ステップＳ１９における逐次適応型ノイズ除去は、トランスクライバーによってトランスクリプトを作成するにあたって、人が聴きとり易い音声となるようにノイズ除去を行う。音声認識を行う場合には、ノイズ除去を強くすると音声波形が本来の形よりゆがめられてしまい、音声認識の精度が低下するが、人が聴く場合には、ノイズが完全に除去された方が聴きやすいからである。

なお、ノイズ分を減算するにあたって、所定時間後を予測して行ってもよく（予測成分減算型ノイズ除去）、またはリアルタイムでノイズ除去を行ってもよく、状況に応じて適宜選択してもよい。例えば、ポケットに情報取得機器１０を入れて録音する際に、情報取得機器と服が擦れてノイズ音が発生する場合がある。このようなノイズ音は、時間と共に変動することから、このノイズ音の除去には予測成分減算型ノイズ除去が効果的である。

逐次適応型ノイズ除去を行うと、次に、周波数帯域調整を行う（Ｓ２０）。ステップＳ１０においても周波数帯域調整を行うが、このステップでは、再生記録装置４０によって、音声を再生する際に、聴きとり易く明瞭な音声となるような音声データ（例えば、４００Ｈｚ〜８ＫＨｚ）の音声帯域となるように音声処理を施す。

続いて、要所でインデックスを記録する（Ｓ２１）。ここでは、記録された音声データを再生する際の頭出し用のインデックスを記録する。すなわち、ユーザが頭出したい箇所で、操作部６の操作部材を操作するので、この操作に応じて、音声データにインデックスを付与する。

インデックスを付与すると、次に、録音終了か否かを判定する（Ｓ２３）。ここでは、ステップＳ１３と同様に、録音釦の操作状態に基づいて判定する。この判定の結果、録音終了でない場合には、ステップＳ１７に戻る。

一方、ステップＳ２３における判定の結果、録音終了でなかった場合には、音声ファイル化を行う（Ｓ２５）。ここでは、録音開始から録音終了までの間、一時記憶された音声データを音声ファイル化する。ステップＳ１５における音声ファイルは、音声認識によってトランスクリプトを作成するために、機械によって音声を認識するための情報（例えば、マイク特性、修復情報）を記録していた。しかし、音声認識が必要ないので、これらの情報を省略しても構わない。

ステップＳ３に戻り、このステップにおける判定の結果、指向性が強くない場合（指向性が広い）には、トランスクライバーを行うか否かに係りなく、また、特段のノイズ除去を行うことなく、ステップＳ３１以下において録音を行う。一般に、音声認識を利用して一人の話し手の音声からトランスクリプトを作成するためには、話し手の音声に集中するために指向性を強く（狭範囲）して行われる。これに対して、会議など周囲の音声を広範囲から収音する場合には、別モードで録音することが望ましい。

まず、ステップＳ２１と同様に、要所でインデックスを付与する（Ｓ３１）。前述したように、ユーザの指定に応じて、頭出し用にインデックスを音声データに付与する。続いて、録音終了か否かを判定する（Ｓ３３）。ここでは、ステップＳ１３、Ｓ２３と同様に、ユーザが録音終了のための操作をしたか否かに基づいて判定する。この判定の結果、録音終了でない場合には、ステップＳ３１に戻る。一方、ステップＳ３３における判定の結果、録音終了の場合には、ステップＳ２５と同様に、音声ファイル化を行う（Ｓ３５）。

ステップＳ１に戻り、このステップにおける判定の結果、録音を行わない場合には、学習録音か否かを判定する（Ｓ４１）。ここでは、ステップＳ９における個人別特徴強調型のノイズ除去を行うために、個人の特徴を検出するか否かを判定する。ユーザは、操作部６の操作部材を操作することによって、この学習モードを選択するので、このステップでは、操作部６による操作がなされたか否かを判定する。

ステップＳ４１における判定の結果、学習録音を行う場合には、個人設定を行う（Ｓ４３）。ここでは、学習を行う者の個人名等の情報を設定する。

個人設定を行うと、次に、教材対応学習を行う（Ｓ４５）。個人の特徴を検出するにあたって、予め用意してあるテキスト等を被検者に読み上げてもらい、このときの音声を収音する。この収音によって取得した音声データを用いて、個人別の特徴を検出する。

続いて、学習済みか否かの判定を行う（Ｓ４７）。ここでは、ステップＳ４５において用意した全ての教材について被検者が読み上げ、個人別の特徴を検出できたか否かに基づいて判定する。この判定の結果、学習済みでない場合には、ステップＳ４５に戻り学習を続ける。

一方、ステップＳ４７における判定の結果、学習済みであった場合には、特徴を記録する（Ｓ４９）。ここでは、ステップＳ４５において検出された個人別の特徴を記録部３またはフィルタ情報部９に記録する。ここで記録した個人別の特徴を用いて、ステップＳ９における個人別特徴強調型のノイズ除去を行う。また、通信部５を介してディクテーション部２０に個人別の特徴を送信し、音声認識する際に利用するようにしてもよい。

ステップＳ４１に戻り、このステップにおける判定の結果、学習録音でない場合には、記録部３に記録された音声ファイルをディクテーション部２０または再生記録機器４０等の外部に送信するための処理を行う。まず、ファイル選択を行う（Ｓ５１）。ここでは、記録部３に記録されている音声ファイルの中から外部に送信する音声ファイルを選択する。情報取得機器１０には表示部が設けてある場合には、この表示部に音声ファイルを表示すればよく、また情報取得機器１０に表示部がない場合にはＰＣ５０に表示させるようにしてもよい。

ファイルを選択すると、次に、再生する（Ｓ５３）。ここでは、選択された音声ファイルを再生する。情報取得機器１０に再生部が設けられていない場合には、このステップを省略する。

続いて、送信するか否かを判定する（Ｓ５５）。ユーザは、ステップＳ５１において選択した音声ファイルを、ディクテーション部２０や再生記録機器４０等の外部機器に送信する場合には、操作部６を操作し、送信先を設定した後、送信釦を操作する。

ステップＳ５７において送信すると、またはステップＳ４９において特徴を記録すると、またはステップＳ４７における判定の結果、学習済みでない場合に、またステップＳ３５、Ｓ２５、Ｓ１５において音声ファイルを作成すると、このフローを終了する。

このように、図４Ａ、図４Ｂに示すフローにおいては、人が音声を再生し、聴きながら文書を作成するトランスクライバーを行うか、それとも音声認識によって機械的に文書を作成するかによって、音質調整部７はそれぞれの特性に応じたノイズ除去や音声の周波数帯域の調整を行うようにしている（ステップＳ９、Ｓ１０、Ｓ１９、Ｓ２０参照）。

また、ノイズ除去を行う場合には、音声認識によるトランスクリプトの作成に比較し、トランスクライバーによってトランスクリプトを作成する場合の方が、ノイズ除去のレベルを強くするようにしている（ステップＳ９、Ｓ１９参照）。ノイズ除去を強くすると、音声認識の精度が低下するからである。逆にいうと、音声認識によるトランスクリプト作成の方が、ノイズ除去の強度を弱くしている。

また、周波数帯域の調整を行う場合には、トランスクライバーによるトランスクリプトの作成に比較し、音声認識によるトランスクリプトの作成の方が、周波数帯域を広くしている（ステップＳ１０、Ｓ２０参照）。特に、下限周波数についてみれば、音声認識によるトランスクリプト作成の方が、下限周波数を低くしている。音声認識の場合は、音素を識別できるように、なるべく広い周波数帯域の音声データを用いる方が精度を高くできるからである。

また、ステップＳ７以下の機械式音声認識用の録音を行う場合に、マイク特性等、機器の特性に応じた録音調整を行うようにしている（ステップＳ９参照）。これによって、マイクの特性を考慮できるので、精度の高い音声認識を行うことができる。

また、ノイズ除去する場合に元の音声データがゆがめられてしまい、音声認識の精度が低下してしまうので、本実施形態においては、除去したノイズの波形等の音声データを記録している（ステップＳ１１参照）。音声認識の際に、この記録された除去ノイズデータを用いて、音声データを復元することにより、音声認識の精度を向上させることができる。

また、音声認識によるトランスクリプト作成用の録音の場合に、音声データから音声ファイルを生成する際に、マイク特性および／または修復情報等も併せて記録するようにしている（ステップＳ１５、図９参照）。音声認識の際に、音声ファイルに記録されたこれらの情報を用いることにより音声認識の精度を向上させることができる。

また、マイクの指向性が強い場合（指向性が狭い場合）について、トランスクライバー用か否かに応じて、ノイズ除去の仕方を変更している。指向性が広い場合には、ノイズの影響が弱いのに対して、指向性が狭くなると、ノイズの影響が顕著になる。このため、トランスクライバー用か否かに応じてノイズ除去の仕方を変更している。

また、個人別特徴強調型ノイズ除去を行うために学習録音を行っている（Ｓ４１〜Ｓ４９）。個人毎に話し方の特徴があることから、この特徴に応じた音声認識を行うことにより、音声認識の精度を向上させることができる。

なお、本実施形態においては、ステップＳ５におけるトランスクライバーか否かに応じて、ステップＳ７以下の録音を実行するか、ステップＳ１７以下の録音を実行するか、いずれか一方を択一的に実行していた。しかし、これに限らず、ステップＳ７以下の録音とステップＳ１７以下の録音を並行して行うようにしてもよい。この場合には、トランスクライバー装置用の音声データと、ディクテーション装置用の音声データを同時取得することができ、録音終了後に、トランスクリプトの方法を選択することができる。

また、トランスクライバー装置用の音声データと、ディクテーション装置用の音声データを取得する際には、いずれの場合であっても、ノイズ除去および周波数帯域の調整を行っていた。しかし、両方を行わず、いずれか一方のみでよい。

次に、図５に示すフローチャートを用いて、ディクテーション部２０または再生記録機器４０におけるトランスクリプトの作成について説明する。このフローは、ディクテーション部２０の場合には、制御部２１内のＣＰＵが記録部２５に記憶されたプログラムに従って、ディクテーション部２０内の各部を制御することにより、実現する。また、再生記録機器４０の場合には、再生記録機器４０内の制御部に設けられたＣＰＵが、再生記録機器４０内に記憶されたプログラムに従って、再生記録機器４０内の各部を制御することにより実現する。

図５に示すフローが開始すると、まず、ファイルを取得したか否かを判定する（Ｓ６１）。情報取得機器１０は、ステップＳ５７において選択した音声ファイルをディクテーション部２０または再生記録装置４０に送信する。このステップでは、音声ファイルが送信されてきたか否かを判定する。この判定の結果、ファイルが取得されていない場合には、取得されるのを待つ（Ｓ６３）。

ステップＳ６１における判定の結果、音声ファイルを取得すると、音声再生を行う（Ｓ６５）。再生記録機器４０の音声再生部４２は、取得した音声ファイルを再生する。またディクテーション部２０は音声再生部を有してもよく、この場合には、取得した音声ファイル確認用に音声を再生する。なお、音声再生部を有していない場合には、このステップを省略してもよい。

続いて、音声データを文字に変換する（Ｓ６７）。ディクテーション部２０のテキスト化部２４がトランスクリプトを作成する場合には、情報取得機器１０が取得した音声データの音声認識を行い、テキストデータに変換する。このテキストデータへの変換については、図６を用いて後述する。また、文字への変換は、人が再生記録機器４０（トランスクライバー装置）によって音声を再生しながら入力部４４のキーボード等を操作することにより、文字を入力するようしてもよい。このトランスクライバーについては、図７を用いて後述する。

音声データを文字に変換すると、次に、項目判定可能か否かを判定する（Ｓ６９）。本実施形態は、例えば、話し手が話した内容を、図１のドキュメント３０に示されるような項目毎に記載したドキュメントを作成することを想定している。このステップでは、ステップＳ６７において変換した文字が、ドキュメント作成のための項目に適合しているか否かを判定する。なお、ドキュメント作成のために使用する項目は、記録部２５のフォーマット情報２５ｂに記録されている。

ステップＳ６９における判定の結果、項目判定が可能な場合には、ドキュメントを作成する（Ｓ７１）。ここでは、フォーマット情報２５ｂに従って、例えば、図１のドキュメント３０のような項目毎に整理された文書を作成する。

一方、ステップＳ６９における判定の結果、項目判定できない場合には、警告を行う（Ｓ７３）。音声データに基づいて、ドキュメントを作成することができない場合であり、その旨を表示部２６に表示する。警告を行うと、ステップＳ６５に戻り、項目判定できるまで、ステップＳ６７において文字に変換する際の条件等を修正して、文字に変換してもよく、またユーザが手動で文字を入力するようにしてもよい。

ステップＳ７１においてドキュメント化を行うと、次に、終了か否かを判定する（Ｓ７５）。トランスクリプショニストが全ての音声データを用いてドキュメントを作成した場合、またはユーザがディクテーション部２０によって、音声認識を利用したディクテーション動作を終了した場合に、終了と判定する。この判定の結果、終了でない場合には、ステップＳ６５に戻り、文字化とドキュメントの作成を続行する。

ステップＳ７５における判定の結果、終了の場合には、記録を行う（Ｓ７７）。ここでは、ステップＳ７１に生成されたドキュメントを記録部２５に記録する。ドキュメントを記録すると、ステップＳ６１に戻る。

人が再生記録機器４０を用いてドキュメントの作成を行う場合には、ステップＳ６９〜Ｓ７５の処理は、人が判断して行う。

このように図５に示すフローにおいては、音声データを文字に変換し（ステップＳ６７参照）、変換した文字を予め設定してあるフォーマットに従って（図１のフォーマット情報２５ｂ参照）、ドキュメントを作成している（ステップＳ６９、Ｓ７１参照）。このため、話し手の話した内容を項目に沿って整理した文書にすることができる。なお、単に音声データを文字に変換するだけでよいのならば、ステップＳ６９〜Ｓ７３を省略すればよい。

次に、図６に示すフローチャートを用いて、ステップＳ６７における文字化を、ディクテーション部２０によって実現する場合の動作について説明する。この動作は、制御部２１内のＣＰＵが記録部２５に記憶されたプログラムに従って、ディクテーション部２０内の各部を制御することにより、実現する。

図６に示すフローが開始すると、まず、波形分解を行う（Ｓ８１）。ここでは、テキスト化部２４が、情報取得機器１０から送信されてきた音声データの波形を分解する。具体的には、次のステップの音素フーリエ変換のため、音素の切れ目となるタイミングで波形を分解する。音素は、母音や子音等に相当し、音声データの強度レベルの谷間となるタイミング等で区切ればよい。

波形分解すると、次に、音素をフーリエ変換する（Ｓ８３）。ここでは、テキスト化部２４が、ステップＳ８１において波形分解された音素単位の音声データをフーリエ変換する。

音素フーリエ変換すると、次に、音素辞書照合を行う（Ｓ８５）。ここでは、記録部２５に記憶された音素辞書を用いて、ステップＳ８３においてフーリエ変換されたデータと照合する。

ステップＳ８５における判定の結果、フーリエ変換されたデータと、音素辞書に記載のデータが一致しない場合には、波形幅を変更する（Ｓ８７）。音素辞書に一致するデータがないのは、ステップＳ８１における波形分解の際の波形幅が適切でなかった可能性があることから、波形幅を変更して、ステップＳ８３に戻り、音素フーリエ変換を行う。また、波形幅変更に代えて、または波形幅変更に加えて、周波数補助を行う。音声データからノイズ成分が除去されたために、波形が歪み音素に分解できない場合がある。そこで、周波数補助を行うことにより、ノイズ成分の除去がない音声データに復元する。この周波数補助の詳細については、図８を用いて後述する。

ステップＳ８５における判定の結果、音素辞書と一致するデータがあった場合には、音素に変換する（Ｓ８９）。ここでは、ステップＳ８５における辞書照合の結果に基づいて、ステップＳ８３でフーリエ変換された音声データを音素に置き換える。例えば、日本語の場合には、子音字「ｋ」、母音字「ａ」等に置き換える。中国語の場合にはピンインに置き換えればよく、英語等の他言語の場合には、発音記号（音声記号、音素記号）に置き換えればよい。いずれにしても、言語毎に最適な音素表記に置き換えればよい。

音素に変換すると、次に、音素集合を作成する（Ｓ９１）。ステップＳ８１〜Ｓ８９において、音声データが、順次、音素に変換されるので、これらの変換された音素の集合を作成する。これによって、音声データが母音字や子音字の集合体となる。

音素集合を作成すると、次に、文字辞書の照合を行う（Ｓ９３）。ここでは、ステップＳ９３において作成した音素集合と音声テキスト化辞書２５ａと比較し、音素集合と、音声テキストが一致するか否かを判定する。例えば、音声データが日本語の音声から生成された場合であって、ステップＳ９１において音素「ｋ」と「ａ」から音素集合「ｋａ」が作成された場合、この音素集合と、文字辞書を照合した場合に、「ｋａ」が日本語の文字「か」と一致する。日本語以外の言語の場合には、言語に応じて文字に変換できるか判定すればよい。中国語の場合には、音素として、四声等も考慮して文字に変換する。また、音素集合体から一対一に文字に変換できない場合には、ステップＳ９７、Ｓ９９をスキップし、音素表記の集合体を直接、単語に変換してもよい。

ステップＳ９３における判定の結果、文字辞書と照合した結果、一致する音素集合がなかった場合には、音素集合を変更する（Ｓ９５）。この場合は、音素集合と全ての文字を照合した結果、照合する文字がなかった場合であり、音素集合の組み合わせを変更する。例えば、「ｓｈ」で文字辞書と照合した場合に、照合する文字が無い場合には、次の音素「ａ」を加え、「ｓｈａ」に音素集合を変更する。音素集合を変更すると、ステップＳ９３に戻り、文字照合を再び行う。

一方、ステップＳ９３における判定の結果、文字辞書照合と照合した結果、一致する音素集合があった場合には、文字化を行う（Ｓ９３）。ここでは、辞書と一致した文字に確定する。

文字化を行うと、次に、文字集合を作成する（Ｓ９９）。ステップＳ９３における音素集合と文字辞書との照合が行われるたびに、単語をなす文字が増えていく。例えば、音声が日本語の場合、最初、「か」が決まり、次の音素集合で「ら」が決まると、文字集合として「から」が決まる。また、更に次の音素集合で「す」が決まったとすると、文字集合として「からす」が決まる。

文字集合を作成すると、次に文字集合と単語との照合を行う（Ｓ１０１）。ここでは、ステップＳ９９において作成された文字集合を、音声テキスト化辞書２５ａに記録されている単語と照合し、一致する単語があるか否かを判定する。例えば、音声が日本語の場合、文字集合として「から」が作成されても、音声テキスト化辞書２５ａに「から」が記録されていない場合には、単語が照合されないと判定される。

ステップＳ１０１における判定の結果、文字集合と一致する単語がない場合には、文字集合を変更する（Ｓ１０３）。一致する単語がない場合には、次の文字と組み合わせてみる。また、前の文字と組み合わせを変えてもよい。

文字集合を変更すると、単語の照合の処理回数が所定回数を越えたか否かを判定する（Ｓ１０５）。ここでは、ステップＳ１０１における単語の照合の回数が予め決められた回数を越えたか否かを判定する。この判定の結果、単語の照合の回数が所定回数を越えていない場合には、ステップＳ１０１に戻り、文字集合と単語が一致するか否かの判定を行う。

一方、ステップＳ１０５における判定の結果、単語の照合の回数が所定回数を越えている場合には、音素集合を変更する（Ｓ１０７）。ここでは、ステップＳ９１において作成した音素集合が正しくないために、文字集合と一致する単語がないと判断し、音素集合自体を変更する。音素集合を変更すると、ステップＳ９３に戻り、前述の処理を実行する。

ステップＳ１０１に戻り、このステップにおける判定の結果、文字集合と一致する単語があった場合には、単語化を行う（Ｓ１０１）。ここでは、辞書と一致した単語に確定する。日本語の場合には、漢字に変換して確定してもよい。

単語を確定すると、記録する（Ｓ１１１）。ここでは、確定した単語を記録部２５に記録する。なお、単語が確定するたびに、表示部２６に順次表示するようにしてもよい。ユーザは、表示された単語に誤りがある場合には、逐次、修正してもよい。さらに、ディクテーション部２０に学習機能を持たせ、音素、文字、単語への変換の精度を向上させるようにしてもよい。また、一旦、確定した単語であっても、文章中で意味を考慮して誤っていると判断された場合には、自動的に修正してもよい。特に、漢字の場合には、同音であっても異なる字の場合があり、また英語等の場合には、同音であっても綴り字の異なる場合があることから、適宜、自動的に修正するようにしてもよい。記録を行うと、元のフローに戻る。

このように、本実施形態におけるディクテーション部２０による機械式音声認識は、情報取得機器１０によって取得された音声データを波形分解し、この分解された音声データをフーリエ変換することにより、音素を抽出している（Ｓ８１〜Ｓ８９）。フーリエ変換により音素を抽出できない場合には、波形分解の際の波形幅を変えたり、またノイズ除去によって変形した波形を元の波形に復元したりして（周波数補助）、再度、音素を抽出している。このため、音声データから音素への変換精度を向上させることができる。

また、本実施形態においては、音素を組み合わせて音素集合を作成し、この音素集合と文字辞書とを照合することにより、音声データから文字を抽出している（Ｓ９１〜Ｓ９７）。さらに、抽出した文字から単語を抽出している（Ｓ９９〜Ｓ１０９）。これらの抽出の際に、文字を抽出できない場合（Ｓ９３Ｎｏ）、単語を抽出できない場合（Ｓ１０１）には、音素集合や文字集合を変更し（Ｓ９５、Ｓ１０３、Ｓ１０５）、再度、照合を行うようにしている。このため、音声データから単語への変換精度を向上させることができる。なお、言語によって、音素と単語の記載の関係が異なることから、言語の特性に合わせて、音素から単語に変換するまでの処理項目や処理手順を適宜設定すればよい。

次に、図７に示すフローチャートを用いて、人が音声を聴きながらトランスクリプト（文書）を作成するトランスクライバーの処理について説明する。このフローチャートは、人が再生記録機器４０によって音声を再生しながら、キーボード等を操作することにより、音声を文書に変換する。

図７に示すトランスクライバーのフローを開始させると、まず、ユーザは特定フレームまで音声を再生する（Ｓ１２１）。前述したように、情報取得機器１０で音声を記録する際に、再生記録機器４０（トランスクライバー）で文書を作成することを予定している場合には（図４ＡのＳ５Ｙｅｓ）、ノイズ除去は人が音声を聴き易いように、ノイズ除去を行い（図４ＡのＳ１９）、周波数帯域の調整を行い（図４ＡのＳ２０）、また要所でインデックスを付与している（図４ＡのＳ２１）。ここでは、ユーザは音声再生部４２を操作し、付与されたインデックスの位置を利用して特定フレーズまで音声を再生する。

特定フレーズまで再生すると、ユーザが音声の内容を理解できたか判断する（Ｓ１２３）。音声にノイズが多い等により音声の内容を理解することができない場合がある。この判断の結果、ユーザが音声の内容を理解できない場合には、聴き易くして聞き返しする（Ｓ１２５）。ここでは、ユーザが再生速度、再生音質等、再生条件を変えることにより聴き易くする。また、ノイズ除去した音声データの再生のため各種パラメータを変更してもよい。

ステップＳ１２３における判定の結果、ユーザが内容を理解することができた場合には、理解した音声を単語に変換する（Ｓ１２７）。ここでは、ユーザが理解した単語を、入力部４４のキーボード等を操作することにより、入力する。

単語に変換すると、再生記録機器４０の記録部４３に変換した単語を記録する（Ｓ１２９）。記録すると、次の特定フレーズまで再生し、同様に、単語に変換し、記録部４３に変換した単語を記録する。この動作を繰り返し行うことにより、音声を文書に変換し、記録部４３に記録することができる。

このように、本実施形態におけるトランスクライバーは、ユーザが記録された音声を再生する際に、明瞭に聴きとれるような音声データで記録しておく。このため、機械式音声認識用の音声データと異なり、人が精度よく文書を作成できるような音で再生することができる。

次に、図８を用いて、図４ＡのＳ１１の除去ノイズ記録、および図６のＳ８７において用いられる周波数補助について説明する。

図８（ａ）は、音声データの周波数ごとのパワーの関係を示す音声波形Ｖｏｃの一例を示し、横軸は周波数を、縦軸はパワーである。図８（ａ）の拡大図Ｌａｒは、音声データの一部を拡大したものであり、図に示すように、パワーは周波数に応じて細かく変化している。この細かい変化が人の声の特徴、言い換えると音素の特徴となっている。すなわち、音声データから音素等を抽出するにあたって、この細かく変化する周波数ごとのパワーの波形を忠実に再現しないと、音声認識を精度よく行うことができない。

図８（ｂ）は、音声波形ＶｏｃにノイズＮｏｉが重畳した場合を示す。人が音声を聴いて文書を作成する場合（トランスクライバー）には、ノイズＮｏｉが音声波形Ｖｏｃに重畳していると、聴きとり難い。そこで、図８（ｃ）に示すように、音声波形ＶｏｃからノイズＮｏｉを除去し、ノイズ除去波形Ｎｏｉ−ｒｅｄを生成する。

このノイズ除去波形Ｎｏｉ−ｒｅｄは、ノイズが除去されていることから、人が音声を再生して文字に変換するトランスクライバーを行うに適している。しかし、図８（ａ）の拡大図Ｌａｒに示したような、周波数に応じて細かく変化する音声のパワーも除去されてしまうことから、ディクテーション部２０で行う音声認識を行うには不適当である。

そこで、図８（ｄ）に示すように除去ノイズＮｏｉ−ｒｅｃを、ノイズ除去した音声データと一緒に記録しておく。そして、音声認識を行う場合には、音声データノイズ除去した音声データを、除去ノイズＮｏｉ−ｒｅｃを用いて、除去前の音声データに復元するようにする（図６のＳ８７の周波数補助参照）。除去ノイズＮｏｉ−ｒｅｃを用いて、元の音声に１００％一致するように復元しなくても、徐々に元の音声に近づくように音声データを修正し、修正するたびに、音声認識を行うようにしてもよい。

なお、除去ノイズＮｏｉ−ｒｅｃを記録する以外にも、ノイズ除去した音声データと、ノイズ除去を行わない音声データの両方を記録しておき、トランスクライバーを行う際にはノイズ除去した音声データを再生し、一方、音声認識を行う場合にはノイズ除去を行わない音声データを使用するようにしてもよい。

次に、図９を用いて、図４のステップＳ１５において生成する音声ファイルの構成について説明する。この音声ファイルは、前述したように、機械式音声認識を行うに適した音声データを記録する際のファイルである。図９に示すように、通常記録されるファイル名、音声データ、記録の日時情報等に加えて、修復情報、マイク特性、ノイズ除去（ＮＲ）、指向性情報等が記録される。

修復情報は、ノイズ除去等によって音声波形を修正した場合に、元の音声波形に復元するための情報である。マイク特性は、個々のマイクによって周波数特性が異なっており、この個々の周波数特性の相違を修正するための情報である。ノイズ除去（ＮＲ）情報は、ノイズ除去の有無、またノイズ除去の内容等を示す情報である。指向性情報は、図２を用いて説明したように、マイクロフォンの指向範囲を示す情報である。修復情報、マイク特性、ノイズ除去情報、指向性情報等を用いて音声データを修正することにより、音声認識の精度を向上させることができる。

次に、図１０を用いて、トランスクライバーを行うか否かの切り替えを自動的に行う例について説明する。図１０（ａ）は、ユーザが手５６で情報取得機器１０を持っている状態を示し、図１０（ｂ）は、情報取得機器１０をスタンド１０Ａに載置した状態を示す。

図１０（ａ）に示す状態では、姿勢判定部４が手ブレを検出することから、制御部１はユーザが情報取得機器１０を手に持っている状態と判断する。この場合には、ユーザは情報取得機器１０に向かって音声を吹き込んでいることが多い。そこで、この場合には、図４ＡのフローのステップＳ３において指向性が強いと判断し、そしてステップＳ５においてトランスクライバーではないと判断して、ステップＳ７以下の機械式音声認識に相応しい録音を行う。

一方、図１０（ｂ）に示す状態では、姿勢判定部４が手ブレを検出しないことから、制御部１はユーザが情報取得機器１０をスタンド１０Ａに載置した状態と判断する。この場合には、複数の話し手がおり、種々の方向から音声あることが多い。そこで、この場合には図４ＡのステップＳ３において指向性が弱いと判断し、ステップＳ３１以下において録音を行う。

以上説明したように、本発明の一実施形態においては、音声を音声データに変換して記録する際に、音声認識によってトランスクリプトを作成する場合と（図４ＡのＳ５Ｎｏ）、人が音声を聴いてトランスクリプトを作成する場合で（図４ＡのＳ５Ｙｅｓ）、音声データの音質調整を異ならせる（図４ＡのＳ９、Ｓ１９）。人が音声を聴いて文書にする場合と、機械が音声認識を用いて音声をトランスクリプトに変換する場合で、それぞれの特性に相応しい音声記録を行うことができる。

なお、本発明の一実施形態においては、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、音質調整を行うにあたってノイズ除去や周波数帯域を異ならせていたが、音質調整としてはノイズ除去、周波数帯域の調整等に限らず、他の音質調整の項目、例えば、特定周波数帯域の強調処理についても異なるようにしてもよい。また、男性と女性、大人と子供、アナウンサー等の職業人、指向性等を考慮して音質調整を自動的または手動設定で行うようにしてもよい。

また、本発明の一実施形態においては、音質調整部７、収音部２、記録部３、姿勢判定部４等を、制御部１とは別体の構成としたが、各部の全部または一部をソフトウエアで構成し、制御部１内のＣＰＵによって実行するようにしても勿論かまわない。また音質調整部をハードウエア回路によって構成する以外にも、ＤＳＰ（Digital Signal Processor）等のプログラムコードで実行される回路で実現するようにしてもよく、ヴェリログ（Verilog）によって記述されたプログラム言語に基づいて生成されたゲート回路等のハードウエア構成でもよい。

また、制御部１内のＣＰＵの機能の一部をＤＳＰ等のプログラムコードで実行される回路で実現するようにしてもよく、ヴェリログによって記述されたプログラム言語に基づいて生成されたゲート回路等のハードウエア構成でもよく、またハードウエア回路によって実現するようにしてもよい。

また、本明細書において説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。

また、本発明の一実施形態においては、図３および図４のフローチャートを用いて、本実施形態における動作を説明したが、処理手順は、順番を変えてもよく、また、いずれかのステップを省略してもよく、ステップを追加してもよく、さらに各ステップ内における具体的な処理内容を変更してもよい。

また、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず」、「次に」等の順番を表現する言葉を用いて説明したとしても、特に説明していない箇所では、この順で実施することが必須であることを意味するものではない。

本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１・・・制御部、１ａ・・・モード切換部、１ｂ・・・トラック入力部、２・・・収音部、３・・・姿勢判定部、４・・・記録部、５・・・通信部、６・・・操作部、７・・・音質調整部、８・・・時計部、９・・・フィルタ情報部、１０・・・情報取得機器、１０Ａ・・・スタンド、２０・・・ディクテーション部、２１・・・制御部、２１ｂ・・・ドキュメント化部、２２・・・通信部、２３・・・時計部、２４・・・テキスト化部、２５・・・記録部、２５ａ・・・音声テキスト化辞書、２５ｂ・・・フォーマット情報、２５ｃ・・・音声処理テーブル、２６・・・表示部、３０・・・ドキュメント、４０・・・再生記録機器、４１・・・通信部、４２・・・音声再生部、４３・・・記録部、４４・・・入力部、５０・・・パーソナルコンピュータ（ＰＣ）、５５・・・タイピスト、５６・・・手、１０１・・・筐体、１０２・・・第１マイク、１０２ｂ・・・弾性保持部、１０２ｃ・・・収音範囲、１０３・・・フィルタ部、１０４・・・基板、１０５・・・第２マイク、１０５ｂ・・・弾性保持部、１０５ｃ・・・収音範囲１０６・・・第２フィルタ部、１１０・・・声成分抽出部、１１１・・・入力部、１１２・・・特定周波数音声判定部、１１３・・・振幅変動予測部、１１４・・・減算部、２０１・・・ユーザの口、２０２・・・ユーザの親指、２０３・・・ユーザの人差し指

Claims

音声を音声データに変換するための収音部と、
上記音声データの音質を調整する音質調整部と、
を有し、
上記音質調整部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、音質調整を異ならせることを特徴とする音声取得機器。
上記音質調整部は、音声データに重畳するノイズ成分の除去の調整、または周波数帯域の調整を行い、
さらに、上記音質調整部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、ノイズ成分の除去の程度、ノイズ成分の除去の仕方を異ならせる、または周波数帯域の範囲を異ならせる、
ことを特徴とする請求項１に記載の音声取得機器。
上記収音部の収音特性に関する収音特性情報および／または修復情報を記憶する記憶部を有し、
上記音質調整部は、上記収音特性情報および／または修復情報に基づいて音質調整を異ならせることを特徴とする請求項１に記載の音声取得機器。
上記音質調整部は、音声データに重畳するノイズ成分の除去を行い、
さらに、除去された上記ノイズ成分を記憶する第２記憶部を有することを特徴とする請求項１に記載の音声取得機器。
上記収音部は、その指向範囲を異ならせることができ、
上記音質調整部は、上記収音部の指向範囲に応じて音質調整を異ならせることを特徴とする請求項１に記載の音声取得装置。
上記音質調整部によって調整された音声データを記録する記録部を有し、
上記記録部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合のそれぞれに相応しい音質調整を行った音声データを、２系統並行して記録することを特徴とする請求項１に記載の音声取得機器。
音声を音声データに変換し、
音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、上記音声データの音質調整を異ならせる、
ことを特徴とする音声取得方法。
音声取得機器内のコンピュータに音声取得を実行させるための音声取得用プログラムにおいて、
音声を音声データに変換し、
音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、上記音声データの音質調整を異ならせる、
ことを上記コンピュータに実行させる特徴とする音声取得用プログラム。