JP2018191234A - 音声取得機器、音声取得方法、および音声取得用プログラム - Google Patents
音声取得機器、音声取得方法、および音声取得用プログラム Download PDFInfo
- Publication number
- JP2018191234A JP2018191234A JP2017094457A JP2017094457A JP2018191234A JP 2018191234 A JP2018191234 A JP 2018191234A JP 2017094457 A JP2017094457 A JP 2017094457A JP 2017094457 A JP2017094457 A JP 2017094457A JP 2018191234 A JP2018191234 A JP 2018191234A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- sound
- voice
- recording
- transcript
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000008439 repair process Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 16
- 230000007613 environmental effect Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 241000102542 Kara Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000003811 finger Anatomy 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241000750631 Takifugu chinensis Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000005224 forefinger Anatomy 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/22—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only
- H04R1/222—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/326—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/49—Reducing the effects of electromagnetic noise on the functioning of hearing aids, by, e.g. shielding, signal processing adaptation, selective (de)activation of electronic parts in hearing aid
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/001—Adaptation of signal processing in PA systems in dependence of presence of noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/01—Noise reduction using microphones having different directional characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/03—Reduction of intrinsic noise in microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/05—Noise reduction with a separate noise microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/07—Mechanical or electrical reduction of wind noise generated by wind passing a microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/01—Hearing devices using active noise cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Details Of Audible-Bandwidth Transducers (AREA)
Abstract
【課題】人が音声を聴いてトランスクリプトを作成する場合と、音声認識を用いて音声データからトランスクリプトを作成する場合で、それぞれの特性に相応しい音声記録を行うようにした音声取得機器、音声取得方法、および音声取得用プログラムを提供する。【解決手段】収音部により録音を行い、音声データを記録する場合には、音声認識を行う場合か(S5No)、人によるトランスクライバーを行う場合か(S5Yes)のいずれであるかを判定し、この判定結果に応じて、音質調整部における音質調整を異ならせる(S9、S10、S19、S20)。【選択図】 図4A
Description
本発明は、音声を音声認識または人によって文字に書き起こす音声取得機器、音声取得方法、および音声取得用プログラムに関する。
従来より、例えばICレコーダ等の音声記録装置によって利用者が音声データを記録しておき、この音声データを再生し、この再生音を聞きながらその口述内容をタイプ打ちして文書にする所謂トランスクリプションが企業、病院、弁護士事務所等で行われている。また、近年、音声認識技術が向上してきており、音声を記録した音声データを解析し、文書を作成するディクテーションも可能になってきている。なお、本明細書では、トランスクリプションを行う者をトランスクリプショニスト、またトランスクリプションを行うに適した装置をトランスクライバー装置という。また、音声認識を用いて文書を作成する装置をディクテーション装置という。さらに、トランスクライバー装置またはディクテーション装置によって音声をテキストまたは文書に変換されたものをトランスクリプトという。
トランスクリプショニストがトランスクライバー装置を用いて、記録された音声データを再生し、この再生音を聴きながら文書を作成する場合(トランスクリプション)に、音声を明瞭に聴くことができるようにした技術が提案されている(例えば、特許文献1参照)。さらに、音声からノイズを除去する技術も種々提案されている。
音声認識を用いて機械的に音声を文書化する際に誤りが少なくなるようする音声処理技術(例えば、ノイズ除去)と、人が再生音を聴いて音声を文書化する際に明瞭な音声を再生するための音声処理技術(例えば、ノイズ除去)は、異なっている。例えば、人がトランスクライバー装置を用い、再生音を聴いて文書化する場合には、ノイズ音を極力除去し、明瞭な音声にした方がよい。一方、機械(ディクテーション装置)で音声認識を用いて文書化する場合には、ノイズ除去を極端に行うと、音声の特徴が失われ認識率が低下してしまう。
本発明は、このような事情を鑑みてなされたものであり、人が音声を耳で聴いてトランスクリプトを作成にする場合と、機械が音声認識を用いて音声データからトランスクリプトを作成するにする場合で、それぞれの特性に相応しい音声記録を行うようにした音声取得機器、音声取得方法、および音声取得用プログラムを提供することを目的とする。
上記目的を達成するため第1の発明に係る音声取得機器は、音声を音声データに変換するための収音部と、上記音声データの音質を調整する音質調整部と、を有し、上記音質調整部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、音質調整を異ならせる。
第2の発明に係る音声取得機器は、上記第1の発明において、上記音質調整部は、音声データに重畳するノイズ成分の除去の調整、または周波数帯域の調整を行い、さらに、上記音質調整部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、ノイズ成分の除去の程度、ノイズ成分の除去の仕方を異ならせる、または周波数帯域の範囲を異ならせる。
第3の発明に係る音声取得機器は、上記第1の発明において、上記収音部の収音特性に関する収音特性情報および/または修復情報を記憶する記憶部を有し、上記音質調整部は、上記収音特性情報および/または修復情報に基づいて音質調整を異ならせる。
第3の発明に係る音声取得機器は、上記第1の発明において、上記収音部の収音特性に関する収音特性情報および/または修復情報を記憶する記憶部を有し、上記音質調整部は、上記収音特性情報および/または修復情報に基づいて音質調整を異ならせる。
第4の発明に係る音声取得機器は、上記第1の発明において、上記音質調整部は、音声データに重畳するノイズ成分の除去を行い、さらに、除去された上記ノイズ成分を記憶する第2記憶部を有する。
第5の発明に係る音声取得機器は、上記第1の発明において、上記収音部は、その指向範囲を異ならせることができ、上記音質調整部は、上記収音部の指向範囲に応じて音質調整を異ならせる。
第5の発明に係る音声取得機器は、上記第1の発明において、上記収音部は、その指向範囲を異ならせることができ、上記音質調整部は、上記収音部の指向範囲に応じて音質調整を異ならせる。
第6の発明に係る音声取得機器は、上記第1の発明において、上記音質調整部によって調整された音声データを記録する記録部を有し、上記記録部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合のそれぞれに相応しい音質調整を行った音声データを、2系統並行して記録する。
第7の発明に係る音声取得方法は、音声を音声データに変換し、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、上記音声データの音質調整を異ならせる。
第8の発明に係る音声取得用プログラムは、音声取得機器内のコンピュータに音声取得を実行させるための音声取得用プログラムにおいて、音声を音声データに変換し、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、上記音声データの音質調整を異ならせる。
本発明によれば、人が音声を聴いてトランスクリプトを作成する場合と、音声認識を用いて音声データからトランスクリプトを作成する場合で、それぞれの特性に相応しい音声記録を行うようにした音声取得機器、音声取得方法、および音声取得用プログラムを提供することができる。
以下、本発明の一実施形態としてディクテーション・トランスクライバーシステムに本発明を適用した例について説明する。このディクテーション・トランスクライバーシステムは、図1に示すように、情報取得機器10と、ディクテーション部20と、ドキュメント30と、再生記録機器40とから構成される。
本実施形態においては、情報取得機器10はICレコーダを用いる例について説明するが、情報取得機器10としてはICレコーダに限らず、スマートフォン、パーソナルコンピュータ(PC)、タブレット等、録音機能を有する機器であればよい。また、ディクテーション部20、ドキュメント30、再生記録機器40は、本実施形態においては、パーソナルコンピュータ(PC)50がこれらの機能を兼ね備える。しかし、ディクテーション部20は専用機器であってもよく、情報取得機器10がディクテーション部20を兼用するようにしてもよい。また、ドキュメント30は、PC50内のメモリに記憶されるが、これに限らず、専用のハードディスク等のメモリであってもよい。さらに、情報取得機器10と再生記録機器40を同一の装置内に設けてもよく、また情報機器10とディクテーション部20を同一の装置内に設けてもよい。
また、本実施形態のようにスタンドアロンで構成されたディクテーション・トランスクライバーシステムに限らず、ディクテーション部20、ドキュメント部30、再生記録機器40の全部または一部を、インターネットを介して接続するようにしてもよい。この場合、各部の全部または一部をクラウド内のサーバーが担うようにしてもよい。また、各部の全部または一部を、企業、病院、法律・特許事務所、建築・建設事業者、官公庁等内のイントラネットに接続し、イントラネット内のサーバーが担うにようにしてもよい。
情報取得機器10は、収音部2によって音声データを取得し、取得した音声データに対して、設定されたトランスクリプトの種類等に応じた最適な特性を有する音声データとなるように処理を施す。
情報取得機器10内の収音部2は、マイクロフォン、音声処理回路等を有し、マイクロフォンで取集した音声をアナログ信号に変換し、増幅等のアナログ音声処理後に、アナログデジタル変換し、デジタル化した音声データを制御部1に出力する。本実施形態におけるマイクロフォンは、図2を用いて後述するように、ノイズ除去用(NR用)マイクが配設されている。このため、ユーザがマイクロフォンの極近傍で音声の吹込みを行い、息や風があたることによって生ずるポップノイズのような雑音を除去することができる。収音部2は、音声を音声データに変換するための収音部として機能する。また、収音部は、その指向範囲を異ならせることができる。
記録部3は、電気的書き換え可能な揮発性メモリおよび電気的書き換え可能な不揮発性メモリを有する。この記録部3は、収音部2によって取得され制御部1等によって音声データ処理が施された音声データを記録する。また、後述する音質調整部7において使用される各種調整値等を記憶する。なお、音質調整部7において使用される各種調整値は、フィルタ情報部9において記憶するようにしてもよい。また、記録部3は、制御部1内のCPU(Central Processor Unit)におけるプログラムを記憶する。なお、音声データは通信部5を介して外部の記録部43に記録することにして、情報取得機器10内に記録部3の配置を省略してもよい。
記録部3(フィルタ情報部7)は、収音部の収音特性に関する収音特性情報および/または修復情報を記憶する記憶部として機能する。記録部3は、音質調整部によって調整された音声データを記録する記録部として機能する。この記録部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合のそれぞれに相応しい音質調整を行った音声データを、2系統並行して記録する(図4AのS7以下の録音と、S17以下の録音を並行して行う)。
姿勢判定部4は、ジャイロ、加速度センサ等を有し、情報取得機器10に加えられた動き(振動)を検出し、および/または情報取得機器10の姿勢、例えば情報取得機器10の長手方向が鉛直方向であるか水平方向であるか等の姿勢情報を検出する。図10を用いて後述するように、情報取得機器10がスタンドに設置された否かは、姿勢判定部4によって検出された手ブレ情報に基づいて判定する。
通信部5は、送信回路/受信回路等の通信回路を有し、ディクテーション部20の通信部22、および再生記録機器40の通信部41と通信を行う。ディクテーション部20および再生記録機器40との通信は、通信用ケーブルによって電気的に接続し、有線通信を行ってもよく、また電波、光等を用いた無線通信を行ってもよい。
操作部6は、音声記録を開始する録音釦等の操作釦を有し、また録音時の各種モードを設定するための複数のモード設定釦を有する。モード設定としては、録音範囲の指向性を設定するモード、ノイズ除去のレベルを設定するモード、人または機械式(音声認識利用)によるトランスクリプトに適した録音を設定するトランスクリプト設定モード等がある。また、ディクテーション部20や再生記録機器40等の外部機器に音声ファイルを送信するための送信釦等も有する。
本実施形態においては、モード設定は、ユーザがPC50のモニタ画面の表示を見ながら、操作部6の操作釦を操作することによって設定する。指向性とトランスクリプト設定モードの組み合わせは、しばしば使用されることから、本実施形態においては、下記のように簡便な方法で設定できるようにしている。すなわち、指向性が広範囲の第1モード、指向性が狭範囲で機械式トランスクリプトの第2モード、指向性が狭範囲で人によるトランスクリプトの第3モードを用意しておく。そして、操作部6の複数の操作釦の内の第1及び第2の操作釦が同時押しされた際に、所定時間間隔で第1モードから第3モードをサイクリックに順次変化し(LED等の表示部によって表示する)、ユーザが設定を希望するモードとなった際に、操作釦の同時押しを解除する。
音質調整部7は、音質調整回路を有し、収音部2によって取得された音声データの音質をデジタル的に調節する。音質調整部7は、音声認識によって音声をテキスト(音素)に変換する場合に、音素を認識しやすいように、音質を調整する。なお、音素は、音声学上の最小単位であり、母音や子音等の一音に対応し、通常、発音記号(音声記号、音素記号)の一文字に対応する。
音質調整部7は、例えば、音声データに含まれるノイズを除去する。ノイズ除去のレベルは、後述するように、機械式音声認識によるか人によるトランスクライバーによって異ならせる(図4AのS9、S19等参照)。ノイズ除去を、ノイズデータに重み付け係数(1より小さい)を乗算してデータを入力音声データから減算することによって達成する場合には、重み付け係数の値を変えることによって、ノイズ除去のレベルを変更することができる。すなわち、重み付け係数の値が大きいとノイズ除去が強く、一方、重み付け係数の値が小さいとノイズ除去が弱くなる。
また、音質調整部7は、音声データの周波数帯域を変更することにより音声調整を行う。例えば、ディクテーション部20(ディクテーション装置)によって音声認識を行い、トランスクリプトを作成する場合には、音質調整部7は200Hz〜10kHzの音声帯域の音声データとする。一方、再生記録装置40(トランスクライバー装置)によって人が音声を聴いてトランスクリプトを作成する場合には、音質調整部7は400Hz〜8kHzの音声帯域の音声データとする。母音を発音する際に人は共振の特性を変えているが、この振幅スペクトルのピークである共振周波数をフォルマント周波数と呼び、共振周波数の低い方から順に第1フォルマント、第2フォルマント等と呼ぶが、母音の第1フォルマントが400Hz近辺にあり、第2フォルマントが変化して音声が認識されているということから、人が音声を聴く場合には、このあたりの周波数を重視し、低周波数と高周波数をなるべくカットした方が聴き易く、一方、機械が音声認識する場合にはカットする周波数領域が広いと、検出する周波数分布のパターン等が崩れ、音素として認識することが困難になるからである。なお、前述の周波数帯域は例示であり、記載の数値に限定されないが、ディクテーション装置の方がトランスクライバー装置よりも低周波数まで記録できるようにすることが望ましい。
また、音質調整部7は、音声入力を行う個人毎にトランスクリプトを行うに最適な音質となるように調整を行ってもよい。同じ文字を発声する場合でも、発音には個人差があることから、予め個人別特性を記録しておき(図4BのS41〜S49参照)、この個人別特性を読出して、音声認識を行うようにしてもよい。また音質調整部7は、大人と子供、男性と女性、地域による方言、アナウンサー等の職業人と一般人等、種々の状況を自動認識または手動入力によって、音質調整を行うようにしてもよい。
音質調整部7は、音声データの音質を調整する音質調整部として機能する。この音質調整部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、音質調整を異ならせる(図4AのS9、S19等参照)。また、この音質調整部は、音声データに重畳するノイズ成分の除去を行い、さらに、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、ノイズ成分の除去の程度、またはノイズ成分の除去仕方を異ならせる(図4AのS9、S19等参照)。また、この音質調整部は、音声データの周波数帯域の調整を行い、さらに、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、周波数帯域の範囲を異ならせる(図4AのS10、S20等参照)。
また、音質調整部は、収音特性情報および/または修復情報に基づいて音質調整を異ならせる(図4AのS9、S19等参照)。音質調整部は、音声データに重畳するノイズ成分の除去を行う。ディクテーション部は除去されたノイズ成分に基づいて音声データを復元し、この復元した音声データに基づいて、音声認識を行う。音質調整部は、収音部の指向範囲に応じて音質調整を異ならせる。
時計部8は、計時機能やカレンダ機能を有する。制御部1は時計部8から日時情報等を入力し、音声データを記録部3に記録する際に、併せて日時情報も記録する。日時情報を記録しておくことにより、後日、音声データを検索する際に、日時情報が記録されていると便利である。
フィルタ情報部9は、電気的に書き換え可能な不揮発性メモリを有し、図2を用いて後述するフィルタ部103、第2フィルタ部106の特性を記憶する。本実施形態におけるフィルタ部103、第2フィルタ部106を通すことにより、音質が変化してしまう。例えば、フィルタ部によって、特定周波数の音声データが減衰し、また周波数帯域が変化する。そこで、音質調整部7が音声の調整を行う際に、記憶された特性を用い、ディクテーション装置でトランスクリプトを作成するか、トランスクライバー装置を用いてトランスクリプトを作成するかに応じた最適な音質の調整を行う。なお、フィルタ情報部9で記憶しているフィルタ、マイク等の特性は、通信部5を介して、ディクテーション部20等に送信される。
制御部1は、CPUとその周辺回路を有し、記録部3に記憶されたプログラムに従って、情報取得機器10内の全体制御を行う。制御部1内には、モード切換部1aとトラック入力部(フレーズ判定部)1bとを有し、これらの各部はCPUとプログラムによってソフトウエア的に実現される。なお、制御部1内の周辺回路によってハードウエア的に実現するようにしても勿論かまわない。
モード切換部1aは、ユーザが操作部6によって指定したモードを実行するように切り替えを行う。例えば、録音範囲が広範囲であるか狭範囲であるかの切り替え(図4AのS3参照)、トランスクライバー装置によって人がトランスクリプトを作成するか、ディクテーション装置によって音声認識を利用してトランスクリプトを作成するかのモードの切り替え設定(図4AのS5)等を行う。
トラック入力部1bは、ユーザの手動操作により音声の区切りの目印となる箇所にインデックスを記録する。インデックスの記録方式としては、これ以外にも、一定時間間隔で自動的にインデックスを記録してもよく、また、音声データに基づいて音声の区切れを検出し(フレーズ判定)、インデックスを記録してもよい。音声データを記録する際にこの区切れ(インデックス)も記録する。また、インデックスの記録の際に、時計部8からの録音日時情報も記録しておいてもよい。インデックスを記録しておくことにより、後で音声を聴きながら頭出する際に便利である。
なお、図1に示した情報取得機器10内には、録音機能のみを有しているが、録音機能のみならず、記録部3に記録した音声データを再生する機能を設けてもよい。この場合には、音声再生回路、スピーカ等を追加すればよい。また、操作部6に、音声再生を行うための再生釦、早送りを行うための早送り釦、早戻しを行うための早戻り釦等を追加すればよい。
ディクテーション部20は、前述したディクテーション装置に相当し、情報取得機器10によって取得された音声データを、音声認識を利用して、機械式で文書化する。前述したように、ディクテーション部20は、専用機器としてもよいが、本実施形態においては、PC50によって実現している。
通信部22は、送信回路/受信回路等の通信回路を有し、情報取得機器10の通信部5と通信を行い、情報取得機器10によって取得された音声データ等を受信する。情報取得機器10との通信は、通信用ケーブルによって電気的に接続し、有線通信を行ってもよく、また電波、光等を用いた無線通信を行ってもよい。なお、通信部22は、情報取得機器10から、マイク、フィルタ等の特性や、個人別特性等、音声認識の際に使用する情報を受信し、記録部25に記憶する。
時計部23は、計時機能やカレンダ機能を有する。制御部21は時計部23から日時情報等を入力し、ドキュメント化部21bによってドキュメントを作成する場合に、作成日時情報等を記録する。
テキスト化部24は、情報取得機器10によって取得された音声データから音声認識を用いてテキストデータを生成する。このテキストデータの生成については、図6を用いて後述する。なお、テキスト化部24は、制御部21によってソフトウエア的に実現してもよく、またテキスト化部24においてハードウエア的に実現してもよい。
記録部25は、電気的に書き換え可能な不揮発性メモリを有し、音声テキスト化辞書25a、フォーマット情報25b、音声処理テーブル25c等を記憶するための記憶領域を有する。これ以外にも音素フーリエ変換したデータを音素と一致しているか否かを判定するための音素辞書も有する(図6のS85、S89参照)。なお、記録部25は、これらの記憶領域以外にも、制御部21内のCPUを動作させるためのプログラム等、種々の情報を記憶するための記憶領域を有する。
音声テキスト化辞書25aは、音声データから音素を抽出し、これらの音素の組み合わせを文字に置き換える際に使用される辞書である(図6のS93、S97、S99参照)。また、文字の組み合わせを単語として認識する際に使用される辞書である(図6のS101、S109参照)。
フォーマット情報25bは、ドキュメントを作成する際のフォーマット情報である。ドキュメント化部21はフォーマット情報25bに従って、テキストがフォーマットし、ドキュメント30を作成する(図5のS71参照)。
音声テーブル25cは、マイク等の特性情報である。テキスト化部24において音声データから音素等に変換する際に、音声テーブル25cに記憶されたマイク等の特性を読出し、この情報を用いて変換する。その他、音声テーブル25cには、音声データから音素に変換する際に使用する情報が、マイク毎に記憶されている。また、特定の個人毎に音声の特性を記憶するようにしてもよい。
表示部26は、表示制御回路と表示モニタを有し、PC50の表示部を兼用してもよい。この表示部26には、操作部6によって設定される各種モードや、またドキュメント化部21bによって作成されたドキュメントが表示される。
制御部21は、CPUとその周辺回路を有し、記録部25に記憶されたプログラムに従って、ディクテーション部20の全体制御を行う。制御部21内には、ドキュメント化部21bを有し、このドキュメント化部21bはCPUとプログラムによってソフトウエア的に実現される。なお、制御部21内の周辺回路によってハードウエア的に実現するようにしても勿論かまわない。また、ディクテーション部20がPC50によって実現される場合には、制御部21はPC50のCPU等を含む制御部が機能を兼ねるようにしてもよい。
ドキュメント化部21bは、テキスト化部24によって変換されたテキストを、フォーマット情報25を用いて、ドキュメントを作成する(図5のS71参照)。ドキュメント30は、ドキュメント化部21bによって作成されたドキュメントの一例を示す。ドキュメント30に示す例は、病院で作成されるカルテであり、音声データに基づくテキストから、患者の氏名(またID)、年齢、性別、患部の部位、医師の所見、作成日(音声の記録日時、ドキュメントの作成日時)等が抽出されて掲載される。
再生記録機器40は、前述のディクテーション装置に相当し、人が音声を聴き、この音声に基づいて文書を作成する。すなわち、タイピスト55は、再生記録機器40によって音声を再生させ、入力部44のキーボードで文字を入力することによってトランスクリプト(ドキュメント)を作成することができる。
通信部41は、送信回路/受信回路等の通信回路を有し、情報取得機器10の通信部5と通信を行い、情報取得機器10によって取得された音声データ等を受信する。情報取得機器10との通信は、通信用ケーブルによって電気的に接続し、有線通信を行ってもよく、また電波、光等を用いた無線通信を行ってもよい。
音声再生部42は、音声再生回路やスピーカ等を有し、情報取得機器10が取得した音声データを再生する。再生の際には、トラック入力部1bによって設定されたインデックス等を利用すると便利である。再生の操作用に、再生記録機器40は再生釦、早送り釦、早戻し釦等の操作部材を有する。
入力部44は、キーボード等であり、文字入力が可能である。再生記録機器40をPC50が兼ねる場合には、PC50のキーボードであってもよい。また、記録部43は、入力部44によって入力された文字等の情報(ドキュメント、トランスクリプト)を記録する。その他、情報取得機器10から送信されてきた音声データも記録可能である。
次に、図2を用いて情報取得機器10内の収音部2に設けられたマイクロフォンについて説明する。図2は、ノイズ除去(NR)用マイクロフォンの併設時における2つのマイクロフォンの配置とその保持構成を示す断面図である。
第1マイク102は、情報取得機器10の前面からの音声を取得するためのマイクロフォンである。第1マイク102は、筐体101内に配置され、弾性保持部102bによって保持されている。すなわち、弾性保持部102bの一端は筐体101に固定され、第1マイク102は、弾性保持部102bによって空中に吊られている状態である。弾性保持部102bは、ユーザの指のこすれ音等が筐体101を通じ第1マイク102によって収音されるのを軽減する。
第1マイク102は、収音範囲102cの範囲の音声を収音することができる。この収音範囲102cの近傍で距離Zd離れた位置にフィルタ部103が配置されている。フィルタ部103は、ユーザが第1マイク102に向かって発声した場合に息等のポップノイズを軽減するためのフィルタである。このフィルタ部103は、筐体101の四隅の角に、筐体101の水平線に対して収音角度θだけ斜めに配置されている。なお、収音範囲102cの広狭は、公知の方法によりユーザによって変化させることができる。
筐体101の厚みZmは、情報取得機器10を小型にし、使いやすくするために、なるべく薄くしたい。しかし、第1マイク102とフィルタ部103の間の距離Zdを短くすると声の気流の影響を受けてしまう。そこで、距離Zdは声の気流の影響を受けない程度とし、厚みZmをなるべく薄くする。
第2マイク105は、情報取得機器10の裏面(背面)からの環境音(雑音)を取得するためのマイクロフォンである。第2マイク105は、ユーザの音声ではなく、周囲にある環境音(雑音)を取得し、第1マイク102で取得した音声データから環境音を除くことにより、再生時に明瞭な音声とする。
第2マイク105は、筐体101内に配置されており、弾性保持部105bによって保持され、この弾性保持部105bを介して筐体101に固定されている。第2マイク105は、収音範囲105cの範囲の音声を収音することができる。また、第2マイク105の筐体101側に第2フィルタ部106が配置されている。第2フィルタ部106は、雑音除去のための特性がフィルタ部103と異なっている。
フィルタ部103と第2フィルタ部106によって、音声収集の際の特性が異なっており、さらに第1マイク102と第2マイク105の録音特性も異なっている。これらの特性を考慮した特性が、フィルタ情報部9に記憶される。フィルタ特性によって特定の周波数で音声が欠落してしまう場合があり、録音時にはこの情報を参照して、音質調整部7が音質調整を行う。
筐体101内には、前述の第1マイク102、第2マイク105等の部品の他、情報取得機器10内の各部を構成する回路用の部品基板104等が配置されている。情報取得機器10は、ユーザの口201が第1マイク102に向くように、ユーザの親指202と人差し指203で把持される。収音部の高さYmは、第2マイク105の第2フィルタ部102の一旦側から第1マイク102の第1フィルタ部103までの長さである。第2マイクの弾性保持部105bは第1マイク102とは異なるクッション材で高さ対策を行っている。すなわち、本実施形態においては、第2マイク105の弾性保持部105bは、モールド材のアーム構造とすることにより、第1マイク102の弾性保持部102bよりも長手方向を短く、高さYmを小さくし、小型化を図っている。
このように、情報取得機器10内にはメインマイクとしての第1マイク102と、サブマイクとしての第2マイク105を備えている。サブマイクの第2マイク105と、メインマイクの第1マイク102は、同じ音源でからの音声であっても、微妙に音源までの距離がことなることから、2つの音声データに位相のずれが生ずる。この位相のずれを検出することによって、収音範囲を電気的に調整することが可能となる。すなわち、マイクロフォンの指向性を広げたり、狭くすることができる。
また、サブマイクの第2マイク105は、ノイズ等を含む環境音を主として収音する。そこで、メインマイクの第1マイク102の音声データから、サブマイクの第2マイク105の音声データを減算することにより、ノイズを除去し、声成分のみを抽出することもできる。
次に、図3を用いて、1つのマイクロフォンによって環境音(雑音)を除去し、声成分のみを抽出する声成分抽出部について説明する。声成分抽出部は、音質調整部7の一部である。前述したように、図2に示す情報取得機器10は、第1マイク102および第2マイク105の2つのマイクロフォンからの音声信号を用いて、声成分のみを抽出することができる。しかし、図3に示すような声成分抽出部を用いることによって、1つのマクロフォンを設けるだけでもノイズを除去し、声成分を抽出することもできる。
図3に示す声成分抽出部110は、入力部111、特定周波数音声判定部112、振動変動予測部113、および減算部114を有し、これらの各部の全部または一部はハードウエア回路で構成され、またはソフトウエアによって実現される。
入力部111は、第1マイク102に相当するユーザの音声を取得するマイクロフォンによって変換された電気信号を入力し、増幅、AD変換等の種々の処理を施す。この入力部111の出力は特定周波数音声判定部112に接続されている。特定周波数音声判定部112は、ユーザの声以外の環境音(雑音)に相当する周波数成分を抽出し、振幅変動予測部113に出力する。
振動変動予測部113は、特定周波数音声判定部112によって抽出された周波数成分の判定結果に基づいて、所定時間後の振動を予測し、この予測値を減算部114に出力する。所定時間としては、入力部111から音声データが出力されてから、減算部114において減算を行うまでの遅れ時間程度であればよい。なお、リアルタイムで減算を行う場合には、所定時間は0または0に近い値でよい。
減算部114は、入力部111から出力される音声データに対し、振動変動予測部113から出力される特定周波成分の予測値を減算し、出力する。この減算値は、ユーザの音声から周囲の環境音(雑音)が除去された明瞭が音声に相当する。
このように、図3に示す声成分抽出部によってノイズ除去を行う場合には、情報取得機器10の備えるマイクロフォンを1つに減らすことができる。このため、情報取得機器10を小型化することができる。
なお、図2に示すように2つのマイクロフォンを設ける代わりに、第1マイク102のみとし、これに図3に示すような声成分抽出部を配設することによりノイズ除去を行うことについて説明した。しかし、この構成以外にも、図2に示す情報取得機器10と、図3に示す声成分抽出部を組み合わせてもよい。この場合には、ノイズ除去を図3に示す声成分抽出部によって行い、サブマイクは位相を利用した収音範囲の調整を行う。また、図2におけるノイズ除去は、サブマイクで収音した環境音(ノイズ、全周波数)によって行っており、一方、図3におけるノイズ除去は、特定周波成分に着目して行っており、ノイズ除去の方法は異なっている。そこで、両者を組み合わせてノイズ除去を行うようにしてもよい。
次に、図4Aおよび図4Bに示すフローチャートを用いて、情報取得機器10における録音処理について説明する。このフローは、制御部1内のCPUが記録部3内に記憶されたプログラムに従って情報取得機器10内の各部を制御することにより実行される。
図4Aのフローがスタートすると、まず録音か否かについて判定する(S1)。ここでは、ユーザが操作部6の録音釦を操作したか否かに基づいて判定する。
ステップS1における判定の結果、録音を開始する場合には、次に、指向性が強か否かについて判定する(S3)。ユーザは操作部6を操作することにより、第1マイク102の指向性の範囲を狭くする(指向性強)ことができる。このステップでは、マイクの指向性が狭く設定されているか否かについて判定する。なお、前述の第1モードが設定されている場合には、ステップS3において指向性弱と判断され、一方、第2、第3モードが設定されている場合には指向性強と判断される。
ステップS3における判定の結果、指向性が強い場合には、次に、トランスクライバーか否かの判定を行う(S5)。前述したように、トランスクリプトを作成するには、再生記録装置40を用いて録音済みの音声を再生し、この再生音を聴いて人がキーボードによって文字を入力する方法(トランスクライバー:Yes)と、ディスクテーション部20によって機械的に、すなわち音声認識を利用して、音声を自動的に文字に変換する方法(トランスクライバー:No)があり、本実施形態においては、いずれかを選択できるようにしている。なお、前述の第2モードが設定されている場合にはトランスクライバーNoと判断され、第3モードが設定されている場合にはトランスクライバーYesと判断される。
ステップS5における判定の結果、トランスクライバーでない場合、すなわち音声認識を利用してディスクテーション部20によって音声データをテキストに変換する場合には、次に、ノイズ予測または判定を行う(S7)。ここでは、第2マイク105によって取得した環境音(雑音)に基づいて、ユーザの声の録音中におけるノイズの予測(判定)を行う。一般に、環境音(雑音)は定常的に同一レベルとなることから、録音開始時等に環境音(雑音)を測定すれば、十分である。但し、録音中もノイズ予測(判定)を行えば、ノイズ除去の精度を高くすることができる。また、上述の方法に代えて、または加えて、図3に示す声成分抽出部の特定周波数音声判定部112および振動変動予測部113を利用してノイズ予測を行ってもよい。
ノイズ予測または判定を行うと、次に、逐次適応型ノイズ除去を弱めて行う(S9)。ここでは、音質調整部7が、ノイズを逐次検出し、ノイズの状況に応じて逐次ノイズ除去を行う逐次適応型のノイズ除去の強度を弱くして行う。また音声認識を利用して音声データをテキストに変換する場合には、ノイズ除去の強度を強くすると、音声(音素)の波形が変化してしまい、音声認識を精度よく行うことができない。そこで、ノイズ除去の強度を弱くし、できるだけ元の音声波形を保つようにしている。このため、ディクテーション部20で音声認識を行うに適したノイズ除去を行うことができる。
ステップS9における逐次適応型のノイズ除去は、音質調整部7が、図2に示すようなメインマイク(第1マイク102)の音声データから、サブマイク(第2マイク105)の音声データを減算することにより行う。この場合、サブマイクの音声データの値をそのまま減算するのではなく、重み付け係数を乗算した値を減算する。後述するステップS19において逐次適応型ノイズ除去を行うが、ステップS19の場合と比較し、乗算のための重み付け係数の値を小さくすることにより、ノイズ除去の強度を小さくする。
また、ステップS9においては、逐次適応型ノイズ除去に代えて、または加えて、個人別特徴強調型のノイズ除去を行ってもよい。個人別特徴強調型ノイズ除去は、音質調整部7がフィルタ情報部9(または記録部3)に記憶されている個人別の音声の特性に応じたノイズ除去を行う。また、マイク特性等、機器の特性に応じた録音調整を行うようにしてもよい。
ステップS9において、逐次適応型ノイズ除去を行うと、次に、周波数帯域調整を行う(S10)。ここでは、音質調整部7、音声データの帯域の調整を行う。ディクテーション部20によって音声認識を行うに相応しい音声データ(例えば、200Hz〜10KHz)の音声帯域となるように音声処理を施す。
ステップS10において、周波数帯域調整を行うと、次に、音素判定を行う際に使用する補完用除去ノイズを記録する(S11)。ステップS9においてノイズ除去を行っている。音声データを用いて音素を判定する場合にはノイズを除去しすぎた場合には精度が低下する。そこで、このステップでは、除去したノイズを記録しておき、音素判定を行う場合には音声データを復元できるようにしている。復元にあたっては、最初から完全に復元しなくてもよく、徐々に元の波形に近づけた音声波形を生成し、音声波形を生成するたびに音素判定を行うようにしてもよい。ノイズ除去と補完用除去ノイズの記録の詳細については図8を用いて後述する。
除去ノイズを記録すると、次に、録音が終了か否かを判定する(S13)。ユーザは録音を終了する場合には、録音釦等の操作部6の操作部材を操作する。このステップではこの操作状態に基づいて判定する。この判定の結果、録音終了でない場合には、ステップS7に戻り、音声認識によるトランスクリプト作成用(ディクテーション用)の録音を続行する。
ステップS13における判定の結果、録音終了であった場合には、次に、音声ファイル化を行う(S15)。録音中は、収音部2によって取得し音質調整部7でノイズ除去や周波数帯域調整等の音質調整がなされた音声データが一時記憶されている。録音が終了すると、一時記憶された音声データのファイル化を行い、生成された音声ファイルを記録部3に記録する。記録された音声ファイルは、通信部5を介してディテーション部20および/または再生記録機器に40に送信される。
また、ステップS15における音声ファイル化の際に、マイク特性、修復情報も記録する。マイクの周波数特性等の各種特性に応じて音素判定や音声認識等を行うと、精度が向上する。また、ステップS11において一時記憶した除去ノイズも音声ファイルを生成する際に併せて記録する。音声ファイルの構造については、図9を用いて後述する。
ステップS5に戻り、このステップにおける判定の結果がトランスクライバーの場合、すなわち再生記録装置40によって、音声を再生し、この再生音を聴いて人がトランスクリプト(ドキュメント)を作成する場合には、まず、ノイズ予測、または判定を行う(S17)。ここでは、ステップS7と同様に、ノイズ予測またはノイズ判定を行う。
続いて、逐次適応型ノイズ除去を行う(S19)。ここでは、ステップS9と同様、ノイズを逐次検出し、ノイズを音声から減算する逐次ノイズ除去を行う。但し、ステップS9の場合に比較し、重み付け係数を大きくすることにより、ノイズ除去のレベルを強くし、明瞭な音声となるようにしている。ステップS19における逐次適応型ノイズ除去は、トランスクライバーによってトランスクリプトを作成するにあたって、人が聴きとり易い音声となるようにノイズ除去を行う。音声認識を行う場合には、ノイズ除去を強くすると音声波形が本来の形よりゆがめられてしまい、音声認識の精度が低下するが、人が聴く場合には、ノイズが完全に除去された方が聴きやすいからである。
なお、ノイズ分を減算するにあたって、所定時間後を予測して行ってもよく(予測成分減算型ノイズ除去)、またはリアルタイムでノイズ除去を行ってもよく、状況に応じて適宜選択してもよい。例えば、ポケットに情報取得機器10を入れて録音する際に、情報取得機器と服が擦れてノイズ音が発生する場合がある。このようなノイズ音は、時間と共に変動することから、このノイズ音の除去には予測成分減算型ノイズ除去が効果的である。
逐次適応型ノイズ除去を行うと、次に、周波数帯域調整を行う(S20)。ステップS10においても周波数帯域調整を行うが、このステップでは、再生記録装置40によって、音声を再生する際に、聴きとり易く明瞭な音声となるような音声データ(例えば、400Hz〜8KHz)の音声帯域となるように音声処理を施す。
続いて、要所でインデックスを記録する(S21)。ここでは、記録された音声データを再生する際の頭出し用のインデックスを記録する。すなわち、ユーザが頭出したい箇所で、操作部6の操作部材を操作するので、この操作に応じて、音声データにインデックスを付与する。
インデックスを付与すると、次に、録音終了か否かを判定する(S23)。ここでは、ステップS13と同様に、録音釦の操作状態に基づいて判定する。この判定の結果、録音終了でない場合には、ステップS17に戻る。
一方、ステップS23における判定の結果、録音終了でなかった場合には、音声ファイル化を行う(S25)。ここでは、録音開始から録音終了までの間、一時記憶された音声データを音声ファイル化する。ステップS15における音声ファイルは、音声認識によってトランスクリプトを作成するために、機械によって音声を認識するための情報(例えば、マイク特性、修復情報)を記録していた。しかし、音声認識が必要ないので、これらの情報を省略しても構わない。
ステップS3に戻り、このステップにおける判定の結果、指向性が強くない場合(指向性が広い)には、トランスクライバーを行うか否かに係りなく、また、特段のノイズ除去を行うことなく、ステップS31以下において録音を行う。一般に、音声認識を利用して一人の話し手の音声からトランスクリプトを作成するためには、話し手の音声に集中するために指向性を強く(狭範囲)して行われる。これに対して、会議など周囲の音声を広範囲から収音する場合には、別モードで録音することが望ましい。
まず、ステップS21と同様に、要所でインデックスを付与する(S31)。前述したように、ユーザの指定に応じて、頭出し用にインデックスを音声データに付与する。続いて、録音終了か否かを判定する(S33)。ここでは、ステップS13、S23と同様に、ユーザが録音終了のための操作をしたか否かに基づいて判定する。この判定の結果、録音終了でない場合には、ステップS31に戻る。一方、ステップS33における判定の結果、録音終了の場合には、ステップS25と同様に、音声ファイル化を行う(S35)。
ステップS1に戻り、このステップにおける判定の結果、録音を行わない場合には、学習録音か否かを判定する(S41)。ここでは、ステップS9における個人別特徴強調型のノイズ除去を行うために、個人の特徴を検出するか否かを判定する。ユーザは、操作部6の操作部材を操作することによって、この学習モードを選択するので、このステップでは、操作部6による操作がなされたか否かを判定する。
ステップS41における判定の結果、学習録音を行う場合には、個人設定を行う(S43)。ここでは、学習を行う者の個人名等の情報を設定する。
個人設定を行うと、次に、教材対応学習を行う(S45)。個人の特徴を検出するにあたって、予め用意してあるテキスト等を被検者に読み上げてもらい、このときの音声を収音する。この収音によって取得した音声データを用いて、個人別の特徴を検出する。
続いて、学習済みか否かの判定を行う(S47)。ここでは、ステップS45において用意した全ての教材について被検者が読み上げ、個人別の特徴を検出できたか否かに基づいて判定する。この判定の結果、学習済みでない場合には、ステップS45に戻り学習を続ける。
一方、ステップS47における判定の結果、学習済みであった場合には、特徴を記録する(S49)。ここでは、ステップS45において検出された個人別の特徴を記録部3またはフィルタ情報部9に記録する。ここで記録した個人別の特徴を用いて、ステップS9における個人別特徴強調型のノイズ除去を行う。また、通信部5を介してディクテーション部20に個人別の特徴を送信し、音声認識する際に利用するようにしてもよい。
ステップS41に戻り、このステップにおける判定の結果、学習録音でない場合には、記録部3に記録された音声ファイルをディクテーション部20または再生記録機器40等の外部に送信するための処理を行う。まず、ファイル選択を行う(S51)。ここでは、記録部3に記録されている音声ファイルの中から外部に送信する音声ファイルを選択する。情報取得機器10には表示部が設けてある場合には、この表示部に音声ファイルを表示すればよく、また情報取得機器10に表示部がない場合にはPC50に表示させるようにしてもよい。
ファイルを選択すると、次に、再生する(S53)。ここでは、選択された音声ファイルを再生する。情報取得機器10に再生部が設けられていない場合には、このステップを省略する。
続いて、送信するか否かを判定する(S55)。ユーザは、ステップS51において選択した音声ファイルを、ディクテーション部20や再生記録機器40等の外部機器に送信する場合には、操作部6を操作し、送信先を設定した後、送信釦を操作する。
ステップS57において送信すると、またはステップS49において特徴を記録すると、またはステップS47における判定の結果、学習済みでない場合に、またステップS35、S25、S15において音声ファイルを作成すると、このフローを終了する。
このように、図4A、図4Bに示すフローにおいては、人が音声を再生し、聴きながら文書を作成するトランスクライバーを行うか、それとも音声認識によって機械的に文書を作成するかによって、音質調整部7はそれぞれの特性に応じたノイズ除去や音声の周波数帯域の調整を行うようにしている(ステップS9、S10、S19、S20参照)。
また、ノイズ除去を行う場合には、音声認識によるトランスクリプトの作成に比較し、トランスクライバーによってトランスクリプトを作成する場合の方が、ノイズ除去のレベルを強くするようにしている(ステップS9、S19参照)。ノイズ除去を強くすると、音声認識の精度が低下するからである。逆にいうと、音声認識によるトランスクリプト作成の方が、ノイズ除去の強度を弱くしている。
また、周波数帯域の調整を行う場合には、トランスクライバーによるトランスクリプトの作成に比較し、音声認識によるトランスクリプトの作成の方が、周波数帯域を広くしている(ステップS10、S20参照)。特に、下限周波数についてみれば、音声認識によるトランスクリプト作成の方が、下限周波数を低くしている。音声認識の場合は、音素を識別できるように、なるべく広い周波数帯域の音声データを用いる方が精度を高くできるからである。
また、ステップS7以下の機械式音声認識用の録音を行う場合に、マイク特性等、機器の特性に応じた録音調整を行うようにしている(ステップS9参照)。これによって、マイクの特性を考慮できるので、精度の高い音声認識を行うことができる。
また、ノイズ除去する場合に元の音声データがゆがめられてしまい、音声認識の精度が低下してしまうので、本実施形態においては、除去したノイズの波形等の音声データを記録している(ステップS11参照)。音声認識の際に、この記録された除去ノイズデータを用いて、音声データを復元することにより、音声認識の精度を向上させることができる。
また、音声認識によるトランスクリプト作成用の録音の場合に、音声データから音声ファイルを生成する際に、マイク特性および/または修復情報等も併せて記録するようにしている(ステップS15、図9参照)。音声認識の際に、音声ファイルに記録されたこれらの情報を用いることにより音声認識の精度を向上させることができる。
また、マイクの指向性が強い場合(指向性が狭い場合)について、トランスクライバー用か否かに応じて、ノイズ除去の仕方を変更している。指向性が広い場合には、ノイズの影響が弱いのに対して、指向性が狭くなると、ノイズの影響が顕著になる。このため、トランスクライバー用か否かに応じてノイズ除去の仕方を変更している。
また、個人別特徴強調型ノイズ除去を行うために学習録音を行っている(S41〜S49)。個人毎に話し方の特徴があることから、この特徴に応じた音声認識を行うことにより、音声認識の精度を向上させることができる。
なお、本実施形態においては、ステップS5におけるトランスクライバーか否かに応じて、ステップS7以下の録音を実行するか、ステップS17以下の録音を実行するか、いずれか一方を択一的に実行していた。しかし、これに限らず、ステップS7以下の録音とステップS17以下の録音を並行して行うようにしてもよい。この場合には、トランスクライバー装置用の音声データと、ディクテーション装置用の音声データを同時取得することができ、録音終了後に、トランスクリプトの方法を選択することができる。
また、トランスクライバー装置用の音声データと、ディクテーション装置用の音声データを取得する際には、いずれの場合であっても、ノイズ除去および周波数帯域の調整を行っていた。しかし、両方を行わず、いずれか一方のみでよい。
次に、図5に示すフローチャートを用いて、ディクテーション部20または再生記録機器40におけるトランスクリプトの作成について説明する。このフローは、ディクテーション部20の場合には、制御部21内のCPUが記録部25に記憶されたプログラムに従って、ディクテーション部20内の各部を制御することにより、実現する。また、再生記録機器40の場合には、再生記録機器40内の制御部に設けられたCPUが、再生記録機器40内に記憶されたプログラムに従って、再生記録機器40内の各部を制御することにより実現する。
図5に示すフローが開始すると、まず、ファイルを取得したか否かを判定する(S61)。情報取得機器10は、ステップS57において選択した音声ファイルをディクテーション部20または再生記録装置40に送信する。このステップでは、音声ファイルが送信されてきたか否かを判定する。この判定の結果、ファイルが取得されていない場合には、取得されるのを待つ(S63)。
ステップS61における判定の結果、音声ファイルを取得すると、音声再生を行う(S65)。再生記録機器40の音声再生部42は、取得した音声ファイルを再生する。またディクテーション部20は音声再生部を有してもよく、この場合には、取得した音声ファイル確認用に音声を再生する。なお、音声再生部を有していない場合には、このステップを省略してもよい。
続いて、音声データを文字に変換する(S67)。ディクテーション部20のテキスト化部24がトランスクリプトを作成する場合には、情報取得機器10が取得した音声データの音声認識を行い、テキストデータに変換する。このテキストデータへの変換については、図6を用いて後述する。また、文字への変換は、人が再生記録機器40(トランスクライバー装置)によって音声を再生しながら入力部44のキーボード等を操作することにより、文字を入力するようしてもよい。このトランスクライバーについては、図7を用いて後述する。
音声データを文字に変換すると、次に、項目判定可能か否かを判定する(S69)。本実施形態は、例えば、話し手が話した内容を、図1のドキュメント30に示されるような項目毎に記載したドキュメントを作成することを想定している。このステップでは、ステップS67において変換した文字が、ドキュメント作成のための項目に適合しているか否かを判定する。なお、ドキュメント作成のために使用する項目は、記録部25のフォーマット情報25bに記録されている。
ステップS69における判定の結果、項目判定が可能な場合には、ドキュメントを作成する(S71)。ここでは、フォーマット情報25bに従って、例えば、図1のドキュメント30のような項目毎に整理された文書を作成する。
一方、ステップS69における判定の結果、項目判定できない場合には、警告を行う(S73)。音声データに基づいて、ドキュメントを作成することができない場合であり、その旨を表示部26に表示する。警告を行うと、ステップS65に戻り、項目判定できるまで、ステップS67において文字に変換する際の条件等を修正して、文字に変換してもよく、またユーザが手動で文字を入力するようにしてもよい。
ステップS71においてドキュメント化を行うと、次に、終了か否かを判定する(S75)。トランスクリプショニストが全ての音声データを用いてドキュメントを作成した場合、またはユーザがディクテーション部20によって、音声認識を利用したディクテーション動作を終了した場合に、終了と判定する。この判定の結果、終了でない場合には、ステップS65に戻り、文字化とドキュメントの作成を続行する。
ステップS75における判定の結果、終了の場合には、記録を行う(S77)。ここでは、ステップS71に生成されたドキュメントを記録部25に記録する。ドキュメントを記録すると、ステップS61に戻る。
人が再生記録機器40を用いてドキュメントの作成を行う場合には、ステップS69〜S75の処理は、人が判断して行う。
このように図5に示すフローにおいては、音声データを文字に変換し(ステップS67参照)、変換した文字を予め設定してあるフォーマットに従って(図1のフォーマット情報25b参照)、ドキュメントを作成している(ステップS69、S71参照)。このため、話し手の話した内容を項目に沿って整理した文書にすることができる。なお、単に音声データを文字に変換するだけでよいのならば、ステップS69〜S73を省略すればよい。
次に、図6に示すフローチャートを用いて、ステップS67における文字化を、ディクテーション部20によって実現する場合の動作について説明する。この動作は、制御部21内のCPUが記録部25に記憶されたプログラムに従って、ディクテーション部20内の各部を制御することにより、実現する。
図6に示すフローが開始すると、まず、波形分解を行う(S81)。ここでは、テキスト化部24が、情報取得機器10から送信されてきた音声データの波形を分解する。具体的には、次のステップの音素フーリエ変換のため、音素の切れ目となるタイミングで波形を分解する。音素は、母音や子音等に相当し、音声データの強度レベルの谷間となるタイミング等で区切ればよい。
波形分解すると、次に、音素をフーリエ変換する(S83)。ここでは、テキスト化部24が、ステップS81において波形分解された音素単位の音声データをフーリエ変換する。
音素フーリエ変換すると、次に、音素辞書照合を行う(S85)。ここでは、記録部25に記憶された音素辞書を用いて、ステップS83においてフーリエ変換されたデータと照合する。
ステップS85における判定の結果、フーリエ変換されたデータと、音素辞書に記載のデータが一致しない場合には、波形幅を変更する(S87)。音素辞書に一致するデータがないのは、ステップS81における波形分解の際の波形幅が適切でなかった可能性があることから、波形幅を変更して、ステップS83に戻り、音素フーリエ変換を行う。また、波形幅変更に代えて、または波形幅変更に加えて、周波数補助を行う。音声データからノイズ成分が除去されたために、波形が歪み音素に分解できない場合がある。そこで、周波数補助を行うことにより、ノイズ成分の除去がない音声データに復元する。この周波数補助の詳細については、図8を用いて後述する。
ステップS85における判定の結果、音素辞書と一致するデータがあった場合には、音素に変換する(S89)。ここでは、ステップS85における辞書照合の結果に基づいて、ステップS83でフーリエ変換された音声データを音素に置き換える。例えば、日本語の場合には、子音字「k」、母音字「a」等に置き換える。中国語の場合にはピンインに置き換えればよく、英語等の他言語の場合には、発音記号(音声記号、音素記号)に置き換えればよい。いずれにしても、言語毎に最適な音素表記に置き換えればよい。
音素に変換すると、次に、音素集合を作成する(S91)。ステップS81〜S89において、音声データが、順次、音素に変換されるので、これらの変換された音素の集合を作成する。これによって、音声データが母音字や子音字の集合体となる。
音素集合を作成すると、次に、文字辞書の照合を行う(S93)。ここでは、ステップS93において作成した音素集合と音声テキスト化辞書25aと比較し、音素集合と、音声テキストが一致するか否かを判定する。例えば、音声データが日本語の音声から生成された場合であって、ステップS91において音素「k」と「a」から音素集合「ka」が作成された場合、この音素集合と、文字辞書を照合した場合に、「ka」が日本語の文字「か」と一致する。日本語以外の言語の場合には、言語に応じて文字に変換できるか判定すればよい。中国語の場合には、音素として、四声等も考慮して文字に変換する。また、音素集合体から一対一に文字に変換できない場合には、ステップS97、S99をスキップし、音素表記の集合体を直接、単語に変換してもよい。
ステップS93における判定の結果、文字辞書と照合した結果、一致する音素集合がなかった場合には、音素集合を変更する(S95)。この場合は、音素集合と全ての文字を照合した結果、照合する文字がなかった場合であり、音素集合の組み合わせを変更する。例えば、「sh」で文字辞書と照合した場合に、照合する文字が無い場合には、次の音素「a」を加え、「sha」に音素集合を変更する。音素集合を変更すると、ステップS93に戻り、文字照合を再び行う。
一方、ステップS93における判定の結果、文字辞書照合と照合した結果、一致する音素集合があった場合には、文字化を行う(S93)。ここでは、辞書と一致した文字に確定する。
文字化を行うと、次に、文字集合を作成する(S99)。ステップS93における音素集合と文字辞書との照合が行われるたびに、単語をなす文字が増えていく。例えば、音声が日本語の場合、最初、「か」が決まり、次の音素集合で「ら」が決まると、文字集合として「から」が決まる。また、更に次の音素集合で「す」が決まったとすると、文字集合として「からす」が決まる。
文字集合を作成すると、次に文字集合と単語との照合を行う(S101)。ここでは、ステップS99において作成された文字集合を、音声テキスト化辞書25aに記録されている単語と照合し、一致する単語があるか否かを判定する。例えば、音声が日本語の場合、文字集合として「から」が作成されても、音声テキスト化辞書25aに「から」が記録されていない場合には、単語が照合されないと判定される。
ステップS101における判定の結果、文字集合と一致する単語がない場合には、文字集合を変更する(S103)。一致する単語がない場合には、次の文字と組み合わせてみる。また、前の文字と組み合わせを変えてもよい。
文字集合を変更すると、単語の照合の処理回数が所定回数を越えたか否かを判定する(S105)。ここでは、ステップS101における単語の照合の回数が予め決められた回数を越えたか否かを判定する。この判定の結果、単語の照合の回数が所定回数を越えていない場合には、ステップS101に戻り、文字集合と単語が一致するか否かの判定を行う。
一方、ステップS105における判定の結果、単語の照合の回数が所定回数を越えている場合には、音素集合を変更する(S107)。ここでは、ステップS91において作成した音素集合が正しくないために、文字集合と一致する単語がないと判断し、音素集合自体を変更する。音素集合を変更すると、ステップS93に戻り、前述の処理を実行する。
ステップS101に戻り、このステップにおける判定の結果、文字集合と一致する単語があった場合には、単語化を行う(S101)。ここでは、辞書と一致した単語に確定する。日本語の場合には、漢字に変換して確定してもよい。
単語を確定すると、記録する(S111)。ここでは、確定した単語を記録部25に記録する。なお、単語が確定するたびに、表示部26に順次表示するようにしてもよい。ユーザは、表示された単語に誤りがある場合には、逐次、修正してもよい。さらに、ディクテーション部20に学習機能を持たせ、音素、文字、単語への変換の精度を向上させるようにしてもよい。また、一旦、確定した単語であっても、文章中で意味を考慮して誤っていると判断された場合には、自動的に修正してもよい。特に、漢字の場合には、同音であっても異なる字の場合があり、また英語等の場合には、同音であっても綴り字の異なる場合があることから、適宜、自動的に修正するようにしてもよい。記録を行うと、元のフローに戻る。
このように、本実施形態におけるディクテーション部20による機械式音声認識は、情報取得機器10によって取得された音声データを波形分解し、この分解された音声データをフーリエ変換することにより、音素を抽出している(S81〜S89)。フーリエ変換により音素を抽出できない場合には、波形分解の際の波形幅を変えたり、またノイズ除去によって変形した波形を元の波形に復元したりして(周波数補助)、再度、音素を抽出している。このため、音声データから音素への変換精度を向上させることができる。
また、本実施形態においては、音素を組み合わせて音素集合を作成し、この音素集合と文字辞書とを照合することにより、音声データから文字を抽出している(S91〜S97)。さらに、抽出した文字から単語を抽出している(S99〜S109)。これらの抽出の際に、文字を抽出できない場合(S93No)、単語を抽出できない場合(S101)には、音素集合や文字集合を変更し(S95、S103、S105)、再度、照合を行うようにしている。このため、音声データから単語への変換精度を向上させることができる。なお、言語によって、音素と単語の記載の関係が異なることから、言語の特性に合わせて、音素から単語に変換するまでの処理項目や処理手順を適宜設定すればよい。
次に、図7に示すフローチャートを用いて、人が音声を聴きながらトランスクリプト(文書)を作成するトランスクライバーの処理について説明する。このフローチャートは、人が再生記録機器40によって音声を再生しながら、キーボード等を操作することにより、音声を文書に変換する。
図7に示すトランスクライバーのフローを開始させると、まず、ユーザは特定フレームまで音声を再生する(S121)。前述したように、情報取得機器10で音声を記録する際に、再生記録機器40(トランスクライバー)で文書を作成することを予定している場合には(図4AのS5Yes)、ノイズ除去は人が音声を聴き易いように、ノイズ除去を行い(図4AのS19)、周波数帯域の調整を行い(図4AのS20)、また要所でインデックスを付与している(図4AのS21)。ここでは、ユーザは音声再生部42を操作し、付与されたインデックスの位置を利用して特定フレーズまで音声を再生する。
特定フレーズまで再生すると、ユーザが音声の内容を理解できたか判断する(S123)。音声にノイズが多い等により音声の内容を理解することができない場合がある。この判断の結果、ユーザが音声の内容を理解できない場合には、聴き易くして聞き返しする(S125)。ここでは、ユーザが再生速度、再生音質等、再生条件を変えることにより聴き易くする。また、ノイズ除去した音声データの再生のため各種パラメータを変更してもよい。
ステップS123における判定の結果、ユーザが内容を理解することができた場合には、理解した音声を単語に変換する(S127)。ここでは、ユーザが理解した単語を、入力部44のキーボード等を操作することにより、入力する。
単語に変換すると、再生記録機器40の記録部43に変換した単語を記録する(S129)。記録すると、次の特定フレーズまで再生し、同様に、単語に変換し、記録部43に変換した単語を記録する。この動作を繰り返し行うことにより、音声を文書に変換し、記録部43に記録することができる。
このように、本実施形態におけるトランスクライバーは、ユーザが記録された音声を再生する際に、明瞭に聴きとれるような音声データで記録しておく。このため、機械式音声認識用の音声データと異なり、人が精度よく文書を作成できるような音で再生することができる。
次に、図8を用いて、図4AのS11の除去ノイズ記録、および図6のS87において用いられる周波数補助について説明する。
図8(a)は、音声データの周波数ごとのパワーの関係を示す音声波形Vocの一例を示し、横軸は周波数を、縦軸はパワーである。図8(a)の拡大図Larは、音声データの一部を拡大したものであり、図に示すように、パワーは周波数に応じて細かく変化している。この細かい変化が人の声の特徴、言い換えると音素の特徴となっている。すなわち、音声データから音素等を抽出するにあたって、この細かく変化する周波数ごとのパワーの波形を忠実に再現しないと、音声認識を精度よく行うことができない。
図8(b)は、音声波形VocにノイズNoiが重畳した場合を示す。人が音声を聴いて文書を作成する場合(トランスクライバー)には、ノイズNoiが音声波形Vocに重畳していると、聴きとり難い。そこで、図8(c)に示すように、音声波形VocからノイズNoiを除去し、ノイズ除去波形Noi−redを生成する。
このノイズ除去波形Noi−redは、ノイズが除去されていることから、人が音声を再生して文字に変換するトランスクライバーを行うに適している。しかし、図8(a)の拡大図Larに示したような、周波数に応じて細かく変化する音声のパワーも除去されてしまうことから、ディクテーション部20で行う音声認識を行うには不適当である。
そこで、図8(d)に示すように除去ノイズNoi−recを、ノイズ除去した音声データと一緒に記録しておく。そして、音声認識を行う場合には、音声データノイズ除去した音声データを、除去ノイズNoi−recを用いて、除去前の音声データに復元するようにする(図6のS87の周波数補助参照)。除去ノイズNoi−recを用いて、元の音声に100%一致するように復元しなくても、徐々に元の音声に近づくように音声データを修正し、修正するたびに、音声認識を行うようにしてもよい。
なお、除去ノイズNoi−recを記録する以外にも、ノイズ除去した音声データと、ノイズ除去を行わない音声データの両方を記録しておき、トランスクライバーを行う際にはノイズ除去した音声データを再生し、一方、音声認識を行う場合にはノイズ除去を行わない音声データを使用するようにしてもよい。
次に、図9を用いて、図4のステップS15において生成する音声ファイルの構成について説明する。この音声ファイルは、前述したように、機械式音声認識を行うに適した音声データを記録する際のファイルである。図9に示すように、通常記録されるファイル名、音声データ、記録の日時情報等に加えて、修復情報、マイク特性、ノイズ除去(NR)、指向性情報等が記録される。
修復情報は、ノイズ除去等によって音声波形を修正した場合に、元の音声波形に復元するための情報である。マイク特性は、個々のマイクによって周波数特性が異なっており、この個々の周波数特性の相違を修正するための情報である。ノイズ除去(NR)情報は、ノイズ除去の有無、またノイズ除去の内容等を示す情報である。指向性情報は、図2を用いて説明したように、マイクロフォンの指向範囲を示す情報である。修復情報、マイク特性、ノイズ除去情報、指向性情報等を用いて音声データを修正することにより、音声認識の精度を向上させることができる。
次に、図10を用いて、トランスクライバーを行うか否かの切り替えを自動的に行う例について説明する。図10(a)は、ユーザが手56で情報取得機器10を持っている状態を示し、図10(b)は、情報取得機器10をスタンド10Aに載置した状態を示す。
図10(a)に示す状態では、姿勢判定部4が手ブレを検出することから、制御部1はユーザが情報取得機器10を手に持っている状態と判断する。この場合には、ユーザは情報取得機器10に向かって音声を吹き込んでいることが多い。そこで、この場合には、図4AのフローのステップS3において指向性が強いと判断し、そしてステップS5においてトランスクライバーではないと判断して、ステップS7以下の機械式音声認識に相応しい録音を行う。
一方、図10(b)に示す状態では、姿勢判定部4が手ブレを検出しないことから、制御部1はユーザが情報取得機器10をスタンド10Aに載置した状態と判断する。この場合には、複数の話し手がおり、種々の方向から音声あることが多い。そこで、この場合には図4AのステップS3において指向性が弱いと判断し、ステップS31以下において録音を行う。
以上説明したように、本発明の一実施形態においては、音声を音声データに変換して記録する際に、音声認識によってトランスクリプトを作成する場合と(図4AのS5No)、人が音声を聴いてトランスクリプトを作成する場合で(図4AのS5Yes)、音声データの音質調整を異ならせる(図4AのS9、S19)。人が音声を聴いて文書にする場合と、機械が音声認識を用いて音声をトランスクリプトに変換する場合で、それぞれの特性に相応しい音声記録を行うことができる。
なお、本発明の一実施形態においては、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、音質調整を行うにあたってノイズ除去や周波数帯域を異ならせていたが、音質調整としてはノイズ除去、周波数帯域の調整等に限らず、他の音質調整の項目、例えば、特定周波数帯域の強調処理についても異なるようにしてもよい。また、男性と女性、大人と子供、アナウンサー等の職業人、指向性等を考慮して音質調整を自動的または手動設定で行うようにしてもよい。
また、本発明の一実施形態においては、音質調整部7、収音部2、記録部3、姿勢判定部4等を、制御部1とは別体の構成としたが、各部の全部または一部をソフトウエアで構成し、制御部1内のCPUによって実行するようにしても勿論かまわない。また音質調整部をハードウエア回路によって構成する以外にも、DSP(Digital Signal Processor)等のプログラムコードで実行される回路で実現するようにしてもよく、ヴェリログ(Verilog)によって記述されたプログラム言語に基づいて生成されたゲート回路等のハードウエア構成でもよい。
また、制御部1内のCPUの機能の一部をDSP等のプログラムコードで実行される回路で実現するようにしてもよく、ヴェリログによって記述されたプログラム言語に基づいて生成されたゲート回路等のハードウエア構成でもよく、またハードウエア回路によって実現するようにしてもよい。
また、本明細書において説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。
また、本発明の一実施形態においては、図3および図4のフローチャートを用いて、本実施形態における動作を説明したが、処理手順は、順番を変えてもよく、また、いずれかのステップを省略してもよく、ステップを追加してもよく、さらに各ステップ内における具体的な処理内容を変更してもよい。
また、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず」、「次に」等の順番を表現する言葉を用いて説明したとしても、特に説明していない箇所では、この順で実施することが必須であることを意味するものではない。
本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
1・・・制御部、1a・・・モード切換部、1b・・・トラック入力部、2・・・収音部、3・・・姿勢判定部、4・・・記録部、5・・・通信部、6・・・操作部、7・・・音質調整部、8・・・時計部、9・・・フィルタ情報部、10・・・情報取得機器、10A・・・スタンド、20・・・ディクテーション部、21・・・制御部、21b・・・ドキュメント化部、22・・・通信部、23・・・時計部、24・・・テキスト化部、25・・・記録部、25a・・・音声テキスト化辞書、25b・・・フォーマット情報、25c・・・音声処理テーブル、26・・・表示部、30・・・ドキュメント、40・・・再生記録機器、41・・・通信部、42・・・音声再生部、43・・・記録部、44・・・入力部、50・・・パーソナルコンピュータ(PC)、55・・・タイピスト、56・・・手、101・・・筐体、102・・・第1マイク、102b・・・弾性保持部、102c・・・収音範囲、103・・・フィルタ部、104・・・基板、105・・・第2マイク、105b・・・弾性保持部、105c・・・収音範囲106・・・第2フィルタ部、110・・・声成分抽出部、111・・・入力部、112・・・特定周波数音声判定部、113・・・振幅変動予測部、114・・・減算部、201・・・ユーザの口、202・・・ユーザの親指、203・・・ユーザの人差し指
Claims (8)
- 音声を音声データに変換するための収音部と、
上記音声データの音質を調整する音質調整部と、
を有し、
上記音質調整部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、音質調整を異ならせることを特徴とする音声取得機器。 - 上記音質調整部は、音声データに重畳するノイズ成分の除去の調整、または周波数帯域の調整を行い、
さらに、上記音質調整部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、ノイズ成分の除去の程度、ノイズ成分の除去の仕方を異ならせる、または周波数帯域の範囲を異ならせる、
ことを特徴とする請求項1に記載の音声取得機器。 - 上記収音部の収音特性に関する収音特性情報および/または修復情報を記憶する記憶部を有し、
上記音質調整部は、上記収音特性情報および/または修復情報に基づいて音質調整を異ならせることを特徴とする請求項1に記載の音声取得機器。 - 上記音質調整部は、音声データに重畳するノイズ成分の除去を行い、
さらに、除去された上記ノイズ成分を記憶する第2記憶部を有することを特徴とする請求項1に記載の音声取得機器。 - 上記収音部は、その指向範囲を異ならせることができ、
上記音質調整部は、上記収音部の指向範囲に応じて音質調整を異ならせることを特徴とする請求項1に記載の音声取得装置。 - 上記音質調整部によって調整された音声データを記録する記録部を有し、
上記記録部は、音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合のそれぞれに相応しい音質調整を行った音声データを、2系統並行して記録することを特徴とする請求項1に記載の音声取得機器。 - 音声を音声データに変換し、
音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、上記音声データの音質調整を異ならせる、
ことを特徴とする音声取得方法。 - 音声取得機器内のコンピュータに音声取得を実行させるための音声取得用プログラムにおいて、
音声を音声データに変換し、
音声認識によってトランスクリプトを作成する場合と、人が音声を聴いてトランスクリプトを作成する場合で、上記音声データの音質調整を異ならせる、
ことを上記コンピュータに実行させる特徴とする音声取得用プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017094457A JP2018191234A (ja) | 2017-05-11 | 2017-05-11 | 音声取得機器、音声取得方法、および音声取得用プログラム |
US15/969,024 US20180330742A1 (en) | 2017-05-11 | 2018-05-02 | Speech acquisition device and speech acquisition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017094457A JP2018191234A (ja) | 2017-05-11 | 2017-05-11 | 音声取得機器、音声取得方法、および音声取得用プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018191234A true JP2018191234A (ja) | 2018-11-29 |
Family
ID=64097414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017094457A Pending JP2018191234A (ja) | 2017-05-11 | 2017-05-11 | 音声取得機器、音声取得方法、および音声取得用プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180330742A1 (ja) |
JP (1) | JP2018191234A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022030754A (ja) * | 2020-08-07 | 2022-02-18 | 株式会社東芝 | 入力支援システム、入力支援方法およびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4548646B2 (ja) * | 2003-09-12 | 2010-09-22 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
US8332212B2 (en) * | 2008-06-18 | 2012-12-11 | Cogi, Inc. | Method and system for efficient pacing of speech for transcription |
US8249870B2 (en) * | 2008-11-12 | 2012-08-21 | Massachusetts Institute Of Technology | Semi-automatic speech transcription |
US9245525B2 (en) * | 2011-01-05 | 2016-01-26 | Interactions Llc | Automated speech recognition proxy system for natural language understanding |
US20140025374A1 (en) * | 2012-07-22 | 2014-01-23 | Xia Lou | Speech enhancement to improve speech intelligibility and automatic speech recognition |
US9640194B1 (en) * | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
US10044854B2 (en) * | 2016-07-07 | 2018-08-07 | ClearCaptions, LLC | Method and system for providing captioned telephone service with automated speech recognition |
US9693164B1 (en) * | 2016-08-05 | 2017-06-27 | Sonos, Inc. | Determining direction of networked microphone device relative to audio playback device |
-
2017
- 2017-05-11 JP JP2017094457A patent/JP2018191234A/ja active Pending
-
2018
- 2018-05-02 US US15/969,024 patent/US20180330742A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20180330742A1 (en) | 2018-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1901286B1 (en) | Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method | |
JP4867804B2 (ja) | 音声認識装置及び会議システム | |
McLoughlin | Speech and Audio Processing: a MATLAB-based approach | |
JP6654611B2 (ja) | 成長型対話装置 | |
CN110675866B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
WO1996003741A1 (en) | System and method for facilitating speech transcription | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP2018191145A (ja) | 収音装置、収音方法、収音プログラム及びディクテーション方法 | |
JP2018013549A (ja) | 発話内容認識装置 | |
KR101877559B1 (ko) | 모바일 단말기를 이용한 언어 자가학습 서비스 제공방법, 이를 실행하는 모바일 단말기 및 이를 실행하기 위한 애플리케이션을 저장하는 기록매체 | |
JP6291808B2 (ja) | 音声合成装置及び方法 | |
JP2018191234A (ja) | 音声取得機器、音声取得方法、および音声取得用プログラム | |
KR102217292B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
Cahyaningtyas et al. | Development of under-resourced Bahasa Indonesia speech corpus | |
JP7069386B1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
JP2009162879A (ja) | 発声支援方法 | |
JP6849977B2 (ja) | テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法 | |
JPH05307395A (ja) | 音声合成装置 | |
Prasangini et al. | Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka | |
JP2004341340A (ja) | 話者認識装置 | |
JP6260227B2 (ja) | 音声合成装置及び方法 | |
JP6260228B2 (ja) | 音声合成装置及び方法 | |
JP6221253B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
KR102274275B1 (ko) | 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법 | |
JP2005077678A (ja) | テキスト音声同期装置およびテキスト音声同期処理プログラム |