JP2019050482A - Information acquisition device, display method, and program - Google Patents
Information acquisition device, display method, and program Download PDFInfo
- Publication number
- JP2019050482A JP2019050482A JP2017173163A JP2017173163A JP2019050482A JP 2019050482 A JP2019050482 A JP 2019050482A JP 2017173163 A JP2017173163 A JP 2017173163A JP 2017173163 A JP2017173163 A JP 2017173163A JP 2019050482 A JP2019050482 A JP 2019050482A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- sound
- sound source
- display
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000010365 information processing Effects 0.000 description 61
- 238000012545 processing Methods 0.000 description 51
- 238000006243 chemical reaction Methods 0.000 description 36
- 230000008569 process Effects 0.000 description 27
- 230000006854 communication Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 21
- 230000005236 sound signal Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 240000004050 Pentaglottis sempervirens Species 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音声データを元に各音源の位置を推定して表示する情報取得機器、表示方法およびプログラムに関する。 The present invention relates to an information acquisition device, display method and program for estimating and displaying the position of each sound source based on voice data.
近年、複数のマイクロホンアレイを用いて音源の位置を特定する技術が知られている(特許文献1参照)。この技術では、複数のマイクロホンアレイの出力から得られる複数の音源信号の各々と複数のマイクロホンアレイの各々の位置関係とに基づいて、マイクロホンアレイの位置に関連して定められる点を中心とする空間内で定義された複数の方向の各々について所定時間毎にMUSICパワーを算出し、このMUSICパワーのピークを音源位置として特定した後に、マイクロホンアレイの出力信号から音源位置の音声信号を分離する。 In recent years, a technique for specifying the position of a sound source using a plurality of microphone arrays is known (see Patent Document 1). In this technique, a space centered on a point determined in relation to the position of the microphone array based on each of the plurality of sound source signals obtained from the outputs of the plurality of microphone arrays and the positional relationship of each of the plurality of microphone arrays The MUSIC power is calculated at predetermined time intervals for each of a plurality of directions defined therein, and the peak of the MUSIC power is identified as the sound source position, and then the audio signal of the sound source position is separated from the output signal of the microphone array.
ところで、ユーザが音声データを元に会議等の摘録を作成する場合、録音時における話者の位置を把握したいときがある。しかしながら、上述した特許文献1では、音源位置を特定するのみであるため、ユーザが音声データを元に会議等の摘録を作成する場合、録音時における話者の位置を直感的に把握することができないという問題点があった。
By the way, when the user prepares a deduction such as a meeting based on voice data, there are times when it is desired to grasp the position of the speaker during recording. However, in
本発明は、上記に鑑みてなされたものであって、録音時における話者の位置を直感的に把握することができる情報取得機器、表示方法およびプログラムを提供することを目的とする。 The present invention has been made in view of the above, and it is an object of the present invention to provide an information acquiring apparatus, a display method and a program which can intuitively grasp the position of a speaker at the time of recording.
上述した課題を解決し、目的を達成するために、本発明に係る情報取得機器は、画像を表示することができる表示部と、互いに異なる位置に設けられ、複数の音源の各々から発せられた音声を収音して音声データを生成する複数の収音部と、前記複数の収音部の各々が生成した前記音声データに基づいて、前記複数の音源の位置を推定する音源位置推定部と、前記音源位置推定部が推定した推定結果に基づいて、前記複数の音源の各々の位置に関する音源位置情報を前記表示部に表示させる表示制御部と、を備えることを特徴とする。 In order to solve the problems described above and achieve the object, the information acquisition device according to the present invention is provided at a position different from each other from a display unit capable of displaying an image, and emitted from each of a plurality of sound sources. A plurality of sound collection units that collect sound and generate sound data; and a sound source position estimation unit that estimates positions of the plurality of sound sources based on the sound data generated by each of the plurality of sound collection units; A display control unit configured to display, on the display unit, sound source position information on each of the positions of the plurality of sound sources based on the estimation result estimated by the sound source position estimating unit.
また、本発明に係る表示方法は、画像を表示することができる表示部と、互いに異なる位置に設けられ、複数の音源の各々から発せられた音声を収音して音声データを生成する複数の収音部と、を備えた情報取得機器が実行する表示方法であって、前記複数の収音部の各々が生成した前記音声データに基づいて、前記複数の音源の位置を推定する音源位置推定ステップと、前記音源位置推定ステップで推定した推定結果に基づいて、前記複数の音源の各々の位置に関する音源位置情報を前記表示部に表示させる表示制御ステップと、を含むことを特徴とする。 In the display method according to the present invention, a display unit capable of displaying an image and a plurality of display units provided at mutually different positions and generating voice data by collecting voices emitted from each of a plurality of sound sources. A display method executed by an information acquisition apparatus including a sound collection unit, wherein sound source position estimation is performed to estimate the positions of the plurality of sound sources based on the voice data generated by each of the plurality of sound collection units The display control step may include the steps of: displaying, on the display unit, sound source position information on each position of the plurality of sound sources based on the estimation result estimated in the sound source position estimating step.
また、本発明に係るプログラムは、画像を表示することができる表示部と、互いに異なる位置に設けられ、複数の音源の各々から発せられた音声を収音して音声データを生成する複数の収音部と、を備えた情報取得機器に、前記複数の収音部の各々が生成した前記音声データに基づいて、前記複数の音源の位置を推定する音源位置推定ステップと、前記音源位置推定ステップで推定した推定結果に基づいて、前記複数の音源の各々の位置に関する音源位置情報を前記表示部に表示させる表示制御ステップと、を実行させることを特徴とする。 Further, a program according to the present invention is provided with a display unit capable of displaying an image, and a plurality of sets provided at different positions and collecting voices emitted from each of a plurality of sound sources to generate voice data. A sound source position estimation step of estimating the positions of the plurality of sound sources based on the voice data generated by each of the plurality of sound collection units in an information acquisition device including a sound unit; And a display control step of causing the display unit to display sound source position information related to the position of each of the plurality of sound sources, based on the estimation result estimated in (4).
本発明によれば、録音時における話者の位置を直感的に把握することができるという効果を奏する。 According to the present invention, it is possible to intuitively grasp the position of the speaker at the time of recording.
以下、本発明を実施するための形態(以下、「実施の形態」という)を図面とともに詳細に説明する。なお、以下の実施の形態により本発明が限定されるものではない。また、以下の説明において参照する各図は、本発明の内容を理解でき得る程度に形状、大きさ、および位置関係を概略的に示してあるに過ぎない。即ち、本発明は、各図で例示された形状、大きさ、および位置関係のみに限定されるものではない。 Hereinafter, modes for carrying out the present invention (hereinafter referred to as “embodiments”) will be described in detail with reference to the drawings. Note that the present invention is not limited by the following embodiments. In addition, the drawings referred to in the following description merely schematically show the shapes, sizes, and positional relationships to the extent that the contents of the present invention can be understood. That is, the present invention is not limited to only the shapes, sizes, and positional relationships illustrated in the respective drawings.
(実施の形態1)
〔トランスクライバーシステムの構成〕
図1は、本発明の実施の形態1に係るトランスクライバーシステムの概略構成を示す図である。図2は、本発明の実施の形態1に係るトランスクライバーシステムの機能構成を示すブロック図である。
[Configuration of Transcriber System]
FIG. 1 is a diagram showing a schematic configuration of a transcriber system according to a first embodiment of the present invention. FIG. 2 is a block diagram showing a functional configuration of the transcriber system according to the first embodiment of the present invention.
図1および図2に示すトランスクライバーシステム1は、例えばマイク等で音声を入力して音声データを記録するICレコーダやマイク等で音声を入力して音声データを記録する携帯電話等の録音機器として機能する情報取得機器2と、情報取得機器2から通信ケーブル4を介して音声データを取得して音声データの書き起こしや各種処理を行うパーソナルコンピュータ等の情報処理装置3と、を備える。なお、本実施の形態1では、情報取得機器2と情報処理装置3は、通信ケーブル4を介して双方向に通信を行うが、これに限定されることなく、無線によって双方向に通信可能に接続されてもよい。この場合、無線通信規格は、IEEE802.11a、IEEE802.11b、IEEE802.11n、IEEE802.11g、IEEE802.11ac、Bluetooth(登録商標)および赤外線通信規格等である。
The
〔情報取得機器の構成〕
まず、情報取得機器2の構成について説明する。
情報取得機器2は、第1収音部20と、第2収音部21と、外部入力検出部22と、表示部23と、時計24と、入力部25と、記録部26と、通信部27と、出力部28と、機器制御部29と、を備える。
[Configuration of information acquisition device]
First, the configuration of the
The
第1収音部20は、情報取得機器2の上面の左側に設けられる(図1を参照)。第1収音部20は、複数の音源の各々から発せられた音声を収音してアナログの音声信号(電気信号)に変換し、この音声信号に対してA/D変換処理やゲイン調整処理を行ってデジタルの音声データ(第1音声データ)を生成して機器制御部29へ出力する。第1収音部20は、単一指向性マイク、無指向性マイクおよび双指向性マイクのいずれか1つのマイクロホン、A/D変換回路および信号処理回路等を用いて構成される。
The first
第2収音部21は、第1収音部20と異なる位置に設けられる。第2収音部21は、第1収音部20と所定の距離dだけ離れた情報取得機器2の上面の右側に設けられる(図1を参照)。第2収音部21は、複数の音源の各々から発せられた音声を収音してアナログの音声信号(電気信号)に変換し、この音声信号に対してA/D変換処理やゲイン調整処理を行ってデジタルの音声データ(第2音声データ)を生成して機器制御部29へ出力する。第2収音部21は、第1収音部20と同様の構成を有し、単一指向性マイク、無指向性マイクおよび双指向性マイクのいずれか1つのマイクロホン、A/D変換回路および信号処理回路等を用いて構成される。なお、本実施の形態1では、第1収音部20および第2収音部21によってステレオマイクを形成する。
The second
外部入力検出部22は、情報取得機器2の外部から挿入される外部マイクのプラグが挿脱され、外部マイクの挿入を検出し、この検出結果を機器制御部29へ出力する。また、外部入力検出部22は、外部マイクが複数の音源の各々から発せられた音声を収音して生成したアナログの音声信号(電気信号)の入力を受け付け、この入力を受け付けた音声信号に対してA/D変換処理やゲイン調整処理を行ってデジタルの音声データ(少なくとも第3音声データを含む)を生成して機器制御部29へ出力する。また、外部入力検出部22は、外部マイクのプラグが挿入された場合、外部マイクが情報取得機器2に接続されたことを示す信号を機器制御部29へ出力するとともに、外部マイクが生成した音声データを機器制御部29へ出力する。外部入力検出部22は、マイクロホンジャック、A/D変換回路および信号処理回路等を用いて構成される。また、外部マイクは、単一指向性マイク、無指向性マイクおよび双指向性マイク、左右の音を収音することができるステレオマイク等のいずれかのマイクを用いて構成される。外部マイクとしてステレオマイクを用いる場合、外部入力検出部22は、左右のマイクロホンの各々で収音された2つの音声データ(第3音声データおよび第4音声データ)を生成して機器制御部29へ出力する。
The external
表示部23は、機器制御部29の制御のもと、情報取得機器2に関する各種情報を表示する。表示部23は、有機EL(Electro Luminescence)や液晶等を用いて構成される。
The
時計24は、計時機能の他、第1収音部20および第2収音部21および外部マイクの各々において生成された音声データの日時に関する日時情報を生成し、この日時情報を機器制御部29へ出力する。
The
入力部25は、情報取得機器2に関する各種情報の入力を受け付ける。入力部25は、ボタン、スイッチ等を用いて構成される。また、入力部25は、表示部23の表示領域に重畳して設けられ、外部からの物体の接触を検出し、この検出した位置に応じた操作信号の入力を受け付けるタッチパネル251を有する。
The
記録部26は、揮発性メモリ、不揮発性メモリおよび記録媒体等を用いて構成され、音声データを格納した音声ファイルおよび情報取得機器2が実行する各種プログラムを記録する。記録部26は、情報取得機器2が実行する各種プログラムを記録するプログラム記録部261と、音声データを格納した音声ファイルを記録する音声ファイル記録部262と、を有する。なお、記録部26は、外部から着脱できるメモリカード等の記録媒体であってもよい。
The
通信部27は、所定の通信規格に従って、情報処理装置3に音声データが格納された音声ファイルを含むデータを送信するとともに、情報処理装置3から各種の情報やデータを受信する。
The communication unit 27 transmits data including an audio file in which audio data is stored to the
出力部28は、機器制御部29から入力されたデジタルの音声データに対してD/A変換処理を行ってアナログの音声信号に変換して外部へ出力する。出力部28は、スピーカ、D/A変換回路等を用いて構成される。
The
機器制御部29は、情報取得機器2を構成する各部を統括的に制御する。機器制御部29は、CPU(Central Processing Unit)やFPGA(Field Programmable Gate Array)等を用いて構成される。機器制御部29は、信号処理部291と、テキスト化部292と、テキスト化制御部293と、音声判定部294と、音源位置推定部295と、表示位置判定部296と、声紋判定部297と、音源情報生成部298と、音声特定部299と、移動判定部300と、インデックス付加部301と、音声ファイル生成部302と、表示制御部303と、を有する。
The
信号処理部291は、第1収音部20および第2収音部21が生成した音声データの音声レベルの調整処理、ノイズ低減処理およびゲイン調整処理等を行う。
The
テキスト化部292は、音声データに対して音声認識処理を行うことによって複数の文字で構成された音声テキストデータを生成する。なお、音声認識処理の詳細については後述する。 The text conversion unit 292 generates voice text data composed of a plurality of characters by performing voice recognition processing on voice data. The details of the speech recognition process will be described later.
テキスト化制御部293は、入力部25からテキスト化部292に音声テキストデータを生成させる指示信号の入力を受け付けた場合、この指示信号の入力を受け付けた時点から所定時間だけテキスト化部292に音声テキストデータを生成させる。
When the
音声判定部294は、信号処理部291が自動レベル調整を順次行った音声データに無音期間が含まれているか否かを判定する。具体的には、音声判定部294は、音声データの音声レベルが所定の閾値未満であるか否かを判定し、所定の閾値未満である期間を無音期間であると判定する。
The
音源位置推定部295は、第1収音部20および第2収音部21の各々が生成した音声データに基づいて、複数の音源の位置を推定する。具体的には、第1収音部20および第2収音部21の各々が生成した音声データに基づいて、複数の音源の各々から発された音声信号が第1収音部20および第2収音部21の各々に到達する到達時間の差を算出し、この算出結果に基づいて、情報取得機器2を中心と見たときの複数の音源の各々の位置を推定する。
The sound source
表示位置判定部296は、表示部23の表示領域の形状と音源位置推定部295が推定した推定結果とに基づいて、表示部23の表示領域における複数の音源の各々の表示位置を判定する。具体的には、表示位置判定部296は、表示部23の表示領域の中心を情報取得機器2とした際における複数の音源の各々の表示位置を判定する。例えば、表示位置判定部296は、表示部23の表示領域を4つの象限に分割し、かつ表示部23の表示領域の中心に情報取得機器2を載置した際の複数の音源の各々の表示位置を判定する。
The display
声紋判定部297は、音声データに基づいて、複数の音源の各々の声紋を判定する。具体的には、声紋判定部297は、音声データに含まれる複数の音源の各々の声紋(話者)を判定する。例えば、声紋判定部297は、情報取得機器2を用いて会議の録音を行う前に、会議に参加する話者が発した音声に基づく特徴を登録した話者識別テンプレートに基づいて、音声データに含まれる複数の音源の各々から声紋(話者)を判定する。また、声紋判定部297は、音声データに基づいて、話者が発した音声に基づく特徴以外にも、周波数の高さ(声の高さ)、抑揚、音量(強度)およびヒストグラム等を判定する。もちろん、声紋判定部297は、音声データに基づいて、性別を判定してもよい。さらに、声紋判定部297は、音声データに基づいて、複数の話者の各々が発した話者毎の音量(強度)や周波数の高さ(声の高さ)を判定してもよい。もちろん、声紋判定部297は、音声データに基づいて、複数の話者の各々が発した話者毎の抑揚を判定してもよい。
The
音源情報生成部298は、声紋判定部297が判定した判定結果に基づいて、複数の音源の各々に関する複数の音源情報を生成する。具体的には、音源情報生成部298は、声紋判定部297が判定した話者が発した話者毎に音声情報を生成する。例えば、音源情報生成部298は、話者が発した周波数の高さ(声の高さ)に基づいて、話者を模式的に示すアイコンを音声情報として生成する。なお、音源情報生成部298は、声紋判定部297が判定した性別に基づいて音声情報の種別、例えば女性アイコン、男性アイコン、犬や猫等のアイコンを変更して生成してもよい。ここでは、音源情報生成部298は、特定の高さの声のデータをデータベースとして用意して、これを取得した声の信号と比較してアイコンを決めても良く、検出された複数の話者の各々の複数の音声の周波数の高さ(声の高さ)などの比較などを用いて行ってもよい。また、音源情報生成部298は、使われる言葉の種類や言い回しなども、男女別、言語別、年齢別などでデータベース化しておき、これと音声パターンを比較してアイコンを決めても良い。また、ちょっと関係ないことを言ってみただけ、相づちを打っただけみたいな人のアイコンまでを出すかどうかという問題もある。こうした発言は後で聞き返す必要が少ないことも多く、メインの発言の補足のようなものなので、音源情報生成部298は、あえてアイコンを生成する意味が少ない。直感的な判断にはむしろ不適切な場合もある。したがって、発言が特定の時間の長さ以上でなかったり、主語、目的語などの名詞や動詞、形容詞、助動詞などが明確でない場合、音源情報生成部298は、重要発言とみなさず曖昧発言と考えて、発話者をアイコン化しないようにしたり、アイコンを薄くしたり点線にしたり小さくしたり、アイコンを構成する線の途中をとぎらせたりして、視認性を異ならせても良い。つまり、音源情報生成部298は、発話内容を音声認識で判定して、使われた言葉を判定して発話の完成度を文法的に検証する機能を持たせ、議題に対してふさわしい目的語や主語になっているかを判定可能としてもよい。こうした議題に関連する言葉かどうかは、主に発言している人(議長や進行役)の発話内容に類似の言葉が使われているかなどを検出し、これと各発話者の発した言葉を比較して判定してもよい。これが一致しないようなら、不明瞭な発言としてもよく、声が小さいや発話が短いとかも、同様に判定が可能である。このような工夫で、話者が発した話者毎の音源情報から話者が発した音声の長さや明瞭さに基づいて、話者を模式的に示すアイコンの視認性を異ならせて生成することで、発話の直感的な検索性を向上させる。また、音源情報生成部298は、声紋判定部297が判定した複数の話者の各々の音量の比較に基づいて、複数の話者の各々を模式的に示すアイコンを音源情報として生成してもよい。もちろん、音源情報生成部298は、音声データに基づいて、複数の話者の各々が発した話者毎の音声の長さおよび音量に基づいて、話者を模式的に示すアイコンを互いに異ならせた音源情報を生成してもよい。
The sound source
音声特定部299は、声紋判定部297が判定した複数の声紋の各々が音声データ上に出現する出現位置(出現時間)を特定する。
The
移動判定部300は、音源位置推定部295が推定した推定結果と声紋判定部297が判定した判定結果とに基づいて、複数の音源の各々が移動しているか否かを判定する。
The
インデックス付加部301は、音声データに対して、音声判定部294によって判定された無音期間に、他の期間と区別するためのインデックスを無音期間の最初および最後の少なくとも一方に付加する。
The
音声ファイル生成部302は、信号処理部291が信号処理を行った音声データと、音源位置推定部295が推定した音源位置情報と、音源情報生成部298が生成した複数の音源情報と、音声特定部299が特定した出現位置、インデックス付加部301が付加したインデックスの位置に関する位置情報またはインデックスが付加された音声データ上における時間に関する時間情報と、テキスト化部292が生成した音声テキストデータと、を対応付けた音声ファイルを生成して音声ファイル記録部262に記録する。また、音声ファイル生成部302は、信号処理部291が信号処理を行った音声データと、入力部25が指示信号の入力を受け付けた時点から所定時間だけテキスト化部292に音声テキストデータを生成させる候補タイミングとする候補タイミング情報と、を対応付けた音声ファイルを生成して記録媒体として機能する音声ファイル記録部262に記録してもよい。
The voice
表示制御部303は、表示部23の表示態様を制御する。具体的には、表示制御部303は、情報取得機器2に関する各種情報を表示部23に表示させる。例えば、表示部23は、信号処理部291が調整を行った音声データの音声レベルを表示部23に表示させる。また、表示制御部303は、音源位置推定部295が推定した推定結果に基づいて、複数の音源の各々の位置に関する音源位置情報を表示部23に表示させる。具体的には、表示制御部303は、表示位置判定部296が判定した判定結果に基づいて、音源位置情報を表示部23に表示させる。より具体的には、表示制御部303は、音源位置情報として音源情報生成部298が生成した複数の音源情報を表示部23に表示させる。
The
〔情報処理装置の構成〕
次に、情報処理装置3の構成について説明する。
情報処理装置3は、通信部31と、入力部32と、記録部33と、音声再生部34と、表示部35と、情報処理制御部36と、を有する。
[Configuration of Information Processing Apparatus]
Next, the configuration of the
The
通信部31は、所定の通信規格に従って、情報取得機器2にデータを送信するとともに、情報取得機器2から少なくとも音声データが格納された音声ファイルを含むデータを受信する。
The communication unit 31 transmits data to the
入力部32は、情報処理装置3に関する各種情報の入力を受け付ける。入力部32は、ボタン、スイッチ、キーボード、およびタッチパネル等を用いて構成される。例えば、入力部32は、ユーザがドキュメント化作業を行う場合、テキストデータの入力を受け付ける。
The
記録部33は、揮発性メモリ、不揮発性メモリおよび記録媒体等を用いて構成され、音声データを格納した音声ファイルおよび情報処理装置3が実行する各種プログラムを記録する。記録部33は、情報処理装置3が実行する各種プログラムを記録するプログラム記録部331と、音声データをテキストデータに変換するために用いる音声テキスト化辞書データ記録部332と、を有する。これは、音声とテキストの関係のみならず、類義語などを検索できるようなデータベースであることが好ましい。ここで、類義語とは、同一言語において、語形が異なるが意味が互いによく似ており、場合によっては代替が可能となる二つ以上の語である。もちろん、シソーラスや同義語が含まれてもよい。
The recording unit 33 is configured using a volatile memory, a non-volatile memory, a recording medium, and the like, and records an audio file storing audio data and various programs executed by the
音声再生部34は、情報処理制御部36から入力されたデジタルの音声データに対してD/A変換処理を行ってアナログの音声信号に変換して外部へ出力する。音声再生部34は、スピーカおよびD/A変換回路等を用いて構成される。
The
表示部35は、情報処理制御部36の制御のもと、情報処理装置3に関する各種情報や音声データの録音時間に対応するタイムバーを表示する。表示部35は、有機ELや液晶等を用いて構成される。
Under the control of the information processing control unit 36, the display unit 35 displays a time bar corresponding to various information related to the
情報処理制御部36は、情報処理装置3を構成する各部を統括的に制御する。情報処理制御部36は、CPU等を用いて構成される。情報処理制御部36は、テキスト化部361と、特定部362と、キーワード判定部363と、キーワード設定部364と、音声制御部365と、表示制御部366と、ドキュメント生成部367と、を有する。
The information processing control unit 36 centrally controls the units that constitute the
テキスト化部361は、音声データに対して音声認識処理を行うことによって複数の文字で構成された音声テキストデータを生成する。なお、音声認識処理の詳細は後述する。
The
特定部362は、キーワードの文字列と音声テキストデータにおける文字列とが一致する音声データ上における出現位置(出現時間)を特定する。もちろん、特定部362は、キーワードの文字列と音声テキストデータにおける文字列とが完全一致する必要がなく、例えばキーワードの文字列と音声テキストデータにおける文字列との類似度(例えば80%以上)が高い音声データ上における出現位置(出現時間)を特定してもよい。
The specifying
キーワード判定部363は、通信部31が情報取得機器2から取得した音声ファイルにキーワード候補があるか否かを判定する。具体的には、キーワード判定部363は、通信部31が情報取得機器2から取得した音声ファイルに音声テキストデータが格納されているか否かを判定する。
The
キーワード設定部364は、キーワード判定部363が通信部31を介して情報取得機器2から取得した音声ファイルにキーワード候補があると判定した場合、音声ファイルに格納されたキーワード候補を音声データ上に出現する位置を検索するためのキーワードとして設定する。具体的には、キーワード設定部364は、通信部31が情報取得機器2から取得した音声ファイルに格納された音声テキストデータを音声データ上に出現する位置を検索するためのキーワードに設定する。会議が終わってしまうと、単語のイメージは覚えていても、正確な単語そのものを忘れている事も多いので、キーワード設定部364は、類義語(例えば、単語が「重要」の場合であれば、「ポイント」や「大切」等の類似語)をデータベース(音声テキスト化辞書データ記録部332)などで辞書検索して、似たような意味のキーワードを探しても良い。
When the
音声制御部365は、音声再生部34の駆動を制御する。具体的には、音声制御部365は、音声再生部34に音声ファイルに格納された音声データを再生させる。
The
表示制御部366は、表示部35の表示態様を制御する。表示制御部366は、タイムバー上にキーワードが出現する出現位置に関する位置情報を表示部35に表示させる。
The
〔情報取得機器の処理〕
次に、情報取得機器2が実行する処理について説明する。図3は、情報取得機器2が実行する処理の概要を示すフローチャートである。図4は、情報取得機器2の利用シーンを示す図である。図5は、図4の状況下を模式的に示す俯瞰図である。
[Process of information acquisition device]
Next, the process performed by the
図3に示すように、入力部25が操作されることによって入力部25から録音を指示する指示信号が入力された場合(ステップS101:Yes)、機器制御部29は、第1収音部20および第2収音部21を駆動させて音声の入力に応じて音声データを音声ファイルに順次格納して記録部26に記録させる録音を開始する(ステップS102)。
As shown in FIG. 3, when the instruction signal instructing recording is input from the
続いて、信号処理部291は、第1収音部20および第2収音部21の各々が生成した音声データのレベルを自動で調整する自動レベル調整を行う(ステップS103)。
Subsequently, the
その後、表示制御部303は、信号処理部291が音声データに行っている自動レベル調整のレベルを表示部23に表示させる(ステップS104)。
After that, the
続いて、音声判定部294は、信号処理部291が自動レベル調整を順次行った音声データに無音期間が含まれているか否かを判定する(ステップS105)。具体的には、音声判定部294は、信号処理部291が自動レベル調整を順次行った音声データの所定フレーム期間毎に、音量レベルが所定の閾値未満であるか否かを判定することによって、無音期間が含まれているか否かを判定する。より具体的には、音声判定部294は、音声データの音量レベルが所定の閾値未満である期間が所定期間(例えば10秒)ある場合、音声データに無音期間が含まれていると判定する。なお、所定期間は、ユーザが入力部25を用いて適宜設定することができる。音声判定部294によって信号処理部291が自動レベル調整を順次行った音声データに無音期間が含まれていると判定された場合(ステップS105:Yes)、情報取得機器2は、後述するステップS106へ移行する。これに対して、音声判定部294によって信号処理部291が自動レベル調整を順次行った音声データに無音期間が含まれていないと判定された場合(ステップS105:No)、情報取得機器2は、後述するステップS107へ移行する。
Subsequently, the
ステップS106において、インデックス付加部301は、音声データに対して、音声判定部294によって判定された無音期間に、他の期間と区別するためのインデックスを無音期間の最初および最後の少なくとも一方に付加する。ステップS106の後、情報取得機器2は、後述するステップS107へ移行する。
In step S106, the
ステップS107において、入力部25が操作されることによって入力部25からインデックスを付加するためのキーワード候補の設定を指示する指示信号が入力された場合(ステップS107:Yes)、情報取得機器2は、後述するステップS108へ移行する。これに対して、入力部25からインデックスを付加するためのキーワード候補の設定を指示する指示信号が入力されていない場合(ステップS107:No)、情報取得機器2は、後述するステップS109へ移行する。このステップは、会議中など、録音している最中に、後で聞き返したくなる重要な議題が始まった時などに、メモや付箋といった感じで、ユーザが何らかの指示を行う場合に対応している。ここでは、特定のスイッチ操作(例えば入力部25に対する操作による入力)のような記載を行っているが、音声で、「ここ重要」等の声を検出すると、同様の入力が行われてもよい。即ち、インデックス付加部301は、第1収音部20および第2収音部21を介して入力された音声データに対してテキスト化部292がテキスト化を行ったテキストデータに基づいて、インデックスを付加してもよい。
In step S107, when an instruction signal instructing setting of a keyword candidate for adding an index is input from the
このようなタイミングでは、その後、その会議における重要キーワードとなる言葉を使った議論が始まった可能性が高いので、ステップS108において、テキスト化制御部293は、入力部25からキーワード候補の設定を指示する指示信号が入力された時点から所定時間(例えば3秒、会話が途切れていなければ、それより遡るような処理でもよい)遡及した音声データに対して、テキスト化部292に後述する音声認識処理を実行させてテキスト化を実行させて音声テキストデータを生成させる。これによって、後で聞き直したくなるキーワードを、録音現場においてリアルタイムで判定しやすくする工夫が可能となる。会議が終わってしまうと、単語のイメージは覚えていても、正確にその単語そのものを忘れている事も多い。このように、後で検索する時に、よく探すべきタイミングを分かりやすくしている。これは、いわば、候補タイミングとも言えるもので、このタイミングにおいては、重要キーワードやその類義語や、似たニュアンスの言葉を使った議論がなされている可能性が高い。このため、テキスト化制御部293は、ここでの音声データが優先的にテキストとして見える化をできた方が、議論全体を把握するのに役立つので、テキスト化を実行させて音声テキストデータを生成させる。なお、インデックス付加部301は、ステップS108において、テキスト化まで必ずしも行う必要はなく、重点的に検索するタイミングを、録音開始から何分何秒のタイミング、などと候補タイミングを音声データに関連づけて記録しておくだけでも良い。音声ファイルを作る時のメタデータとして候補タイミング情報を記録するような方法がある。ステップS108の後、情報取得機器2は、後述するステップS109へ移行する。
At such a timing, since there is a high possibility that discussions using words that are important keywords in the meeting have started thereafter, the
ステップS109において、音源位置推定部295は、第1収音部20および第2収音部21の各々が生成した音声データに基づいて、複数の音源の位置を推定する。ステップS109の後、情報取得機器2は、後述するステップS110へ移行する。
In step S109, the sound source
図6は、音源位置推定部295が推定する音源の位置を模式的に示す図である。図6に示すように、音源位置推定部295は、第1収音部20および第2収音部21の各々が生成した音声データに基づいて、音源A1である話者および音源A2である話者の各々が発した音声が第1収音部20および第2収音部21の各々に到達する到達時間差を算出し、算出した到達時間差を用いて音源の焦点を形成することによって音源方向を推定する。
FIG. 6 is a diagram schematically showing the position of the sound source estimated by the sound source
図7は、音源位置推定部295が1つの音源に対して到達時間差を算出する算出状況を模式的に示す図である。図8は、音源位置推定部295が算出する到達時間差を算出する算出方法の一例を模式的に示す図である。
FIG. 7 is a diagram schematically showing a calculation situation in which the sound source
図7および図8に示すように、音源位置推定部295は、第1収音部20と第2収音部21との距離をd、音源A1である話者の音源方位をθ、音速をVとした場合、以下の式(1)によって、到達時間差Tを算出する。
T=(d×COS(θ))/V ・・・(1)
この場合、音源位置推定部295は、第1収音部20および第2収音部21の各々が生成した2つの音声データに含まれる周波数の一致度を用いて、到達時間差Tを算出することができる。このため、音源位置推定部295は、第1収音部20および第2収音部21の各々が生成した2つの音声データに含まれる周波数の一致度を用いて、到達時間差Tを算出する。その後、音源位置推定部295は、到達時間差Tおよび式(1)を用いて音源方位θを算出することによって、音源の方位を推定する。具体的には、音源位置推定部295は、以下の式(2)によって、音源方位θを算出することによって、音源A1の方位を推定する。
θ=COS−1(T×V)/d ・・・(2)
このように、音源位置推定部295は、音源毎に方位を推定することができる。
As shown in FIGS. 7 and 8, the sound source
T = (d × COS (θ)) / V (1)
In this case, the sound source
θ = COS −1 (T × V) / d (2)
As described above, the sound source
図3に戻り、ステップS110以降の説明を続ける。
ステップS110において、情報取得機器2は、音源位置推定部295の推定結果に基づいて、複数の音源の各々の位置に関する音源位置情報を表示部23の表示領域上に表示するための位置を決定する各音源位置表示決定処理を実行する。
Returning to FIG. 3, the description of step S110 and subsequent steps is continued.
In step S110, the
〔各音源位置表示決定処理〕
図9は、図3のステップS110の各音源位置表示決定処理の概要を示すフローチャートである。
[Each sound source position display decision processing]
FIG. 9 is a flowchart showing an outline of each sound source position display determination process of step S110 of FIG.
図9に示すように、声紋判定部297は、音声データに基づいて、複数の音源の各々の種類を判定する(ステップS201)。具体的には、声紋判定部297は、周知の声紋認証技術を用いて音源位置推定部295が推定した複数の音源の各々が発した音声を音声データから解析して分離して複数の音源の各々の種類を判定する。例えば、声紋判定部297は、会議に参加する話者が発した音声に基づく特徴を登録した話者識別テンプレートに基づいて、音声データに含まれる複数の音源の各々から声紋(話者)を判定する。
As shown in FIG. 9, the
表示位置判定部296は、表示部23の表示領域の形状と音源位置推定部295が推定した複数の音源の各々の位置に基づいて、表示部23の表示領域上における各音源が第1象限から第4象限のいずれかに位置するか否かを判定する(ステップS202)。具体的には、表示位置判定部296は、表示部23の表示領域の中心を情報取得機器2として見た際の各音源の表示位置を判定する。例えば、表示位置判定部296は、音源位置推定部295が推定した複数の音源の各々が第1象限から第4象限のいずれかに位置するか否かを判定する。この場合、表示位置判定部296は、表示部23の表示領域に対して、表示部23の表示領域の中心を通る二直線であって、互いに平面上で直交する二直線によって仕切られた4つの第1象限から第4象限に分割する。なお、本実施の形態では、表示位置判定部296は、4つの象限に分割しているが、これに限定されることなく、2つの象限であってもよし、情報取得機器2に設けられた収音部の数に応じて、適宜選択できるようにしてもよい。
Based on the shape of the display area of the
続いて、表示位置判定部296は、同じ象限に複数の音源があるか否かを判定する(ステップS203)。表示位置判定部296によって同じ象限に複数の音源があると判定された場合(ステップS203:Yes)、情報取得機器2は、後述するステップS204へ移行する。これに対して、表示位置判定部296によって同じ象限に複数の音源がないと判定された場合(ステップS203:No)、情報取得機器2は、後述するステップS205へ移行する。
Subsequently, the display
ステップS204において、表示位置判定部296は、同じ象限に位置する各音源に遠近があるか否かを判定する。表示位置判定部296によって同じ象限に位置する各音源に遠近があると判定された場合(ステップS204:Yes)、情報取得機器2は、後述するステップS206へ移行する。これに対して、表示位置判定部296によって同じ象限に位置する各音源に遠近がないと判定された場合(ステップS204:No)、情報取得機器2は、後述するステップS205へ移行する。
In step S204, the display
ステップS205において、表示位置判定部296は、各象限の音源に基づいて、アイコンを表示する表示位置を決定する。ステップS205の後、情報取得機器2は、後述するステップS207へ移行する。
In step S205, the display
ステップS206において、表示位置判定部296は、同じ象限に位置する複数の音源の各々の遠近に基づいて、アイコンを表示する表示位置を決定する。ステップS206の後、情報取得機器2は、後述するステップS207へ移行する。
In step S206, the display
〔アイコン決定生成処理〕
図10は、図9のステップS207のアイコン決定生成処理の概要を示すフローチャートである。
[Icon determination generation process]
FIG. 10 is a flowchart showing an outline of the icon determination generation process of step S207 of FIG.
図10に示すように、まず、音源情報生成部298は、声紋判定部297によって判定された複数の声紋のうち声の高い順に順位を決定する(ステップS301)。
As shown in FIG. 10, first, the sound source
続いて、音源情報生成部298は、声紋判定部297によって判定された複数の声紋のうち一番高い声の話者(音源)を細い顔、長髪アイコンとして生成する(ステップS302)。具体的には、図11に示すように、音源情報生成部298は、声紋判定部297によって判定された複数の声紋のうち一番高い声の話者(音源)を細い顔で長髪のアイコンO1(女性をイメージとするアイコン)として生成する。
Subsequently, the sound source
その後、音源情報生成部298は、声紋判定部297によって判定された複数の声紋のうち一番低い声の話者(音源)を丸顔、短髪アイコンとして生成する(ステップS303)。具体的には、図12に示すように、音源情報生成部298は、声紋判定部297によって判定された複数の声紋のうち一番低い声の話者(音源)を丸顔で短髪のアイコンO2(男性をイメージとするアイコン)として生成する。
Thereafter, the sound source
続いて、音源情報生成部298は、声紋判定部297によって判定された複数の声紋の高さの順にアイコンを生成する(ステップS304)。具体的には、音源情報生成部298は、声紋判定部297によって判定された複数の声紋の高さの順に細い顔から丸顔に向けて顔の形状を順次変形させるとともに、長髪から短髪に向けて順次変形させたアイコンを生成する。ここでは、ビジネスシーンを想定したが、会議をするのは子供もする事があるので、音源情報生成部298は、子供の声の特徴であれば、これとは異なるアイコン生成方法にする。例えば、音源情報生成部298は、大人と一緒の場合、そのような状況であることを声の質の差異で判定して、子供は小さめのアイコンにしたり、子供の方が多い場合には、大人を大きく表現したりするなど識別性を高くするような応用を行ってもよい。子供は成長過程にあるため、一般に顔の縦横比が大人より1:1に近いので、アイコンでも横幅を強調して広くするような工夫もあり得る。つまり、音源情報生成部298は、アイコン作成に際して、横幅を強調したアイコンを生成してもよい。
Subsequently, the sound source
その後、移動判定部300は、音源位置推定部295が推定した複数の音源の各々の位置と声紋判定部297によって判定された複数の声紋とに基づいて、声紋判定部297によって判定された複数の声紋のうち第1象限から第4象限の2つ以上の象限を移動する移動音源があるか否かを判定する(ステップS305)。具体的には、移動判定部300は、表示位置判定部296が決定した各象限の音源と音源位置推定部295が推定した各音源の位置が時間の経過とともに異なっているか否かを判定し、時間の経過とともに異なっている場合、移動する音源があると判定する。移動判定部300によって各象限を移動する音源があると判定された場合(ステップS305:Yes)、情報取得機器2は、後述するステップS306へ移行する。これに対して、移動判定部300によって各象限を移動する音源がないと判定された場合(ステップS305:No)、情報取得機器2は、上述した図9のサブルーチンへ戻る。
After that, the
ステップS306において、音声特定部299は、移動判定部300が判定した音源に対応するアイコンを特定する。具体的には、音声特定部299は、移動判定部300が判定した第1象限から第4象限の2つ以上の象限を移動する音源のアイコンを特定する。
In step S306, the
続いて、音源情報生成部298は、音声特定部299が特定した音源のアイコンに移動情報を付加する(ステップS307)。具体的には、図13に示すように、音源情報生成部298は、音声特定部299が特定した音源のアイコンO2に移動アイコンU1(移動情報)を付加する。なお、音源情報生成部298は、移動したアイコンO2に、移動アイコンU1を付加していたが、例えばアイコンO2の色を変更してもよいし、形状を変更してもよい。もちろん、音源情報生成部298は、移動したアイコンO2に、文字や図形を付加してもよいし、移動していた時間や移動したタイミング等を付加してもよい。ステップS307の後、情報取得機器2は、上述した図9のサブルーチンへ戻る。
Subsequently, the sound source
図9に戻り、ステップS208以降の説明を続ける。
ステップS208において、全象限の判定が終了した場合(ステップS208:Yes)、情報取得機器2は、図3のメインルーチンへ戻る。これに対して、全象限の判定が終了していない場合(ステップS208:No)、情報取得機器2は、上述したステップS203へ戻る。
Returning to FIG. 9, the description of step S208 and subsequent steps is continued.
In step S208, when the determination of all the quadrants is completed (step S208: Yes), the
図3に戻り、ステップS111以降の説明を続ける。
ステップS111において、表示制御部303は、上述したステップS110において生成された複数の音源位置情報を表示部23に表示させる。具体的には、図14に示すように、表示制御部303は、表示部23の表示領域を第1象限H1〜第4象限H4の各々に、アイコンO1〜アイコンO3の各々を重畳して表示部23に表示させる。これにより、ユーザは、録音時であっても、情報取得機器2と中心に見た際の話者(音源)の位置を直感的に把握することができる。さらに、ユーザは、アイコンO2に移動アイコンU1が重畳されているので、録音時に移動した話者を直感的に把握することができる。
Returning to FIG. 3, the description of step S111 and subsequent steps is continued.
In step S111, the
ステップS112において、入力部25から録音を終了する指示信号が入力された場合(ステップS112:Yes)、情報取得機器2は、後述するステップS113へ移行する。これに対して、入力部25から録音を終了する指示信号が入力されていない場合(ステップS112:No)、情報取得機器2は、上述したステップS103へ戻る。
In step S112, when an instruction signal to end recording is input from the input unit 25 (step S112: Yes), the
ステップS113において、信号処理部291が信号処理を行った音声データと、音源位置推定部295が推定した音源位置情報と、音源情報生成部298が生成した複数の音源情報と、音声特定部299が特定した出現位置、インデックス付加部301が付加したインデックスの位置に関する位置情報またはインデックスが付加された音声データ上における時間に関する時間情報と、テキスト化部292が生成した音声テキストデータと、を対応付けた音声ファイルを生成して音声ファイル記録部262に記録する。ステップS113の後、情報取得機器2は、後述するステップS114へ移行する。なお、音声ファイル生成部302は、信号処理部291が信号処理を行った音声データと、入力部25が指示信号の入力を受け付けた時点から所定時間だけテキスト化部292に音声テキストデータを生成させる候補タイミングとする候補タイミング情報と、を対応付けた音声ファイルを生成して音声ファイル記録部262に記録させてもよい。即ち、音声ファイル生成部302は、音声データと、入力部25が指示信号の入力を受け付けた時点から所定時間だけ候補タイミングとする候補タイミング情報と、を対応付けて音声ファイルを生成して音声ファイル記録部262に記録させてもよい。
In step S113, the voice data subjected to signal processing by the
続いて、入力部25から電源をオフする指示信号が入力された場合(ステップS114:Yes)、情報取得機器2は、本処理を終了する。これに対して、入力部25から電源をオフする指示信号が入力されていない場合(ステップS114:No)、情報取得機器2は、上述したステップS101へ戻る。
Subsequently, when the instruction signal to turn off the power is input from the input unit 25 (step S114: Yes), the
ステップS101において、入力部25から録音を指示する指示信号が入力されていない場合(ステップS101:No)、情報取得機器2は、ステップS115へ移行する。
In step S101, when the instruction signal instructing recording is not input from the input unit 25 (step S101: No), the
続いて、入力部25から音声ファイルの再生を指示する指示信号が入力された場合(ステップS115:Yes)、情報取得機器2は、後述するステップS116へ移行する。これに対して、入力部25から音声ファイルの再生を指示する指示信号が入力されていない場合(ステップS115:No)、情報取得機器2は、ステップS122へ移行する。
Subsequently, when an instruction signal instructing reproduction of the audio file is input from the input unit 25 (step S115: Yes), the
ステップS116において、入力部25が操作されることによって音声ファイルが選択された場合(ステップS116:Yes)、情報取得機器2は、後述するステップS117へ移行する。これに対して、入力部25が操作されず、音声ファイルが選択されていない場合(ステップS116:No)、情報取得機器2は、ステップS114へ移行する。
In step S116, when the audio file is selected by operating the input unit 25 (step S116: Yes), the
ステップS117において、表示制御部303は、入力部25を介して選択された音声ファイルに格納された複数の音源位置情報を表示部23に表示させる。
In step S117, the
続いて、タッチパネル251を介して表示部23が表示する複数の音声位置情報のいずれかのアイコンがタッチされた場合(ステップS118:Yes)、出力部28は、アイコンに対応する音声データを再生して出力する(ステップS119)。
Subsequently, when any icon of the plurality of pieces of audio position information displayed by the
その後、入力部25から音声ファイルの再生を終了する指示信号が入力された場合(ステップS120:Yes)、情報取得機器2は、ステップS114へ移行する。これに対して、入力部25から音声ファイルの再生を終了する指示信号が入力されていない場合(ステップS120:No)、情報取得機器2は、上述したステップS117へ戻る。
Thereafter, when an instruction signal for ending the reproduction of the audio file is input from the input unit 25 (step S120: Yes), the
ステップS118において、タッチパネル251を介して表示部23が表示する複数の音声位置情報のいずれかのアイコンがタッチされていない場合(ステップS118:No)、出力部28は、音声データを再生する(ステップS121)。ステップS121の後、情報取得機器2は、ステップS120へ移行する。
In step S118, when any icon of the plurality of audio position information displayed by
ステップS122において、入力部25が操作されることによって音声ファイルを送信する指示信号が入力された場合(ステップS122:Yes)、通信部27は、音声ファイルを所定の通信規格に従って情報処理装置3へ送信する(ステップS123)。ステップS123の後、情報取得機器2は、ステップS114へ移行する。
In step S122, when the instruction signal for transmitting the audio file is input by operating the input unit 25 (step S122: Yes), the communication unit 27 transmits the audio file to the
ステップS122において、入力部25が操作されることによって音声ファイルを送信する指示信号が入力されていない場合(ステップS122:No)、情報取得機器2は、ステップS114へ移行する。
In step S122, when the instruction signal for transmitting the audio file is not input by operating the input unit 25 (step S122: No), the
〔情報処理装置の処理〕
次に、情報処理装置3が実行する処理について説明する。図15は、情報処理装置3が実行する処理の概要を示すフローチャートである。
[Process of Information Processing Device]
Next, processing executed by the
図15に示すように、まず、ユーザが音声データを再生させながら摘録作成を行うドキュメント化作業を行う場合(ステップS401:Yes)、通信部31は、情報処理装置3に接続された情報取得機器2から音声ファイルを取得する(ステップS402)。
As shown in FIG. 15, first, when the user performs a documentization operation for making a pick while reproducing audio data (step S401: Yes), the communication unit 31 acquires the information acquisition device connected to the
続いて、表示制御部366は、ドキュメント作成画面を表示部35に表示させる(ステップS403)。具体的には、図16に示すように、表示制御部366は、ドキュメント作成画面W1を表示部35に表示させる。ドキュメント作成画面W1には、表示領域R1と、表示領域R2と、表示領域R3と、が含まれる。表示領域R1は、ユーザが入力部32を操作することによって音声データの再生から書き起こしたテキストデータに対応するテキストが表示される。表示領域R2は、音声ファイルに格納された音声データに対応するタイムバーT1と、入力部32の操作に応じて入力されたキーワードを表示する表示領域K1と、録音時における音源に関する音源情報を示す複数のアイコンO1〜O3と、を有する。表示領域R3は、音声ファイルに格納された音声データに対応するタイムバーT2と、キーワードの出現位置を表示する表示領域K2と、を有する。
Subsequently, the
その後、入力部32を介して音声データを再生する再生操作が行われた場合(ステップS404:Yes)、音声制御部365は、音声再生部34に音声ファイルに格納された音声データを再生させる(ステップS405)。
After that, when a reproduction operation to reproduce audio data is performed via the input unit 32 (step S404: Yes), the
続いて、キーワード判定部363は、音声ファイルにキーワード候補があるか否かを判定する(ステップS406)。具体的には、キーワード判定部363は、音声ファイルにキーワードとしての音声テキストデータが1つ以上格納されているか否かを判定する。キーワード判定部363によって音声ファイルにキーワード候補があると判定された場合(ステップS406:Yes)、キーワード設定部364は、音声ファイルに格納されたキーワード候補を音声データ上に出現する位置を検索するためのキーワードに設定する(ステップS407)。具体的には、キーワード設定部364は、音声ファイルに格納された1つ以上の音声テキストデータを音声データ上に出現する位置を検索するためのキーワードに設定する。ステップS407の後、情報処理装置3は、後述するステップS410へ移行する。これに対して、キーワード判定部363によって音声ファイルにキーワード候補がないと判定された場合(ステップS406:No)、情報処理装置3は、後述するステップS408へ移行する。会議が終わってしまうと、キーワードとなる単語のイメージは覚えていても、正確な単語そのものを忘れている事も多いので、キーワード判定部363は、類似の意味の単語を記録した辞書などの利用で、類義語を検索してもよい。
Subsequently, the
ステップS408、入力部32が操作された場合(ステップS408:Yes)において、入力部32を介して音声データで出現する特定のキーワードを検索するとき(ステップS409:Yes)、情報処理装置3は、後述するステップS410へ移行する。これに対して、入力部32が操作された場合(ステップS408:Yes)において、入力部32を介して音声データで出現する特定のキーワードを検索しない場合(ステップS409:No)、情報処理装置3は、後述するステップS416へ移行する。
When the specific keyword appearing in the audio data is searched through the input unit 32 (step S409: Yes), the
ステップS408において、入力部32が操作されていない場合(ステップS408:No)、情報処理装置3は、後述するステップS414へ移行する。
In step S408, when the
ステップS410において、情報処理制御部36は、音声データ上においてキーワードが出現する時間を判定するキーワード判定処理を実行する。 In step S410, the information processing control unit 36 executes keyword determination processing to determine the time for which the keyword appears on the voice data.
〔キーワード判定処理〕
図17は、上述した図15のステップS410におけるキーワード判定処理の概要を示すフローチャートである。
[Keyword determination processing]
FIG. 17 is a flowchart showing an outline of the keyword determination process in step S410 of FIG. 15 described above.
図17に示すように、音声データで出現する特定のキーワードを自動で検出する自動モードが設定されている場合(ステップS501:Yes)、情報処理装置3は、後述するステップS502へ移行する。これに対して、音声データで出現する特定のキーワードを自動で検出する自動モードが設定されていない場合(ステップS501:No)、情報処理装置3は、後述するステップS513へ移行する。
As shown in FIG. 17, when the automatic mode for automatically detecting a specific keyword appearing in voice data is set (step S501: Yes), the
ステップS502において、テキスト化部361は、音声データを音声波形に分解し(ステップS502)、分解した音声波形に対してフーリエ変換を行うことによって音声テキストデータを生成する(ステップS503)。
In step S502, the
続いて、キーワード判定部363は、テキスト化部361がフーリエ変換を行った音声テキストデータに対して、音声テキスト化辞書データ記録部332が記録する音素辞書データに含まれる複数の音素のいずれかと一致するか否かを判定する(ステップS504)。具体的には、キーワード判定部363は、テキスト化部361がフーリエ変換を行った結果に対して、音声テキスト化辞書データ記録部332が記録する音素辞書データに含まれる複数の音素のいずれかの波形と一致するか否かを判定する。ただし、キーワード判定部363は、個人によって発音には癖や差異があるので、厳密な一致である必要はなく、類似度が高いかどうかという判定でもよい。また、個人によって、同じ事を別な言い方をする人もいるので、必要に応じて、類義語を使った検索を行っても良い。キーワード判定部363によってテキスト化部361がフーリエ変換を行った結果に対して、音声テキスト化辞書データ記録部332が記録する音素辞書データに含まれる複数の音素のいずれかと一致する(類似度が高い)と判定された場合(ステップS504:Yes)、情報処理装置3は、後述するステップS506へ移行する。これに対して、キーワード判定部363によってテキスト化部361がフーリエ変換を行った結果に対して、音声テキスト化辞書データ記録部332が記録する音素辞書データに含まれる複数の音素のいずれかと一致しない(類似度が低い)と判定された場合(ステップS504:No)、情報処理装置3は、後述するステップS505へ移行する。
Subsequently, the
ステップS505において、テキスト化部361は、分解した音声波形に対してフーリエ変換を行う波形幅を変更する。ステップS505の後、情報処理装置3は、ステップS503へ戻る。
In step S505, the
ステップS506において、テキスト化部361は、キーワード判定部363によって一致すると判定された音素を、フーリエ変換の結果として音素化を行う。
In step S506, the
続いて、テキスト化部361は、複数の音素で構成された音素集合を作成する(ステップS507)。
Subsequently, the
その後、キーワード判定部363は、テキスト化部361が作成した音素集合に対して、音声テキスト化辞書データ記録部332が記録する音声テキスト化辞書データに含まれる複数の単語のいずれかと一致するか否か(類似度が高いか否か)を判定する(ステップS508)。キーワード判定部363によってテキスト化部361が作成した音素集合に対して、音声テキスト化辞書データ記録部332が記録する音声テキスト化辞書データに含まれる複数の単語のいずれかと一致する(類似度が高い)と判定された場合(ステップS508:Yes)、情報処理装置3は、後述するステップS510へ移行する。これに対して、キーワード判定部363によってテキスト化部361が作成した音素集合に対して、音声テキスト化辞書データ記録部332が記録する音声テキスト化辞書データに含まれる複数の単語のいずれかと一致しない(類似度が低い)と判定された場合(ステップS508:No)、情報処理装置3は、後述するステップS509へ移行する。
Thereafter, the
ステップS509において、テキスト化部361は、複数の音素で構成された音素集合を変更する。例えば、テキスト化部361は、音素の数を減少または増加させることによって音素集合を変更する。ステップS509の後、情報処理装置3は、上述したステップS508へ戻る。このようなステップS502〜ステップS509の各処理を含む一例の処理が上述した音声認識処理に該当する。
In step S509, the
ステップS510において、特定部362は、入力部32を介して入力されたキーワードの文字列とテキスト化部361が生成した音声テキストデータの文字列とが一致するか否か(類似度が高いか否か)を判定する。この場合、特定部362は、キーワード設定部364によって設定されたキーワードの文字列とテキスト化部361が生成した音声テキストデータの文字列とが一致するか否か(類似度が高いか否か)を判定してもよい。特定部362が入力部32を介して入力されたキーワードの文字列とテキスト化部361が生成した音声テキストデータの文字列とが一致する(類似度が高い)と判定した場合(ステップS510:Yes)、情報処理装置3は、後述するステップS511へ移行する。これに対して、特定部362が入力部32を介して入力されたキーワードの文字列とテキスト化部361が生成した音声テキストデータの文字列とが一致しない(類似度が低い)と判定した場合(ステップS510:No)、情報処理装置3は、後述するステップS512へ移行する。
In step S510, the
ステップS511において、特定部362は、音声データ上におけるキーワードの出現時間を特定する。具体的には、特定部362は、入力部32を介して入力されたキーワードの文字列とテキスト化部361が生成した音声テキストデータの文字列とが一致(類似度が高い)する期間を音声データ上におけるキーワードの出現位置(出現時間)として特定する。ただし、特定部362は、個人によって発音には癖や差異があるので、厳密な一致である必要はなく、類似度が高いかどうかという判定でもよい。また、個人によって、同じ事を別な言い方をする人もいるので、必要に応じて、特定部362は、類義語を使った検索を行っても良い。これによって、後で聞き直したくなるキーワードを、再生現場においてリアルタイムで判定しやすくする工夫が可能となる。再生データが終わってしまうと、単語のイメージは覚えていても、正確な単語そのものを忘れている事も多い。このように、後で検索する時に、よく探すべきタイミングを分かりやすくしている。これは、いわば、候補タイミングとも言えるもので、このタイミングにおいては、重要キーワードやその類義語や、似たニュアンスの言葉を使った議論がなされている可能性が高い。このため、特定部362は、ここでの音声データが優先的にテキストとして見える化をできた方が、議論全体を把握するのに役立つので、テキスト化部361にテキスト化を実行させて音声テキストデータを生成させてもよい。なお、特定部362は、ステップS511において、テキスト化まで必ずしも行う必要はなく、重点的に検索するタイミングを、録音開始から何分何秒のタイミング、などと候補タイミングを音声データに関連づけて記録しておくだけでも良い。音声ファイルを作る時のメタデータとして候補タイミング情報を記録するような方法がある。
In step S511, the identifying
続いて、ドキュメント生成部367は、特定部362が特定したキーワードの出現位置を音声データに付加して記録する(ステップS512)。ステップS512の後、情報処理装置3は、上述した図15のメインルーチンへ戻る。
Subsequently, the
ステップS513において、音声データで出現する特定のキーワードをユーザが手動で検出する手動モードが設定されている場合(ステップS513:Yes)、音声再生部34は、特定フレーズまで音声データを再生する(ステップS514)。
In step S513, when the manual mode in which the user manually detects a specific keyword appearing in audio data is set (step S513: Yes), the
続いて、入力部32から特定フレームまで繰り返し操作を指示する指示信号が入力された場合(ステップS515:Yes)、情報処理装置3は、上述したステップS514に戻る。これに対して、入力部32から特定フレームまで繰り返し操作を指示する指示信号が入力されていない場合(ステップS515:No)、情報処理装置3は、後述するステップS516へ移行する。
Subsequently, when an instruction signal instructing repeat operation to the specific frame is input from the input unit 32 (step S515: Yes), the
ステップS513において、音声データで出現する特定のキーワードをユーザが手動で検出する手動モードが設定されていない場合(ステップS513:No)、情報処理装置3は、ステップS512へ移行する。
In step S513, when the manual mode in which the user manually detects a specific keyword appearing in the voice data is not set (step S513: No), the
ステップS516において、入力部32を介してキーワードを入力する操作があった場合(ステップS516:Yes)、テキスト化部361は、入力部32の操作に応じてキーワードの単語化を行う(ステップS517)。
In step S516, when there is an operation of inputting a keyword through the input unit 32 (step S516: Yes), the
続いて、ドキュメント生成部367は、入力部32を介してキーワードの入力があった時刻の音声データ上にインデックスを付加して記録する(ステップS518)。ステップS518の後、情報処理装置3は、ステップS512へ移行する。
Subsequently, the
ステップS516において、入力部32を介してキーワードを入力する操作がなかった場合(ステップS516:No)、情報処理装置3は、ステップS512へ移行する。
In step S516, when there is no operation to input a keyword via the input unit 32 (step S516: No), the
図15に戻り、ステップS411以降の説明を説明する。
ステップS411において、表示制御部366は、表示部35が表示するタイムバー上に、特定部362が特定したキーワードが出現する出現位置にインデックスを付加して表示部35に表示させる。具体的には、図18に示すように、表示制御部366は、表示部35が表示するタイムバーT2上に、特定部362が特定したキーワード、例えば「確認」が出現する出現位置にインデックスB1を付加して表示部35に表示させる。より具体的には、表示制御部366は、表示部35が表示するタイムバーT2上の近傍に、特定部362が特定したキーワード、例えば「確認」が出現する出現位置にインデックスB1として(1)を付加して表示部35に表示させる。これにより、ユーザは、所望のキーワードの出現位置を直感的に把握することができる。なお、表示制御部366は、表示部35が表示するタイムバーT2上に、特定部362が特定したキーワードが出現する出現位置にインデックスB1として(1)を重畳して表示部35に表示させてもよいし、インデックスB1として図形、テキストデータを重畳してもよいし、出現位置のタイムバーT2の色彩を他の領域と識別可能に表示させてもよい。もちろん、表示制御部366は、特定部362が特定したキーワードが出現する出現位置の時間を表示部35に表示させてもよい。
Referring back to FIG. 15, the description of step S411 and subsequent steps will be described.
In step S411, the
また、図19に示すように、ユーザがキーワードを3つ設定した場合、例えば「確認」、「AB社」および「納期」の各々を設定した場合、表示制御部366は、表示部35が表示するタイムバーT2上に、特定部362が特定した3つのキーワードの各々が出現する出現位置にインデックスB1、インデックスB2およびインデックスB3として(1)、(2)および(3)を付加して表示部35に表示させる。この場合において、表示制御部366は、表示部35が表示するタイムバーT2上に、特定部362が特定した3つのキーワードの各々が所定時間内(例えば10秒以上内)に全て出現する出現位置にインデックスを付加して表示部35に表示させてもよい。このとき、表示制御部366は、タイムバーT2上において最初のキーワードが出現する出現位置にインデックスを付加して表示部35に表示させてもよい。これにより、ユーザが所望する複数のキーワードが音声データ上で出現する出現位置を直感的に把握することができる。
Further, as shown in FIG. 19, when the user sets three keywords, for example, when each of “confirm”, “AB company” and “delivery time” is set, the
続いて、入力部32を介してタイムバー上のインデックスまたは各音源(アイコン)のいずれかが指定された場合(ステップS412:Yes)、音声制御部365は、入力部32を介して指定されたタイムバー上のインデックスに対応する時間または指定された音源に対応する時間図まで音声データをスキップして音声再生部34に再生させる(ステップS413)。具体的には、図20に示すように、ユーザが入力部32を介して矢印Aのインデックス(1)を指定した場合、音声制御部365は、入力部32を介して指定されたタイムバーT2上のインデックスに対応する時間まで音声データをスキップして音声再生部34に再生させる。これにより、ユーザは、所望のキーワードの出現位置を直感的に把握することができるとともに、所望の位置の書き出しを行うことができる。
Subsequently, when either the index or each sound source (icon) on the time bar is specified via the input unit 32 (step S412: Yes), the
その後、入力部32を介してドキュメント化を終了する操作を行った場合(ステップS414:Yes)、ドキュメント生成部367は、入力部32を介してユーザが入力したドキュメントと、音声データと、特定部362が特定した出現位置とを対応付けたドキュメントファイルを生成して記録部33に記録する(ステップS415)。ステップS415の後、情報処理装置3は、本処理を終了する。これに対して、入力部32を介してドキュメント化を終了する操作を行っていない場合(ステップS414:No)、情報処理装置3は、上述したステップS408へ戻る。
Thereafter, when an operation to end documentization is performed via the input unit 32 (step S 414: Yes), the
ステップS412において、入力部32を介してタイムバー上のインデックスが指定されていない場合(ステップS412:No)、情報処理装置3は、ステップS414へ移行する。
In step S412, when the index on the time bar is not designated via the input unit 32 (step S412: No), the
ステップS416において、テキスト化部361は、入力部32の操作に応じてテキストデータのドキュメント化を行う。ステップS416の後、情報処理装置3は、ステップS412へ移行する。
In step S 416, the
ステップS404において、入力部32を介して音声データを再生する再生操作が行われていない場合(ステップS404:No)、情報処理装置3は、本処理を終了する。
In step S404, when the reproduction operation for reproducing the audio data is not performed via the input unit 32 (step S404: No), the
ステップS401において、ユーザが音声データを再生させながら摘録作成を行うドキュメント化作業を行わない場合(ステップS401:No)、情報処理装置3は、ドキュメント化作業以外のその他のモード処理に応じた処理を実行する(ステップS417)。ステップS417の後、情報処理装置3は、本処理を終了する。
In step S401, when the user does not perform the documentizing operation for making the collection while reproducing the audio data (step S401: No), the
以上説明した本発明の実施の形態1によれば、表示制御部303が音源位置推定部295によって推定された推定結果に基づいて、複数の音源の各々の位置に関する音源位置情報を表示部23に表示させるので、録音時における話者の位置を直感的に把握することができる。
According to the first embodiment of the present invention described above, based on the estimation result estimated by the sound source
また、本発明の実施の形態1によれば、表示制御部303が表示位置判定部296によって判定された判定結果に基づいて、音源位置情報を表示部23に表示させるので、表示部23の形状に応じた話者の位置を直感的に把握することができる。
Further, according to the first embodiment of the present invention, since the
また、本発明の実施の形態1によれば、表示位置判定部296が表示部23の表示領域の中心を情報取得機器2とした際における複数の音源の各々の表示位置を判定するので、情報取得機器2を中心とした際の話者の位置を直感的に把握することができる。
Further, according to the first embodiment of the present invention, the display
また、本発明の実施の形態1によれば、表示制御部303が音源位置情報として音源情報生成部298によって生成された複数の音源情報を表示部23に表示させるので、録音時における参加した話者の性別や人数を直感的に把握することができる。
Further, according to the first embodiment of the present invention, the
また、本発明の実施の形態1によれば、音声ファイル生成部302が音声データと、音源位置推定部295によって推定された音源位置情報と、音源情報生成部298によって生成された複数の音源情報と、音声特定部299によって特定された出現位置、インデックス付加部301によって付加されたインデックスの位置に関する位置情報またはインデックスによって付加された音声データ上における時間に関する時間情報と、テキスト化部292によって生成された音声テキストデータと、を対応付けた音声ファイルを生成して音声ファイル記録部262に記録するので、情報処理装置3で摘録を作成する際に作成者の所望の位置を把握することができる。
Further, according to the first embodiment of the present invention, the sound
また、本発明の実施の形態1によれば、音源情報生成部298が移動判定部300によって移動していると判定された音源の音源情報に、移動したことを示す情報を付加するので、録音時に移動した話者を直感的に把握することができる。
Further, according to the first embodiment of the present invention, the sound source
(実施の形態2)
次に、本発明の実施の形態2について説明する。上述した実施の形態1では、第1収音部20および第2収音部21の各々が生成した2つの音声データに基づいて、複数の音源の位置を推定して表示部23に表示していたが、本実施の形態2では、外部入力検出部22に挿入される外部マイクが生成した音声データをさらに用いて複数の音源の位置を推定して表示する。以下においては、本実施の形態2に係る情報取得機器の構成について説明する。なお、上述した実施の形態1に係る情報取得機器2と同一の構成には同一の符号を付して説明を省略する。
Second Embodiment
Next, a second embodiment of the present invention will be described. In the first embodiment described above, the positions of a plurality of sound sources are estimated and displayed on the
図21は、本発明の実施の形態2に係る情報取得機器に対して外部マイクを装着する前の概略構成を示す斜視図である。図22は、本発明の実施の形態2に係る情報取得機器に対して外部マイクを装着した後の概略構成を示す斜視図である。 FIG. 21 is a perspective view showing a schematic configuration before an external microphone is attached to the information acquisition apparatus according to the second embodiment of the present invention. FIG. 22 is a perspective view showing a schematic configuration after an external microphone is attached to the information acquisition apparatus according to the second embodiment of the present invention.
図21および図22に示すように、情報取得機器2は、外部入力検出部22に外部マイク100のプラグ101が挿入される。外部マイク100は、長方体をなし、側面に第3収音部102および第4収音部103が設けられている。外部マイク100は、情報取得機器2に設けられた第1収音部20および第2収音部21の各々の上面の長手方向に対して直交する方向に挿入されて情報取得機器2に着脱自在に取り付けられる。外部マイク100は、単一指向性マイク、無指向性マイクおよび双指向性マイク、左右の音を収音することができるステレオマイク等のいずれかのマイクを用いて構成される。なお、本実施の形態2では、外部マイク100として第3収音部102および第4収音部103で構成されたステレオマイクを用いる場合について説明する。また、外部マイク100は、内蔵のマイク(第1収音部20、第2収音部21)と周波数特性が違うもの、性能が良いものを選べたり、延長ケーブルで情報取得機器2から離れた位置に置いたり、ユーザの襟に取り付ける等の用い方ができるものであってもよい。
As shown in FIGS. 21 and 22, in the
外部入力検出部22は、左右のマイクロホンの各々で収音された2つの音声データ(第3音声データおよび第4音声データ)を生成して機器制御部29へ出力する。
The external
このように、外部マイク100が挿入された情報取得機器2は、音源位置推定部295が第1収音部20、第2収音部21および外部マイク100の各々が生成した複数の音声データを用いて、複数の音源の位置を推定する。具体的には、音源位置推定部295は、図23に示すように、音源A1,A2が同じ距離D1に位置しているとき、第1収音部20および第2収音部21の各々に音声信号が到達する到達時間差が等しくなり、音源A1,A2の位置を推定することが難しくなる。このため、音源位置推定部295は、外部マイク100が情報取得機器2に設けられた第1収音部20および第2収音部21の各々の上面の長手方向に対して直交する方向に挿入されることによって、図24に示すように、第1収音部20および第2収音部21の各々に音声信号が到達する到達時間と外部マイク100に音声信号が到達する到達時間とに差が生じるので、第1収音部20、第2収音部21および外部マイク100の各々が生成した複数の音声データを用いて、奥行き方向の各音源の位置を推定することができる。
Thus, in the
以上説明した本発明の実施の形態2によれば、録音時における話者の位置を直感的に把握することができる。 According to the second embodiment of the present invention described above, the position of the speaker at the time of recording can be intuitively grasped.
また、本発明の実施の形態2によれば、外部マイク100が情報取得機器2に設けられた第1収音部20および第2収音部21の各々の上面の長手方向に対して直交する方向に挿入されることによって、第1収音部20および第2収音部21の各々に音声信号が到達する到達時間と外部マイク100に音声信号が到達する到達時間とに差が生じるので、音源位置推定部295が第1収音部20、第2収音部21および外部マイク100の各々が生成した複数の音声データを用いて、奥行き方向の各音源の位置を推定することができる。
Further, according to the second embodiment of the present invention, the
また、本発明に係る情報取得機器および情報処理装置は、通信ケーブルを介して双方向にデータを送受信していたが、これに限定されることなく、情報処理装置は、サーバ等を介して情報処理装置が情報取得機器によって生成された音声データを格納した音声ファイルを取得してもよいし、情報取得機器は、ネットワーク上のサーバに音声データを格納した音声ファイルを送信してもよい。 Further, although the information acquisition device and the information processing apparatus according to the present invention transmit and receive data bidirectionally via the communication cable, without being limited to this, the information processing apparatus transmits information via a server or the like. The processing device may acquire an audio file storing audio data generated by the information acquisition device, or the information acquisition device may transmit the audio file storing audio data to a server on the network.
また、本発明に係る情報処理装置は、情報取得機器から音声データを格納した音声ファイルを受信することによって取得していたが、これに限定されることなく、外部のマイク等を介して音声データを取得するようにしてもよい。 In addition, although the information processing apparatus according to the present invention is obtained by receiving an audio file storing audio data from an information acquisition device, the information processing apparatus is not limited to this, and is not limited to this. May be acquired.
なお、本明細書におけるフローチャートの説明では、「まず」、「その後」、「続いて」等の表現を用いてステップ間の処理の前後関係を明示していたが、本発明を実施するために必要な処理の順序は、それらの表現によって一意的に定められるわけではない。即ち、本明細書で記載したフローチャートにおける処理の順序は、矛盾のない範囲で変更することができる。また、こうした、単純な分岐処理からなるプログラムに限らず、より多くの判定項目を総合的に判定して分岐させてもよい。その場合、ユーザにマニュアル操作を促して学習を繰り返すうちに機械学習するような人工知能の技術を併用しても良い。また、多くの専門家が行う操作パターンを学習させて、さらに複雑な条件を入れ込む形で深層学習をさせて実行してもよい。 In the description of the flowchart in the present specification, the context of processing between steps is clearly indicated using expressions such as "first", "after", "following", etc., in order to implement the present invention. The order of processing required is not uniquely determined by their representation. That is, the order of processing in the flowcharts described herein can be changed without contradiction. Further, not limited to such a program comprising simple branch processing, more judgment items may be comprehensively judged and branched. In that case, artificial intelligence techniques may be used in combination, such as machine learning as the user is prompted to perform manual operations and learning is repeated. Further, it is also possible to learn operation patterns performed by many experts and perform deep learning by inserting more complicated conditions.
このように、本発明は、ここでは記載していない様々な実施の形態を含みうるものであり、請求の範囲によって特定される技術的思想の範囲内で種々の設計変更等を行うことが可能である。 Thus, the present invention can include various embodiments not described herein, and various design changes can be made within the scope of the technical idea specified by the claims. It is.
1・・・トランスクライバーシステム;2・・・情報取得機器;3・・・情報処理装置;4・・・通信ケーブル;20・・・第1収音部;21・・・第2収音部;22・・・外部入力検出部;23・・・表示部;24・・・時計;25・・・入力部;26・・・記録部;27・・・通信部;28・・・出力部;29・・・機器制御部;31・・・通信部;32・・・入力部;33・・・記録部;34・・・音声再生部;35・・・表示部;36・・・情報処理制御部;100・・・外部マイク;101・・・プラグ;102・・・第3収音部;103・・・第4収音部;251・・・タッチパネル;261・・・プログラム記録部;262・・・音声ファイル記録部;291・・・信号処理部;292・・・テキスト化部;293・・・テキスト化制御部;294・・・音声判定部;295・・・音源位置推定部;296・・・表示位置判定部;297・・・声紋判定部;298・・・音源情報生成部;299・・・音声特定部;300・・・移動判定部;301・・・インデックス付加部;302・・・音声ファイル生成部;303・・・表示制御部;331・・・プログラム記録部;332・・・音声テキスト化辞書データ記録部;361・・・テキスト化部;362・・・特定部;363・・・キーワード判定部;364・・・キーワード設定部;365・・・音声制御部;366・・・表示制御部;367・・・ドキュメント生成部
1: Transcriber system 2: Information acquisition device 3: Information processing device 4: Communication cable 20: First sound collection unit 21: Second sound collection unit 22: external input detection unit; 23: display unit; 24: clock; 25: input unit; 26: recording unit; 27: communication unit; 28: output unit 29: device control unit 31: communication unit 32: input unit 33: recording unit 34: audio reproduction unit 35: display unit 36: information Processing control unit; 100: external microphone; 101: plug; 102: third sound collecting unit; 103: fourth sound collecting unit: 251: touch panel; 261: program recording unit 262: voice file recording unit; 291: signal processing unit; 292: text conversion unit; 293: text Sound control unit; 294: sound source position estimation unit; 296 ... display position determination unit; 297 ... voice print judgment unit; 298 ... sound source information generation unit; · · · · · · Voice identification unit; 300 · · ·
Claims (12)
互いに異なる位置に設けられ、複数の音源の各々から発せられた音声を収音して音声データを生成する複数の収音部と、
前記複数の収音部の各々が生成した前記音声データに基づいて、前記複数の音源の各々の位置を推定する音源位置推定部と、
前記音源位置推定部が推定した推定結果に基づいて、前記複数の音源の各々の位置に関する音源位置情報を前記表示部に表示させる表示制御部と、
を備えることを特徴とする情報取得機器。 A display unit capable of displaying an image;
A plurality of sound collection units provided at mutually different positions and collecting sound emitted from each of the plurality of sound sources to generate sound data;
A sound source position estimation unit configured to estimate the position of each of the plurality of sound sources based on the voice data generated by each of the plurality of sound collection units;
A display control unit that causes the display unit to display sound source position information on each position of the plurality of sound sources based on the estimation result estimated by the sound source position estimating unit;
An information acquisition apparatus comprising:
前記表示制御部は、前記表示位置判定部が判定した判定結果に基づいて、前記音源位置情報を前記表示部に表示させることを特徴とする請求項1に記載の情報取得機器。 A display position determination unit is further provided that determines the display position of each of the plurality of sound sources in the display area of the display unit based on the shape of the display area of the display unit and the estimation result estimated by the sound source position estimation unit. ,
The information acquisition apparatus according to claim 1, wherein the display control unit causes the display unit to display the sound source position information based on the determination result determined by the display position determination unit.
前記声紋判定部が判定した前記複数の話者の各々の音量の比較に基づいて、前記複数の話者の各々を模式的に示すアイコンを音源情報として生成する音源情報生成部と、
をさらに備えることを特徴とする請求項2に記載の情報取得機器。 A voiceprint determination unit that determines the volume of each speaker emitted by each of a plurality of speakers based on the voice data;
A sound source information generation unit that generates, as sound source information, an icon schematically indicating each of the plurality of speakers based on comparison of the volume of each of the plurality of speakers determined by the voiceprint determination unit;
The information acquisition apparatus according to claim 2, further comprising:
前記声紋判定部が判定した判定結果に基づいて、前記複数の音源の各々に関する複数の音源情報を生成する音源情報生成部と、
を備え、
前記表示制御部は、前記音源位置情報として前記複数の音源情報を前記表示部に表示させることを特徴とする請求項5に記載の情報取得機器。 A voiceprint determination unit that determines a voiceprint of each of the plurality of sound sources based on the voice data;
A sound source information generation unit configured to generate a plurality of pieces of sound source information related to each of the plurality of sound sources based on the determination result determined by the voiceprint determination unit;
Equipped with
6. The information acquisition apparatus according to claim 5, wherein the display control unit causes the display unit to display the plurality of sound source information as the sound source position information.
前記音声データと、前記音源位置情報と、前記複数の音源情報と、前記出現位置と、を対応付けた音声ファイルを生成して記録媒体に記録する音声ファイル生成部と、
を備えることを特徴とする請求項6に記載の情報取得機器。 A voice identification unit that identifies an appearance position where each voiceprint determined by the voiceprint determination unit appears on the voice data;
An audio file generation unit that generates an audio file in which the audio data, the sound source position information, the plurality of sound source information, and the appearance position are associated with one another and is recorded in a recording medium.
The information acquisition apparatus according to claim 6, comprising:
前記音源情報生成部は、前記移動判定部によって移動していると判定された前記音源の前記音源情報に、移動したことを示す情報を付加することを特徴とする請求項7に記載の情報取得機器。 The apparatus further comprises a movement determination unit that determines whether each of the plurality of sound sources is moving based on the estimation result estimated by the sound source position estimation unit and the determination result determined by the voice print determination unit.
8. The information acquisition according to claim 7, wherein the sound source information generation unit adds information indicating that the sound source has moved to the sound source information of the sound source determined to be moving by the movement determination unit. machine.
前記複数の収音部の各々が生成した前記音声データに基づいて、前記複数の音源の位置を推定する音源位置推定ステップと、
前記音源位置推定ステップで推定した推定結果に基づいて、前記複数の音源の各々の位置に関する音源位置情報を前記表示部に表示させる表示制御ステップと、
を含むことを特徴とする表示方法。 Information acquisition comprising: a display unit capable of displaying an image; and a plurality of sound collection units provided at mutually different positions and collecting sound emitted from each of a plurality of sound sources to generate sound data The display method executed by the device, and
A sound source position estimation step of estimating the positions of the plurality of sound sources based on the voice data generated by each of the plurality of sound collection units;
A display control step of causing the display unit to display sound source position information on each position of the plurality of sound sources based on the estimation result estimated in the sound source position estimation step;
A display method characterized in that
前記複数の収音部の各々が生成した前記音声データに基づいて、前記複数の音源の位置を推定する音源位置推定ステップと、
前記音源位置推定ステップで推定した推定結果に基づいて、前記複数の音源の各々の位置に関する音源位置情報を前記表示部に表示させる表示制御ステップと、
を実行させることを特徴とするプログラム。 Information acquisition comprising: a display unit capable of displaying an image; and a plurality of sound collection units provided at mutually different positions and collecting sound emitted from each of a plurality of sound sources to generate sound data To the equipment
A sound source position estimation step of estimating the positions of the plurality of sound sources based on the voice data generated by each of the plurality of sound collection units;
A display control step of causing the display unit to display sound source position information on each position of the plurality of sound sources based on the estimation result estimated in the sound source position estimation step;
A program characterized by causing
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017173163A JP2019050482A (en) | 2017-09-08 | 2017-09-08 | Information acquisition device, display method, and program |
US16/122,500 US20190082255A1 (en) | 2017-09-08 | 2018-09-05 | Information acquiring apparatus, information acquiring method, and computer readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017173163A JP2019050482A (en) | 2017-09-08 | 2017-09-08 | Information acquisition device, display method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019050482A true JP2019050482A (en) | 2019-03-28 |
Family
ID=65905936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017173163A Pending JP2019050482A (en) | 2017-09-08 | 2017-09-08 | Information acquisition device, display method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019050482A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021128744A (en) * | 2020-09-16 | 2021-09-02 | 株式会社時空テクノロジーズ | Information processing apparatus, information processing system, and program |
JP6953597B1 (en) * | 2020-09-17 | 2021-10-27 | ベルフェイス株式会社 | Information processing equipment, programs and information processing methods |
WO2022014517A1 (en) * | 2020-07-17 | 2022-01-20 | ソニーグループ株式会社 | Microphone device, audio signal processing device, and audio signal processing method |
JP7464730B2 (en) | 2020-02-03 | 2024-04-09 | グーグル エルエルシー | Spatial Audio Enhancement Based on Video Information |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06217276A (en) * | 1992-08-27 | 1994-08-05 | Toshiba Corp | Moving picture encoding device |
JP2011165056A (en) * | 2010-02-12 | 2011-08-25 | Nec Casio Mobile Communications Ltd | Information processor and program |
JP2015185899A (en) * | 2014-03-20 | 2015-10-22 | 株式会社Nttドコモ | Portable terminal and sound notification method |
-
2017
- 2017-09-08 JP JP2017173163A patent/JP2019050482A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06217276A (en) * | 1992-08-27 | 1994-08-05 | Toshiba Corp | Moving picture encoding device |
JP2011165056A (en) * | 2010-02-12 | 2011-08-25 | Nec Casio Mobile Communications Ltd | Information processor and program |
JP2015185899A (en) * | 2014-03-20 | 2015-10-22 | 株式会社Nttドコモ | Portable terminal and sound notification method |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7464730B2 (en) | 2020-02-03 | 2024-04-09 | グーグル エルエルシー | Spatial Audio Enhancement Based on Video Information |
WO2022014517A1 (en) * | 2020-07-17 | 2022-01-20 | ソニーグループ株式会社 | Microphone device, audio signal processing device, and audio signal processing method |
JP2021128744A (en) * | 2020-09-16 | 2021-09-02 | 株式会社時空テクノロジーズ | Information processing apparatus, information processing system, and program |
JP7048113B2 (en) | 2020-09-16 | 2022-04-05 | 株式会社時空テクノロジーズ | Information processing equipment, information processing systems, and programs |
JP6953597B1 (en) * | 2020-09-17 | 2021-10-27 | ベルフェイス株式会社 | Information processing equipment, programs and information processing methods |
WO2022059446A1 (en) * | 2020-09-17 | 2022-03-24 | ベルフェイス株式会社 | Information processing device, program, and information processing method |
JP2022049784A (en) * | 2020-09-17 | 2022-03-30 | ベルフェイス株式会社 | Information processor, program, and method for processing information |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190082255A1 (en) | Information acquiring apparatus, information acquiring method, and computer readable recording medium | |
US11727914B2 (en) | Intent recognition and emotional text-to-speech learning | |
Kennedy et al. | Child speech recognition in human-robot interaction: evaluations and recommendations | |
US10276164B2 (en) | Multi-speaker speech recognition correction system | |
JP2019050482A (en) | Information acquisition device, display method, and program | |
US10977299B2 (en) | Systems and methods for consolidating recorded content | |
CN108399923A (en) | More human hairs call the turn spokesman's recognition methods and device | |
US10409547B2 (en) | Apparatus for recording audio information and method for controlling same | |
JPWO2005069171A1 (en) | Document association apparatus and document association method | |
TW201203222A (en) | Voice stream augmented note taking | |
CN111739556B (en) | Voice analysis system and method | |
CN104008752A (en) | Speech recognition device and method, and semiconductor integrated circuit device | |
CN108364655A (en) | Method of speech processing, medium, device and computing device | |
CN113345407B (en) | Style speech synthesis method and device, electronic equipment and storage medium | |
JP2019036246A (en) | Information processor, information acquisition apparatus, transcriber system, method for display, method for generation, and program | |
WO2017199486A1 (en) | Information processing device | |
CN107452408B (en) | Audio playing method and device | |
JP2021117371A (en) | Information processor, information processing method and information processing program | |
JPWO2014087571A1 (en) | Information processing apparatus and information processing method | |
WO1997009683A1 (en) | Authoring system for multimedia information including sound information | |
CN112235183B (en) | Communication message processing method and device and instant communication client | |
US20220148570A1 (en) | Speech interpretation device and system | |
JP2007286376A (en) | Voice guide system | |
JPWO2020116001A1 (en) | Information processing device and information processing method | |
CN112823047A (en) | System and apparatus for controlling web applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200401 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210119 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210820 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210907 |