JP6392578B2 - Audio processing apparatus, audio processing method, and audio processing program - Google Patents

Audio processing apparatus, audio processing method, and audio processing program Download PDF

Info

Publication number
JP6392578B2
JP6392578B2 JP2014163742A JP2014163742A JP6392578B2 JP 6392578 B2 JP6392578 B2 JP 6392578B2 JP 2014163742 A JP2014163742 A JP 2014163742A JP 2014163742 A JP2014163742 A JP 2014163742A JP 6392578 B2 JP6392578 B2 JP 6392578B2
Authority
JP
Japan
Prior art keywords
speaker
voice
unit
reference information
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014163742A
Other languages
Japanese (ja)
Other versions
JP2016038546A5 (en
JP2016038546A (en
Inventor
浩次 酒井
浩次 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Priority to JP2014163742A priority Critical patent/JP6392578B2/en
Publication of JP2016038546A publication Critical patent/JP2016038546A/en
Publication of JP2016038546A5 publication Critical patent/JP2016038546A5/en
Application granted granted Critical
Publication of JP6392578B2 publication Critical patent/JP6392578B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、本発明は、音声処理装置、音声処理方法、及び音声処理プログラムに関する。 The present invention is the invention, the audio processing device, voice processing method, and a voice processing program.

近年、打合せ時等の音声を記録(録音)及び再生可能とするICレコーダが実用化されている(例えば、特許文献1参照)。
具体的に、特許文献1に記載のICレコーダは、マイクを介して入力した音声を音声データ(デジタルデータ)に変換した後、当該音声データをメモリに記録する。また、当該ICレコーダは、メモリに記録された音声データを音声信号(アナログ信号)に変換した後、スピーカを介して当該音声信号に基づく音声を出力(再生)する。
In recent years, IC recorders capable of recording (recording) and reproducing voices at the time of a meeting have been put into practical use (for example, see Patent Document 1).
Specifically, the IC recorder described in Patent Document 1 converts voice input via a microphone into voice data (digital data), and then records the voice data in a memory. In addition, the IC recorder converts audio data recorded in the memory into an audio signal (analog signal), and then outputs (reproduces) audio based on the audio signal via a speaker.

そして、このようなICレコーダでは、一般的に、音声の再生時に以下に示すような再生画面を表示する。
具体的に、再生画面は、音声の録音を開始してから終了するまでの時間に対応する時間スケールと、当該時間スケール上に配置され、再生位置を指し示すスライダとを有するタイムバーが配置された画面である。
すなわち、当該ICレコーダのユーザは、音声の再生時に当該再生画面(タイムバー)を確認することで、既に録音した音声データの再生位置を把握することができる。
Such an IC recorder generally displays a reproduction screen as shown below when reproducing audio.
Specifically, the playback screen is provided with a time bar corresponding to the time from the start to the end of voice recording and a slider arranged on the time scale and a slider indicating the playback position. It is a screen.
That is, the user of the IC recorder can grasp the reproduction position of the already recorded audio data by confirming the reproduction screen (time bar) when reproducing the audio.

特開2012−205086号公報JP 2012-205086 A

しかしながら、従来の再生画面は、タイムバーが配置されただけである。このため、ユーザは、実際に再生された音声を確認しなければ、例えば、話者が誰であったか、当該話者のテンションはどのような状態であったか等の録音時の状況を把握することができない、という問題がある。
したがって、再生画面から録音時の状況を把握することができ、利便性の向上が図れる技術が要望されている。
However, the conventional playback screen is only provided with a time bar. For this reason, if the user does not check the actually reproduced voice, for example, the user can grasp the situation at the time of recording such as who the speaker is and the state of the speaker's tension. There is a problem that it is not possible.
Therefore, there is a demand for a technique that can grasp the situation at the time of recording from the playback screen and can improve convenience.

本発明は、上記に鑑みてなされたものであって、利便性の向上が図れる音声処理装置、音声処理方法、及び音声処理プログラムを提供することを目的とする。 The present invention was made in view of the above, an object of speech processing apparatus can be improved convenience, voice processing method, and to provide a voice processing program.

上述した課題を解決し、目的を達成するために、本発明に係る音声処理装置は、音声データを取得する音声データ取得部と、前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析部と、前記テンションの高い成分と前記音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成部とを備え、前記音声データ解析部は、前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定することを特徴とする。 In order to solve the above-described problems and achieve the object, an audio processing apparatus according to the present invention analyzes an audio data acquisition unit that acquires audio data, and analyzes the audio data, and analyzes the audio included in the audio data. Among them, an audio data analysis unit for discriminating a component with high tension is used to generate a reproduction screen of the audio data by associating the high tension component with the time during which the high tension component is included in the audio data. A reference information generation unit that generates reference information to be generated , and the sound data analysis unit analyzes the sound data and generates sound included in the sound data for each predetermined time range in the sound data. When the speaker cannot be specified when the speaker is identified and the high tension component is identified and the speaker cannot be identified Range of sound, characterized that you assumed the speaker identified in the immediately preceding or time range immediately after emitted for that time range.

また、本発明に係る音声処理方法は、音声処理装置が行う音声処理方法において、音声データを取得する音声データ取得ステップと、前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析ステップと、前記テンションの高い成分と当該音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成ステップとを含み、前記音声データ解析ステップでは、前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定することを特徴とする。 Further, the audio processing method according to the present invention is an audio processing method performed by an audio processing apparatus, wherein an audio data acquisition step for acquiring audio data, and the audio data are analyzed and included in the audio included in the audio data, A reference used when generating a reproduction screen of the audio data by associating the audio data analysis step for discriminating the high tension component with the time during which the high tension component and the high tension component of the audio data are included look including a reference information generating step of generating information, in the audio data analyzing step analyzes the voice data for each predetermined time range in the audio data, it issues a voice included in the voice data If the speaker is identified and the high tension component is determined and the speaker cannot be identified, Speech time range that can not be identified, and estimates as the speaker identified in the immediately preceding or time range immediately after emitted for that time range.

また、本発明に係る音声処理プログラムは、上述した音声処理方法を音声処理装置に実行させることを特徴とする。   A speech processing program according to the present invention causes a speech processing apparatus to execute the speech processing method described above.

本発明に係る音声処理装置によれば、実際に再生された音声を確認しなくても、話者のテンションの高さに基づいた画像を再生画面に表示することにより、当該再生画面から話者の録音時の状況を把握することができる。 According to the audio processing device of the present invention, an image based on the height of the speaker's tension is displayed on the reproduction screen without confirming the actually reproduced audio, so that the speaker can be reproduced from the reproduction screen. You can grasp the situation when recording.

図1は、本発明の実施の形態1に係る電子機器の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of an electronic apparatus according to Embodiment 1 of the present invention. 図2は、図1に示した電子機器の動作を示すフローチャートである。FIG. 2 is a flowchart showing the operation of the electronic device shown in FIG. 図3は、図2に示した話者表示処理(ステップS111)を示すフローチャートである。FIG. 3 is a flowchart showing the speaker display process (step S111) shown in FIG. 図4は、図2及び図3に示した話者表示処理(ステップS111)の対象となる第1,第2音声データが生成(録音)される状況の一例を示す図である。FIG. 4 is a diagram illustrating an example of a situation where the first and second audio data to be subjected to the speaker display process (step S111) illustrated in FIGS. 2 and 3 are generated (recorded). 図5は、図4の状況で生成された第1,第2音声データを対象として話者表示処理(ステップS111)を実行した場合に生成される参照情報の一例を示す図である。FIG. 5 is a diagram illustrating an example of reference information generated when the speaker display process (step S111) is executed on the first and second audio data generated in the situation of FIG. 図6は、図5に示した参照情報に基づいて生成される話者表示再生画面の一例を示す図である。6 is a diagram showing an example of a speaker display reproduction screen generated based on the reference information shown in FIG. 図7は、本発明の実施の形態1の変形例を示す図である。FIG. 7 is a diagram showing a modification of the first embodiment of the present invention. 図8は、本発明の実施の形態2に係る音声処理システムの構成を示すブロック図である。FIG. 8 is a block diagram showing a configuration of a speech processing system according to Embodiment 2 of the present invention. 図9は、本発明の実施の形態2に係る話者表示処理(ステップS111)を示すフローチャートである。FIG. 9 is a flowchart showing speaker display processing (step S111) according to Embodiment 2 of the present invention. 図10は、図8に示したサーバの動作を示すフローチャートである。FIG. 10 is a flowchart showing the operation of the server shown in FIG. 図11Aは、本発明の実施の形態1,2で説明した話者表示再生画面の変形例を示す図である。FIG. 11A is a diagram showing a modification of the speaker display reproduction screen described in the first and second embodiments of the present invention. 図11Bは、本発明の実施の形態1,2で説明した話者表示再生画面の変形例を示す図である。FIG. 11B is a diagram showing a modification of the speaker display reproduction screen described in the first and second embodiments of the present invention. 図11Cは、本発明の実施の形態1,2で説明した話者表示再生画面の変形例を示す図である。FIG. 11C is a diagram showing a modification of the speaker display reproduction screen described in the first and second embodiments of the present invention. 図12は、本発明の実施の形態1,2で説明した参照情報の変形例を示す図である。FIG. 12 is a diagram showing a modification of the reference information described in the first and second embodiments of the present invention. 図13は、図12に示した参照情報に基づいて生成される話者表示再生画面の一例を示す図である。FIG. 13 is a diagram showing an example of a speaker display reproduction screen generated based on the reference information shown in FIG.

以下に、図面を参照して、本発明を実施するための形態(以下、実施の形態と記載)について説明する。なお、以下に説明する実施の形態によって本発明が限定されるものではない。さらに、図面の記載において、同一の部分には同一の符号を付している。   DESCRIPTION OF EMBODIMENTS Hereinafter, modes for carrying out the present invention (hereinafter referred to as embodiments) will be described with reference to the drawings. The present invention is not limited to the embodiments described below. Furthermore, the same code | symbol is attached | subjected to the same part in description of drawing.

(実施の形態1)
〔電子機器の構成〕
図1は、本発明の実施の形態1に係る電子機器1の構成を示すブロック図である。
電子機器1は、ICレコーダ、デジタルカメラ、デジタルビデオカメラ、携帯電話、あるいはタブレット型携帯機器等として構成される。そして、電子機器1は、話者が発した音声を含む音声データを解析することで当該音声の特徴成分(話者のテンション)を判別し、タイムバーとともに当該特徴成分が生じた時間を明示した再生画面を表示する。
以下、電子機器1の構成として、本発明の要部を主に説明する。 この電子機器1は、図1に示すように、第1音声データ生成部11と、第2音声データ生成部12と、操作部13と、表示部14と、時計部15と、メモリ部16と、記録部17と、音声出力部18と、機器側制御部19とを備える。
(Embodiment 1)
[Configuration of electronic equipment]
FIG. 1 is a block diagram showing a configuration of electronic apparatus 1 according to Embodiment 1 of the present invention.
The electronic device 1 is configured as an IC recorder, a digital camera, a digital video camera, a mobile phone, a tablet mobile device, or the like. And the electronic device 1 discriminate | determines the characteristic component (speaker's tension) of the said voice by analyzing the audio | voice data containing the audio | voice which the speaker uttered, and clarified the time when the said characteristic component produced with the time bar. Display the playback screen.
Hereinafter, the main part of the present invention will be mainly described as the configuration of the electronic apparatus 1. As shown in FIG. 1, the electronic device 1 includes a first audio data generation unit 11, a second audio data generation unit 12, an operation unit 13, a display unit 14, a clock unit 15, and a memory unit 16. A recording unit 17, an audio output unit 18, and a device-side control unit 19.

第1音声データ生成部11は、機器側制御部19による制御の下、入力した音声に基づく第1音声データを生成する。この第1音声データ生成部11は、図1に示すように、第1マイク111と、第1増幅器112と、第1A/D変換部113とを備える。
第1マイク111は、音声を入力して電気信号に変換する。ここで、第1マイク111は、電子機器1を正面から見て、左上側に配置されている(図4参照)。
第1増幅器112は、第1マイク111からの電気信号を入力し、当該電気信号に対して所定のアナログ処理(ノイズ成分を低減するノイズ低減処理、ゲインを増大させて一定の出力レベルを維持するゲイン処理等)を施し、第1A/D変換部113に出力する。
第1A/D変換部113は、第1増幅器112からの電気信号を入力し、当該電気信号に対して、A/D変換を行うことにより、デジタル信号(第1音声データ)に変換し、機器側制御部19に出力する。
The first sound data generation unit 11 generates first sound data based on the input sound under the control of the device-side control unit 19. As shown in FIG. 1, the first audio data generation unit 11 includes a first microphone 111, a first amplifier 112, and a first A / D conversion unit 113.
The first microphone 111 inputs sound and converts it into an electrical signal. Here, the first microphone 111 is disposed on the upper left side when the electronic device 1 is viewed from the front (see FIG. 4).
The first amplifier 112 receives an electrical signal from the first microphone 111, and performs predetermined analog processing (noise reduction processing for reducing noise components, increasing gain to maintain a constant output level for the electrical signal. Gain processing, etc.) and output to the first A / D converter 113.
The first A / D conversion unit 113 receives the electrical signal from the first amplifier 112 and performs A / D conversion on the electrical signal to convert the electrical signal into a digital signal (first audio data). To the side controller 19.

第2音声データ生成部12は、第1音声データ生成部11と同様に、機器側制御部19による制御の下、入力した音声に基づく第2音声データを生成する。この第2音声データ生成部12は、図1に示すように、第1音声データ生成部11を構成する第1マイク111、第1増幅器112、及び第1A/D変換部113とそれぞれ同様の第2マイク121、第2増幅器121、及び第2A/D変換部123を備える。
ここで、第2マイク121は、電子機器1を正面から見て、右上側(第1マイク111に対向する側)に配置されている(図4参照)。
Similar to the first sound data generation unit 11, the second sound data generation unit 12 generates second sound data based on the input sound under the control of the device-side control unit 19. As shown in FIG. 1, the second audio data generation unit 12 is similar to the first microphone 111, the first amplifier 112, and the first A / D conversion unit 113 that constitute the first audio data generation unit 11, respectively. 2 microphones 121, a second amplifier 121, and a second A / D converter 123.
Here, the second microphone 121 is arranged on the upper right side (side facing the first microphone 111) when the electronic device 1 is viewed from the front (see FIG. 4).

操作部13は、ユーザ操作を受け付けるボタン、スイッチ、タッチパネル等を用いて構成され、当該ユーザ操作に応じた指示信号を機器側制御部19に出力する。
そして、操作部13は、本発明に係る操作受付部としての機能を有する。
表示部14は、液晶または有機EL(Electro Luminescence)等からなる表示パネルを用いて構成されている。そして、表示部14は、機器側制御部19による制御の下、話者表示再生画面等の画像を表示する。
時計部15は、計時機能の他、第1,第2音声データ生成部11,12にて音声データが生成された日時に関する日時情報(以下、タイムスタンプと記載)を生成する機能を有する。そして、時計部15にて生成されたタイムスタンプは、機器側制御部19に出力される。
The operation unit 13 is configured by using a button, a switch, a touch panel, or the like that receives a user operation, and outputs an instruction signal corresponding to the user operation to the device side control unit 19.
And the operation part 13 has a function as an operation reception part which concerns on this invention.
The display unit 14 is configured using a display panel made of liquid crystal, organic EL (Electro Luminescence), or the like. The display unit 14 displays an image such as a speaker display reproduction screen under the control of the device-side control unit 19.
The clock unit 15 has a function of generating date and time information (hereinafter referred to as a time stamp) related to the date and time when the audio data is generated by the first and second audio data generation units 11 and 12 in addition to the timekeeping function. The time stamp generated by the clock unit 15 is output to the device-side control unit 19.

メモリ部16は、第1,第2音声データ生成部11,12にてそれぞれ生成された第1,第2音声データ、及び機器側制御部19による処理中の情報を一時的に記憶する。
記録部17は、機器側制御部19が実行する各種プログラム(音声処理プログラムを含む)や、第1,第2音声データ生成部11,12にてそれぞれ生成された第1,第2音声データを記録する。また、記録部17は、機器側制御部19による制御の下、機器側制御部19にて生成された参照情報を対応する第1,第2音声データに関連付けて記録する。
The memory unit 16 temporarily stores the first and second audio data generated by the first and second audio data generation units 11 and 12 and information being processed by the device-side control unit 19, respectively.
The recording unit 17 stores various programs (including audio processing programs) executed by the device-side control unit 19 and the first and second audio data generated by the first and second audio data generation units 11 and 12, respectively. Record. The recording unit 17 records the reference information generated by the device-side control unit 19 in association with the corresponding first and second audio data under the control of the device-side control unit 19.

音声出力部18は、機器側制御部19による制御の下、記録部17に記録された第1,第2音声データに基づく音声を出力する。この音声出力部18は、図1に示すように、D/A変換部181と、増幅器182と、スピーカ183とを備える。
D/A変換部181は、記録部17に記録された第1,第2音声データに対して、D/A変換をそれぞれ行うことにより、アナログ信号にそれぞれ変換するとともに、各アナログ信号の和信号を増幅器182に出力する。
増幅器182は、D/A変換部181からの音声信号(和信号)を入力し、当該音声信号に対して所定のアナログ処理を施して音声信号の増幅等を行い、スピーカ183に出力する。
スピーカ183は、増幅器182からの音声信号を入力し、当該音声信号に基づく音声を出力する。
The audio output unit 18 outputs audio based on the first and second audio data recorded in the recording unit 17 under the control of the device-side control unit 19. As shown in FIG. 1, the audio output unit 18 includes a D / A conversion unit 181, an amplifier 182, and a speaker 183.
The D / A conversion unit 181 performs D / A conversion on the first and second audio data recorded in the recording unit 17 to convert each of the first and second audio data into an analog signal, and the sum signal of each analog signal. Is output to the amplifier 182.
The amplifier 182 receives the audio signal (sum signal) from the D / A converter 181, performs predetermined analog processing on the audio signal, amplifies the audio signal, and outputs the audio signal to the speaker 183.
The speaker 183 receives the audio signal from the amplifier 182 and outputs audio based on the audio signal.

機器側制御部19は、CPU(Central Processin Unit)等を用いて構成され、操作部13からの指示信号等に応じて電子機器1を構成する各部に対応する指示やデータの転送等を行って電子機器1の動作を統括的に制御する。この機器側制御部19は、図1に示すように、音声データ取得部191と、音声データ解析部192と、参照情報生成部193と、再生画面生成部194と、表示制御部195と、音声制御部196とを備える。   The device-side control unit 19 is configured using a CPU (Central Process Unit) or the like, and performs instructions and data transfer corresponding to each unit constituting the electronic device 1 in response to an instruction signal from the operation unit 13 or the like. The operation of the electronic device 1 is comprehensively controlled. As shown in FIG. 1, the device-side control unit 19 includes an audio data acquisition unit 191, an audio data analysis unit 192, a reference information generation unit 193, a playback screen generation unit 194, a display control unit 195, an audio And a control unit 196.

音声データ取得部191は、ユーザによる操作部13へのユーザ操作(モード切替スイッチの操作等)に応じて電子機器1が録音モードに設定されている場合に、以下の機能を実行する。
音声データ取得部191は、ユーザによる操作部13への録音開始操作(録音スイッチの押下等)に応じて、第1,第2音声データ生成部11,12に第1,第2音声データを生成させ、当該第1,第2音声データを取得する。そして、音声データ取得部191は、時計部15にて生成されたタイムスタンプ(第1,第2音声データの生成日時に関する日時情報)を第1,第2音声データに関連付けて、メモリ部16に順次、記憶する。また、音声データ取得部191は、ユーザによる操作部13への録音終了操作(停止スイッチの押下等)に応じて、第1,第2音声データ生成部11,12に第1,第2音声データの生成を終了させ、メモリ部16に記憶した第1,第2音声データ(タイムスタンプを含む)を記録部17に記録する。
The audio data acquisition unit 191 performs the following functions when the electronic device 1 is set to the recording mode in response to a user operation (such as operation of a mode switch) on the operation unit 13 by the user.
The voice data acquisition unit 191 generates first and second voice data in the first and second voice data generation units 11 and 12 in response to a recording start operation (such as pressing a recording switch) to the operation unit 13 by the user. The first and second audio data are acquired. Then, the audio data acquisition unit 191 associates the time stamp generated by the clock unit 15 (date and time information regarding the generation date and time of the first and second audio data) with the first and second audio data and stores them in the memory unit 16. Store sequentially. Also, the audio data acquisition unit 191 sends the first and second audio data to the first and second audio data generation units 11 and 12 in response to a recording end operation (such as pressing a stop switch) to the operation unit 13 by the user. And the first and second audio data (including the time stamp) stored in the memory unit 16 are recorded in the recording unit 17.

音声データ解析部192は、ユーザによる操作部13へのユーザ操作(モード切替スイッチの操作等)に応じて電子機器1が再生モード(第1,第2音声データを再生するモード)に設定されている場合に、記録部17に記録された第1,第2音声データを解析する。この音声データ解析部192は、図1に示すように、対象物特定部1921と、特徴成分判別部1922とを備える。
対象物特定部1921は、第1,第2音声データを解析することで、当該第1,第2音声データに含まれる音声を発した話者を特定する。
特徴成分判別部1922は、第1,第2音声データを解析することで、当該第1,第2音声データに含まれる音声の特徴成分(話者のテンション)を判別する。
The audio data analysis unit 192 is set so that the electronic device 1 is set to a reproduction mode (a mode for reproducing the first and second audio data) in response to a user operation (such as an operation of a mode switch) on the operation unit 13 by the user. The first and second audio data recorded in the recording unit 17 are analyzed. As shown in FIG. 1, the audio data analysis unit 192 includes an object specifying unit 1921 and a feature component determination unit 1922.
The object specifying unit 1921 analyzes the first and second sound data to specify the speaker who has emitted the sound included in the first and second sound data.
The feature component determination unit 1922 analyzes the first and second sound data to determine the sound feature component (speaker's tension) included in the first and second sound data.

参照情報生成部193は、電子機器1が再生モードに設定されている場合に、以下の機能を実行する。
参照情報生成部193は、対象物特定部1921にて特定された話者、特徴成分判別部1922にて判別された話者のテンション、並びに当該話者の声が含まれる日時を示すタイムスタンプ(時計部15にて生成)等を関連付け、第1,第2音声データの再生画面を生成する際に用いられる参照情報を生成する。ここで、話者のテンション(音声の特徴部分)は感情的な高ぶりを示すものを想定したが、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。
そして、上述した音声データ取得部191、音声データ解析部192、及び参照情報生成部193は、本発明に係る音声処理装置としての機能を有する。
The reference information generation unit 193 performs the following functions when the electronic device 1 is set to the playback mode.
The reference information generation unit 193 includes a speaker identified by the object identification unit 1921, a speaker tension determined by the feature component determination unit 1922, and a timestamp indicating the date and time when the voice of the speaker is included. Reference information used when generating the reproduction screens of the first and second audio data is generated. Here, the speaker's tension (speech feature) is assumed to be emotionally high, but the concentration of the story (for example, one speaker explains and others quietly listen to it) Etc.) may be reflected. In this case, the speaker's tension is detected by detecting the relative loudness of the voices of multiple people detected, the degree of the pace of the words (speaking to speak) and the speed (speaking). May be determined. In other words, the tension of a speaker can detect relative changes over time of one speaker's voice, can be judged by absolute numerical data, It is determined by detection.
And the audio | voice data acquisition part 191, the audio | voice data analysis part 192, and the reference information production | generation part 193 mentioned above have a function as an audio | voice processing apparatus which concerns on this invention.

再生画面生成部194は、ユーザによる操作部13へのユーザ操作に応じて話者表示の表示フラグがオン状態になっている場合に、話者表示再生画面を生成する。なお、当該話者表示の表示フラグは、メモリ部16に記憶されている。
具体的に、再生画面生成部194は、再生位置を指し示すタイムバーを配置するとともに、参照情報生成部193にて生成された参照情報に基づいて、タイムバーに対応する各時間に、当該時間(タイムスタンプ)に関連付けられた話者及び当該話者のテンションを識別するための識別画像を配置した話者表示再生画面を生成する。ここで、話者のテンション(音声の特徴部分)は感情的な高ぶりを示すものを想定したが、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。
また、再生画面生成部194は、ユーザによる操作部13へのユーザ操作に応じて話者表示の表示フラグがオフ状態になっている場合に、再生位置を指し示すタイムバーのみを配置した(上述した識別画像のない)通常再生画面を生成する。
The reproduction screen generation unit 194 generates a speaker display reproduction screen when the display flag for speaker display is turned on in response to a user operation on the operation unit 13 by the user. Note that the display flag of the speaker display is stored in the memory unit 16.
Specifically, the playback screen generation unit 194 arranges a time bar indicating the playback position, and at each time corresponding to the time bar based on the reference information generated by the reference information generation unit 193, the time ( A speaker display reproduction screen in which an identification image for identifying the speaker associated with the (time stamp) and the tension of the speaker is generated. Here, the speaker's tension (speech feature) is assumed to be emotionally high, but the concentration of the story (for example, one speaker explains and others quietly listen to it) Etc.) may be reflected. In this case, the speaker's tension is detected by detecting the relative loudness of the voices of multiple people detected, the degree of the pace of the words (speaking to speak) and the speed (speaking). May be determined. In other words, the tension of a speaker can detect relative changes over time of one speaker's voice, can be judged by absolute numerical data, It is determined by detection.
In addition, the playback screen generation unit 194 arranges only the time bar indicating the playback position when the display flag of the speaker display is turned off in response to the user operation on the operation unit 13 by the user (described above). A normal playback screen (without an identification image) is generated.

表示制御部195は、再生する第1,第2音声データをユーザに選択させるための選択画面、再生画面生成部194にて生成された話者表示再生画面や通常再生画面等を表示部14に表示させる。
音声制御部196は、電子機器1が再生モードに設定されている場合に、以下の機能を実行する。
音声制御部196は、ユーザによる操作部13への再生開始操作(再生スイッチの押下等)に応じて、音声出力部18の動作を制御し、記録部17に記録された第1,第2音声データに基づく音声の出力を開始させる。また、音声制御部196は、ユーザによる操作部13への再生終了操作(停止スイッチの押下等)に応じて、音声出力部18に音声の出力を終了させる。
The display control unit 195 displays a selection screen for allowing the user to select the first and second audio data to be reproduced, a speaker display reproduction screen generated by the reproduction screen generation unit 194, a normal reproduction screen, and the like on the display unit 14. Display.
The audio control unit 196 performs the following functions when the electronic device 1 is set to the playback mode.
The audio control unit 196 controls the operation of the audio output unit 18 in response to a user's reproduction start operation (such as pressing a reproduction switch) on the operation unit 13, and the first and second audio recorded in the recording unit 17. Start outputting audio based on the data. In addition, the voice control unit 196 causes the voice output unit 18 to end the voice output in response to a reproduction end operation (such as pressing a stop switch) to the operation unit 13 by the user.

〔電子機器の動作〕
次に、上述した電子機器1の動作について説明する。
図2は、電子機器1の動作を示すフローチャートである。
ユーザによる操作部13への操作によって電子機器1の電源がオンになる(ステップS101:Yes)と、機器側制御部19は、電子機器1が録音モードに設定されているか否かを判断する(ステップS102)。
[Operation of electronic equipment]
Next, the operation of the electronic device 1 described above will be described.
FIG. 2 is a flowchart showing the operation of the electronic device 1.
When the electronic device 1 is turned on by the user operating the operation unit 13 (step S101: Yes), the device-side control unit 19 determines whether or not the electronic device 1 is set to the recording mode ( Step S102).

録音モードに設定されていないと判断された場合(ステップS102:No)には、電子機器1は、ステップS107に移行する。
一方、録音モードに設定されていると判断した場合(ステップS102:Yes)には、機器側制御部19は、ユーザによる操作部13への録音開始操作があったか否かを判断する(ステップS103)。
When it is determined that the recording mode is not set (step S102: No), the electronic apparatus 1 proceeds to step S107.
On the other hand, when it is determined that the recording mode is set (step S102: Yes), the device-side control unit 19 determines whether or not the user has performed a recording start operation on the operation unit 13 (step S103). .

録音開始操作がないと判断された場合(ステップS103:No)には、電子機器1は、ステップS101に戻る。
一方、録音開始操作があったと判断された場合(ステップS103:Yes)には、音声データ取得部191は、第1,第2音声データ生成部11,12に第1,第2音声データの生成(録音)を開始させる。また、時計部15は、タイムスタンプの生成(計時)を開始する。そして、音声データ取得部191は、当該タイムスタンプを当該第1,第2音声データに関連付けて、メモリ部16に順次、記憶する(ステップS104)。
When it is determined that there is no recording start operation (step S103: No), the electronic device 1 returns to step S101.
On the other hand, if it is determined that there has been a recording start operation (step S103: Yes), the audio data acquisition unit 191 generates the first and second audio data in the first and second audio data generation units 11 and 12. Start (Recording). In addition, the clock unit 15 starts generating (clocking) a time stamp. Then, the audio data acquisition unit 191 sequentially stores the time stamp in the memory unit 16 in association with the first and second audio data (step S104).

続いて、機器側制御部19は、ユーザによる操作部13への録音終了操作があったか否かを判断する(ステップS105)。
録音終了操作がないと判断された場合(ステップS105:No)には、電子機器1は、録音及び計時を継続する。
一方、録音終了操作があったと判断された場合(ステップS105:Yes)には、音声データ取得部191は、第1,第2音声データ生成部11,12に第1,第2音声データの生成を終了させる。また、時計部15は、タイムスタンプの生成を終了する。そして、音声データ取得部191は、メモリ部16に記憶した第1,第2音声データ(タイムスタンプを含む)を記録部17に記録する(ステップS106)。この後、電子機器1は、ステップS101に戻る。
以上説明したステップS103〜S106は、本発明に係る音声データ取得ステップに相当する。
Subsequently, the device-side control unit 19 determines whether or not the user has performed a recording end operation on the operation unit 13 (step S105).
When it is determined that there is no recording end operation (step S105: No), the electronic device 1 continues recording and timing.
On the other hand, when it is determined that the recording end operation has been performed (step S105: Yes), the audio data acquisition unit 191 generates the first and second audio data in the first and second audio data generation units 11 and 12. End. In addition, the clock unit 15 ends the time stamp generation. Then, the audio data acquisition unit 191 records the first and second audio data (including the time stamp) stored in the memory unit 16 in the recording unit 17 (step S106). Thereafter, the electronic device 1 returns to step S101.
Steps S103 to S106 described above correspond to the audio data acquisition step according to the present invention.

ステップS102で録音モードに設定されていないと判断した場合(ステップS102:No)には、機器側制御部19は、電子機器1が再生モードに設定されているか否かを判断する(ステップS107)。
再生モードに設定されていないと判断された場合(ステップS107:No)には、電子機器1は、ステップS118に移行する。
一方、再生モードに設定されていると判断された場合(ステップS107:Yes)には、表示制御部195は、選択画面を表示部14に表示させる(ステップS108)。
ここで、当該選択画面は、記録部17に記録された複数の第1,第2音声データをユーザに選択させる画面であって、例えば、複数の第1,第2音声データに関連付けられた各タイムスタンプに基づく各日時が一覧表示された画面である。
If it is determined in step S102 that the recording mode is not set (step S102: No), the device-side control unit 19 determines whether or not the electronic device 1 is set to the playback mode (step S107). .
If it is determined that the playback mode is not set (step S107: No), the electronic apparatus 1 proceeds to step S118.
On the other hand, when it is determined that the playback mode is set (step S107: Yes), the display control unit 195 displays a selection screen on the display unit 14 (step S108).
Here, the selection screen is a screen that allows the user to select a plurality of first and second audio data recorded in the recording unit 17. For example, each selection screen is associated with each of the plurality of first and second audio data. It is a screen in which each date based on the time stamp is displayed in a list.

続いて、機器側制御部19は、ユーザによる操作部13への選択操作(選択画面中のいずれかの第1,第2音声データを選択する操作)があったか否かを判断する(ステップS109)。
選択操作がないと判断された場合(ステップS109:No)には、電子機器1は、選択画面の表示を継続する。
一方、選択操作があったと判断した場合(ステップS109:Yes)には、機器側制御部19は、話者表示の表示フラグがオン状態であるか否かを判断する(ステップS110)。
Subsequently, the device-side control unit 19 determines whether or not the user has performed a selection operation (an operation for selecting any of the first and second audio data in the selection screen) on the operation unit 13 (step S109). .
When it is determined that there is no selection operation (step S109: No), the electronic device 1 continues to display the selection screen.
On the other hand, when it is determined that the selection operation has been performed (step S109: Yes), the device-side control unit 19 determines whether or not the display flag of the speaker display is on (step S110).

話者表示の表示フラグがオン状態であると判断された場合(ステップS110:Yes)には、電子機器1は、話者表示再生画面を生成し表示する話者表示処理を実行する(ステップS111)。
なお、話者表示処理の詳細については、後述する。
一方、話者表示の表示フラグがオフ状態であると判断された場合(ステップS110:No)には、再生画面生成部194は、通常再生画面を生成する。そして、表示制御部195は、当該通常再生画面を表示部14に表示させる(ステップS112)。
If it is determined that the display flag for speaker display is on (step S110: Yes), the electronic device 1 executes speaker display processing for generating and displaying a speaker display reproduction screen (step S111). ).
The details of the speaker display process will be described later.
On the other hand, when it is determined that the display flag of the speaker display is in the off state (step S110: No), the playback screen generation unit 194 generates a normal playback screen. Then, the display control unit 195 displays the normal playback screen on the display unit 14 (step S112).

ステップS111またはステップS112の後、機器側制御部19は、ユーザによる操作部13への再生開始操作があったか否かを判断する(ステップS113)。
再生開始操作がないと判断された場合(ステップS113:No)には、電子機器1は、ステップS117に移行する。
一方、再生開始操作があったと判断された場合(ステップS113:Yes)には、音声制御部196は、ユーザによる選択操作(ステップS109)により選択された第1,第2音声データを記録部17から読み出す。そして、音声制御部196は、音声出力部18に当該第1,第2音声データに基づく音声の出力(再生)を開始させる(ステップS114)。
After step S111 or step S112, the device-side control unit 19 determines whether or not the user has performed a reproduction start operation on the operation unit 13 (step S113).
If it is determined that there is no reproduction start operation (step S113: No), the electronic device 1 proceeds to step S117.
On the other hand, when it is determined that there has been a reproduction start operation (step S113: Yes), the audio control unit 196 records the first and second audio data selected by the selection operation by the user (step S109). Read from. Then, the sound control unit 196 causes the sound output unit 18 to start outputting (reproducing) sound based on the first and second sound data (step S114).

続いて、機器側制御部19は、ユーザによる操作部13への再生終了操作があったか否かを判断する(ステップS115)。
再生終了操作がないと判断された場合(ステップS115:No)には、電子機器1は、再生を継続する。
一方、再生終了操作があったと判断された場合(ステップS115:Yes)には、音声制御部196は、音声出力部18に音声の出力(再生)を終了させる(ステップS116)。なお、ステップS115で再生を継続した結果、第1,第2音声データを全て再生し終えた場合にも、ステップS116に移行するものである。
Subsequently, the device-side control unit 19 determines whether or not the user has performed a reproduction end operation on the operation unit 13 (step S115).
When it is determined that there is no reproduction end operation (step S115: No), the electronic device 1 continues the reproduction.
On the other hand, when it is determined that the reproduction end operation has been performed (step S115: Yes), the audio control unit 196 causes the audio output unit 18 to end the audio output (reproduction) (step S116). Note that, as a result of continuing the reproduction in step S115, when all the first and second audio data have been reproduced, the process proceeds to step S116.

ステップS116の後、または、ステップS113で再生開始操作がないと判断された場合(ステップS113:No)には、機器側制御部19は、ユーザによる操作部13への再生対象(第1,第2音声データ)の変更操作があったか否かを判断する(ステップS117)。
再生対象の変更操作がないと判断された場合(ステップS117:No)には、電子機器1は、ステップS113に戻る。
一方、再生対象の変更操作があったと判断された場合(ステップS117:Yes)には、電子機器1は、ステップS101に戻り、ステップS101,S102,S107を経た後、ステップS108において、再度、選択画面を表示する。
After step S116 or when it is determined in step S113 that there is no reproduction start operation (step S113: No), the device-side control unit 19 performs the reproduction target (first and first) to the operation unit 13 by the user. It is determined whether or not there has been a change operation of (2 audio data) (step S117).
When it is determined that there is no reproduction target change operation (step S117: No), the electronic device 1 returns to step S113.
On the other hand, if it is determined that there has been an operation to change the playback target (step S117: Yes), the electronic device 1 returns to step S101, goes through steps S101, S102, and S107, and then selects again in step S108. Display the screen.

ステップS107で再生モードに設定されていないと判断された場合(ステップS107:No)には、電子機器1は、上述した処理とは異なる他の処理を実行する(ステップS118)。この後、電子機器1は、ステップS101に戻る。   If it is determined in step S107 that the playback mode is not set (step S107: No), the electronic device 1 executes another process different from the process described above (step S118). Thereafter, the electronic device 1 returns to step S101.

〔話者表示処理〕
次に、上述した話者表示処理(ステップS111)について説明する。
図3は、話者表示処理(ステップS111)を示すフローチャートである。
機器側制御部19は、話者表示処理の対象となる第1,第2音声データ(ステップS109で選択された第1,第2音声データ)の参照情報を既に生成しているか否かを判断する(ステップS111A)。すなわち、機器側制御部19は、ステップS111Aにおいて、記録部17に記録された当該第1,第2音声データに参照情報が関連付けられているか否かを判断している。
参照情報を生成済みであると判断された場合(ステップS111A:Yes)には、電子機器1は、ステップS111Pに移行する。
一方、参照情報を未だ生成していないと判断された場合(ステップS111A:No)には、対象物特定部1921は、話者表示処理の対象となる第1,第2音声データにおける一期間(例えば、5秒間)に相当するデータをそれぞれ読み出す(ステップS111B)。
以下、第1音声データにおける一期間に相当するデータを第1データ要素と記載し、第2音声データにおける一期間に相当するデータを第2データ要素と記載する。
[Speaker display processing]
Next, the speaker display process (step S111) described above will be described.
FIG. 3 is a flowchart showing the speaker display process (step S111).
The device-side control unit 19 determines whether or not reference information of the first and second voice data (first and second voice data selected in step S109) to be subjected to speaker display processing has already been generated. (Step S111A). That is, in step S111A, the device-side control unit 19 determines whether or not reference information is associated with the first and second audio data recorded in the recording unit 17.
When it is determined that the reference information has been generated (step S111A: Yes), the electronic device 1 proceeds to step S111P.
On the other hand, when it is determined that the reference information has not yet been generated (step S111A: No), the target object specifying unit 1921 selects one period (first period) in the first and second audio data to be subjected to the speaker display process ( For example, data corresponding to 5 seconds is read (step S111B).
Hereinafter, data corresponding to one period in the first audio data is referred to as a first data element, and data corresponding to one period in the second audio data is referred to as a second data element.

続いて、対象物特定部1921は、ステップS111Bで読み出した一期間(以下、該当期間)に相当する第1,第2データ要素を解析することで、当該第1,第2データ要素に含まれる音声を発した話者を特定する(ステップS111C)。
具体的に、対象物特定部1921は、該当期間に相当する第1,第2データ要素に含まれる各音声の音量を比較することで、電子機器1に対する話者の方向を特定する。また、対象物特定部1921は、当該第1,第2データ要素に含まれる音声の周波数に基づいて、話者の性別を特定する。母音などの発音の周波数は、女性が男性より高めであるため性別の判定に用いることができる。また、使われる言葉や内容、イントネーション等でも性別を判定することができる。男女別の話者がいる場合はこれらの音声を比較して性別を判定してもよく、特定周波数より高いか低いかで性別を判定してもよい。さらに、使われる単語やセンテンスや語尾の特徴でも性別判定が可能である。また、男女それぞれのモデル音声との類似度に基づいて性別判定してもよい。また、同様の考え方で年齢の高低も判定が可能であることは言うまでもない。登場する頻度が高い話者であれば、あらかじめ登録したデータベースとの音声照合で特定する方法もある。
Subsequently, the object specifying unit 1921 analyzes the first and second data elements corresponding to the one period (hereinafter referred to as the corresponding period) read out in step S111B, thereby including the first and second data elements. The speaker who has spoken is specified (step S111C).
Specifically, the object specifying unit 1921 specifies the direction of the speaker with respect to the electronic device 1 by comparing the volume of each voice included in the first and second data elements corresponding to the corresponding period. In addition, the object specifying unit 1921 specifies the gender of the speaker based on the audio frequency included in the first and second data elements. Since the frequency of pronunciation such as vowels is higher than that of men, it can be used for sex determination. In addition, gender can be determined by words, contents, intonation used, and the like. When there are male and female speakers, the voices may be compared to determine the sex, or the sex may be determined based on whether the frequency is higher or lower than the specific frequency. Furthermore, gender can be determined based on the characteristics of words used, sentences, and endings. In addition, gender may be determined based on the similarity between the model voices of male and female. Needless to say, it is possible to determine whether the age is high or low based on the same concept. For speakers who frequently appear, there is a method of specifying by voice collation with a database registered in advance.

なお、ステップS111Cにおいて、話者の特定については、上述したような話者の方向や性別を特定する方法に限られず、以下のように話者を特定しても構わない。
複数のユーザを識別するための識別データ(ユーザ名等)と当該ユーザの声紋に関する声紋データとを関連付け、当該関連付けた情報を記録部17に予め記録しておく。そして、対象物特定部1921は、記録部17に記録された情報を参照し、第1,第2データ要素に含まれる音声の声紋に一致する声紋データを特定することで、話者(当該声紋データに関連付けられた識別データ(ユーザ名等))を特定する。
In step S111C, the speaker identification is not limited to the method for identifying the speaker direction and gender as described above, and the speaker may be identified as follows.
Identification data (such as user names) for identifying a plurality of users is associated with voice print data relating to the voice print of the user, and the related information is recorded in the recording unit 17 in advance. Then, the object specifying unit 1921 refers to the information recorded in the recording unit 17 and specifies voiceprint data that matches the voiceprint of the voice included in the first and second data elements. Identify identification data (user name, etc.) associated with the data.

ステップS111Cの後、対象物特定部1921は、ステップS111Cで話者を特定することができた(話者の方向及び性別の双方を特定することができた)か否かを判断する(ステップS111D)。
話者を特定することができなかった(話者の方向及び性別の少なくともいずれか一方を特定することができなかった)と判断された場合(ステップS111D:No)には、電子機器1は、ステップS111Gに移行する。
After step S111C, the object specifying unit 1921 determines whether or not the speaker has been specified in step S111C (both the direction and gender of the speaker have been specified) (step S111D). ).
If it is determined that the speaker could not be specified (at least one of the speaker direction and gender could not be specified) (step S111D: No), the electronic device 1 The process proceeds to step S111G.

一方、話者を特定することができた(話者の方向及び性別の双方を特定することができた)と判断された場合(ステップS111D:Yes)には、特徴成分判別部1922は、該当期間に相当する第1,第2データ要素を解析することで、当該第1,第2データ要素に含まれる音声を発した話者のテンションを話者毎に判別する(ステップS111E:音声データ解析ステップ)。
具体的に、特徴成分判別部1922は、該当期間に相当する第1,第2データ要素に含まれる各音声の音量に基づいて、話者のテンションを判別する。すなわち、特徴成分判別部1922は、話者の音声の音量が直前の期間の音量と比較して所定の第1閾値以上に大きくなった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。感情によって音声の韻律的特徴が変化するが、これは声の高・低、強・弱、リズム・テンポや、基本周波数、パワー、持続時間などで分析が可能である。感情を表す音声に含まれる感情の程度と基本周波数パターンには関係があると言われており、ピッチ周波数・振幅の変化パターンなどでも分析が可能である。また、アクセントや含まれる単語、感嘆詞などを検出してもよく、これらの検出結果を合わせて、またはそのいずれかを活用して、「ハイテンション」を判定することが可能である。後述するように、笑い声やうなり声などを分析してもよい。これは声(声紋データ)のパターンマッチングなどでも判定可能である。話者のテンション(音声の特徴部分)は、喜怒哀楽のような激しい感情的な高ぶりに限る必要はなく、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。
On the other hand, when it is determined that the speaker can be specified (both the direction and gender of the speaker can be specified) (step S111D: Yes), the feature component determination unit 1922 By analyzing the first and second data elements corresponding to the period, the tension of the speaker who has produced the speech included in the first and second data elements is determined for each speaker (step S111E: voice data analysis). Step).
Specifically, the feature component determination unit 1922 determines the speaker's tension based on the volume of each voice included in the first and second data elements corresponding to the corresponding period. That is, the feature component determination unit 1922 determines the speaker's tension as “high tension” when the volume of the speaker's voice is greater than or equal to a predetermined first threshold value compared to the volume of the previous period. In other cases, the speaker's tension is determined as “normal”. The prosodic features of speech change depending on emotions, but this can be analyzed by high / low, strong / weak voice, rhythm / tempo, fundamental frequency, power, duration, etc. It is said that there is a relationship between the degree of emotion contained in the voice representing emotion and the fundamental frequency pattern, and it is possible to analyze even the pitch frequency / amplitude change pattern. In addition, accents, included words, exclamations, and the like may be detected, and “high tension” can be determined by combining these detection results or using one of them. As will be described later, a laughing voice or a roaring voice may be analyzed. This can also be determined by pattern matching of voice (voice print data). The speaker's tension (speech feature) need not be limited to intense emotional highs such as emotions, but the concentration of the story (for example, one speaker explains it to other people Listening quietly, etc.) may be reflected. In this case, the speaker's tension is detected by detecting the relative loudness of the voices of multiple people detected, the degree of the pace of the words (speaking to speak) and the speed (speaking). May be determined. In other words, the tension of a speaker can detect relative changes over time of one speaker's voice, can be judged by absolute numerical data, It is determined by detection.

なお、ステップS111Eにおいて、話者のテンションの判別については、上述した音量に基づいて判別する方法に限られず、以下のようにテンションを判別しても構わない。
例えば、特徴成分判別部1922は、第1,第2データ要素に含まれる音声の周波数に基づいて、話者のテンションを判別する。具体的に、特徴成分判別部1922は、話者の音声の周波数が直前の期間の音声の周波数と比較して所定の第2閾値以上に高くなった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。「ハイテンション」は、喜怒哀楽等の話者の感情の高ぶりのみならず、話の集中具合を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出してテンションが上がっているという判定をしてもよい。つまり、一人の話者の声の時間の経過に伴う相対的な変化を検出したり、絶対的な数値データで判定したり、複数の人物の声の相対的な差異を検出して所定の特徴的な結果が得られた場合、「ハイテンション」と判定してもよい。
また、例えば、特徴成分判別部1922は、第1,第2データ要素に含まれる音声の音素成分の時間密度に基づいて、話者のテンションを判別する。具体的に、特徴成分判別部1922は、話者の音声の音素成分の時間密度が直前の期間の音声の音素成分の時間密度と比較して所定の第3閾値以上に大きくなった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。
さらに、例えば、笑い声や怒った声等の声紋に関する声紋データを記録部17に予め記録しておく。そして、特徴成分判別部1922は、記録部17に記録された当該声紋データを参照し、第1,第2データ要素に含まれる音声に当該声紋データに基づく笑い声や怒った声等の声紋に一致する声紋があった場合に話者のテンションを「ハイテンション」と判別し、その他の場合に話者のテンションを「通常」と判別する。
Note that the determination of the speaker's tension in step S111E is not limited to the method of determining based on the volume described above, and the tension may be determined as follows.
For example, the feature component determination unit 1922 determines the speaker's tension based on the frequency of speech included in the first and second data elements. Specifically, the feature component determination unit 1922 sets the speaker's tension to “high tension” when the frequency of the speaker's voice is higher than a predetermined second threshold value compared with the frequency of the voice in the immediately preceding period. In other cases, the speaker's tension is determined as “normal”. “High tension” may reflect not only high emotion of the speaker such as emotions but also concentration of the talk. In this case, the tension is increased by detecting the relative loudness of the detected voices of multiple people, the degree of the pace of the words (speaking to speak), the speed (speaking), etc. It may be determined. In other words, it is possible to detect relative changes over time of a single speaker's voice, to make judgments based on absolute numerical data, or to detect relative differences among multiple people's voices to obtain predetermined characteristics. When a typical result is obtained, it may be determined as “high tension”.
Further, for example, the feature component determination unit 1922 determines the speaker's tension based on the time density of the phoneme component of the speech included in the first and second data elements. Specifically, the feature component discriminating unit 1922 speaks when the time density of the phoneme component of the speaker's voice is greater than or equal to a predetermined third threshold value compared to the time density of the phoneme component of the voice in the immediately preceding period. The speaker's tension is determined as “high tension”, and in other cases, the speaker's tension is determined as “normal”.
Furthermore, for example, voice print data relating to a voice print such as a laughing voice or an angry voice is recorded in the recording unit 17 in advance. Then, the feature component determination unit 1922 refers to the voiceprint data recorded in the recording unit 17, and the voice included in the first and second data elements matches the voiceprint such as a laughing voice or an angry voice based on the voiceprint data. When there is a voiceprint to be played, the speaker's tension is determined as “high tension”, and in other cases, the speaker's tension is determined as “normal”.

ステップS111Eの後、参照情報生成部193は、該当期間の参照情報として、ステップS111Cで特定された話者(方向及び性別)と、ステップS111Eで判別された話者のテンションと、該当期間に相当するタイムスタンプ(時計部15にて生成)等を関連付けた参照情報(後述する「複数話者期間」フラグ及び「ざわざわ期間」フラグはオフ状態)を生成する(ステップS111F:参照情報生成ステップ)。そして、参照情報生成部193は、生成した参照情報をメモリ部16に記憶する。この後、電子機器1は、ステップS111Jに移行する。   After step S111E, the reference information generation unit 193 corresponds to the speaker (direction and gender) specified in step S111C, the speaker tension determined in step S111E, and the corresponding period as reference information for the corresponding period. Reference information (a “multi-speaker period” flag and a “noisy period” flag to be described later are in an off state) associated with a time stamp (generated by the clock unit 15) to be generated is generated (step S111F: reference information generation step). Then, the reference information generation unit 193 stores the generated reference information in the memory unit 16. Thereafter, the electronic device 1 proceeds to step S111J.

ステップS111Dで話者を特定することができなかった(話者の方向及び性別の少なくともいずれか一方を特定することができなかった)と判断した場合(ステップS111D:No)には、対象物特定部1921は、特定することができた話者の方向または性別に基づいて、話者が複数であるか否かを判断する(ステップS111G)。
話者が複数であると判断された場合(ステップS111G:Yes)には、参照情報生成部193は、該当期間の参照情報として、ステップS111Cで特定することができた話者の方向または性別と、該当期間に相当するタイムスタンプ等を関連付けるとともに、「複数話者期間」フラグをオン状態とした参照情報を生成する(ステップS111H)。そして、参照情報生成部193は、生成した参照情報をメモリ部16に記憶する。この後、電子機器1は、ステップS111Jに移行する。
ここで、「複数話者期間」フラグ(オン状態)は、該当期間の話者を特定することができていないこと、及び該当期間の話者が複数であることを示すフラグである。
If it is determined in step S111D that the speaker could not be specified (at least one of the speaker direction and gender could not be specified) (step S111D: No), the target object is specified. The unit 1921 determines whether or not there are a plurality of speakers based on the direction or gender of the speakers that can be identified (step S111G).
When it is determined that there are a plurality of speakers (step S111G: Yes), the reference information generation unit 193 uses the direction or gender of the speakers that can be specified in step S111C as the reference information for the corresponding period. In addition to associating a time stamp corresponding to the corresponding period, reference information with the “multiple speaker period” flag turned on is generated (step S111H). Then, the reference information generation unit 193 stores the generated reference information in the memory unit 16. Thereafter, the electronic device 1 proceeds to step S111J.
Here, the “multi-speaker period” flag (ON state) is a flag indicating that a speaker in the corresponding period cannot be specified and that there are a plurality of speakers in the corresponding period.

一方、話者が複数ではないと判断された場合(ステップS111G:No)には、参照情報生成部193は、該当期間の参照情報として、ステップS111Cで特定することができた話者の方向または性別と、該当期間に相当するタイムスタンプ等を関連付けるとともに、「ざわざわ期間」フラグをオン状態とした参照情報を生成する(ステップS111I)。そして、参照情報生成部193は、生成した参照情報をメモリ部16に記憶する。この後、電子機器1は、ステップS111Jに移行する。
ここで、「ざわざわ期間」フラグは、該当期間の話者を特定することができていないこと、及び該当期間の話者が複数でないことを示すフラグである。
なお、ステップS111Gで話者が複数ではないと判断された場合(ステップS111G:No)とは、話者が一人であると判断された場合の他、ステップS111Cで話者の方向及び性別の双方を特定することができず、話者が複数であるか、または、一人であるかの判断が全くできない場合も含むものである。
On the other hand, when it is determined that there are not a plurality of speakers (step S111G: No), the reference information generation unit 193 uses the direction of the speaker that can be identified in step S111C as the reference information of the corresponding period or In addition to associating the gender with the time stamp corresponding to the relevant period, reference information with the “noisy period” flag turned on is generated (step S111I). Then, the reference information generation unit 193 stores the generated reference information in the memory unit 16. Thereafter, the electronic device 1 proceeds to step S111J.
Here, the “noisy period” flag is a flag indicating that a speaker in the corresponding period cannot be specified and that there are not a plurality of speakers in the corresponding period.
When it is determined in step S111G that there are not a plurality of speakers (step S111G: No), in addition to the case where it is determined that there is only one speaker, both the direction and gender of the speaker are determined in step S111C. It is also possible to determine whether there is a plurality of speakers or a single speaker.

ステップS111F、ステップS111H、またはステップS111Iの後、機器側制御部19は、話者表示処理の対象となる第1,第2音声データにおける全ての期間で参照情報を生成したか否かを判断する(ステップS111J)。
全ての期間で参照情報を生成していないと判断された場合(ステップS111J:No)には、電子機器1は、ステップS111Bに戻り、第1,第2音声データにおける他の期間に相当する第1,第2データ要素を読み出し、当該他の期間の参照情報を生成する。
After step S111F, step S111H, or step S111I, the device-side control unit 19 determines whether or not reference information has been generated in all periods in the first and second audio data to be subjected to speaker display processing. (Step S111J).
If it is determined that the reference information has not been generated in all periods (step S111J: No), the electronic device 1 returns to step S111B, and the first corresponding to the other period in the first and second audio data. First, the second data element is read, and reference information for the other period is generated.

一方、全ての期間で参照情報を生成したと判断された場合(ステップS111J:Yes)には、対象物特定部1921は、以下の処理を実行する(ステップS111K)。
対象物特定部1921は、ステップS111Kにおいて、メモリ部16に記憶された各期間の参照情報のうち、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報(ステップS111HまたはステップS111Iで生成された参照情報)があるか否かを判断する。
「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報がないと判断された場合(ステップS111K:No)には、電子機器1は、ステップS111Oに移行する。
On the other hand, when it is determined that the reference information has been generated in all periods (step S111J: Yes), the object specifying unit 1921 executes the following process (step S111K).
In step S111K, the object specifying unit 1921 includes reference information in which the “multi-speaker period” flag or the “noisy period” flag is on in the reference information of each period stored in the memory unit 16 (step S111K). It is determined whether there is reference information generated in S111H or step S111I.
When it is determined that there is no reference information in which the “multiple speaker period” flag or the “noisy period” flag is on (step S111K: No), the electronic device 1 proceeds to step S111O.

一方、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報があると判断した場合(ステップS111K:Yes)には、対象物特定部1921は、以下の処理を実行する(ステップS111L)。
対象物特定部1921は、ステップS111Lにおいて、メモリ部16に記憶された各期間の参照情報のうち、当該参照情報の直前の期間の参照情報の「複数話者期間」フラグ及び「ざわざわ期間」フラグがオフ状態となっているか否かを判断する。すなわち、対象物特定部1921は、当該参照情報の直前の期間で話者が特定されている(話者の方向及び性別の双方を特定することができている)か否かを判断している。
直前の期間で話者が特定されていないと判断された場合(ステップS111L:No)には、電子機器1は、ステップS111Oに移行する。
On the other hand, if it is determined that there is reference information in which the “multiple speaker period” flag or the “noisy period” flag is on (step S111K: Yes), the object specifying unit 1921 performs the following processing: Execute (Step S111L).
In step S <b> 111 </ b> L, the object specifying unit 1921 includes the “multi-speaker period” flag and the “noisy period” flag of the reference information immediately before the reference information among the reference information stored in the memory unit 16 in step S <b> 111 </ b> L. It is determined whether or not is in an off state. That is, the object specifying unit 1921 determines whether or not the speaker is specified in the period immediately before the reference information (both the direction and gender of the speaker can be specified). .
If it is determined that the speaker has not been specified in the immediately preceding period (step S111L: No), the electronic device 1 proceeds to step S111O.

一方、直前の期間で話者が特定されていると判断した場合(ステップS111L:Yes)には、対象物特定部1921は、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報の話者を、当該直前の期間で特定された話者(話者の方向及び性別)と推定する(ステップS111M)。
続いて、参照情報生成部193は、「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報の話者をステップS111Mで推定された話者とし、当該参照情報を更新する(ステップS111N)。
On the other hand, when it is determined that the speaker has been specified in the immediately preceding period (step S111L: Yes), the object specifying unit 1921 sets the “multiple speaker period” flag or the “no bother period” flag to be in the on state. The speaker of the reference information is estimated as the speaker (speaker direction and gender) specified in the immediately preceding period (step S111M).
Subsequently, the reference information generation unit 193 sets the speaker of the reference information in which the “multiple speaker period” flag or the “noisy period” flag is on as the speaker estimated in step S111M, and uses the reference information as the speaker. Update (step S111N).

ステップS111Nの後、ステップS111Kで「複数話者期間」フラグまたは「ざわざわ期間」フラグがオン状態となっている参照情報がないと判断された場合(ステップS111K:No)、または、ステップS111Lで直前の期間で話者が特定されていないと判断された場合(ステップS111L:No)には、参照情報生成部193は、以下の処理を実行する(ステップS111O)。
参照情報生成部193は、ステップS111Oにおいて、メモリ部16に記憶され、ステップS111F,S111H,S111Iで生成された各期間の参照情報(ステップS111Nで更新された場合には更新後の参照情報)を、話者表示処理の対象とした第1,第2音声データに関連付けて、記録部17に記録する。
After step S111N, if it is determined in step S111K that there is no reference information in which the “multi-speaker period” flag or the “noisy period” flag is on (step S111K: No), or immediately before in step S111L When it is determined that the speaker has not been identified during the period (step S111L: No), the reference information generation unit 193 executes the following processing (step S111O).
In step S111O, the reference information generation unit 193 stores the reference information for each period stored in the memory unit 16 and generated in steps S111F, S111H, and S111I (or the updated reference information when updated in step S111N). Then, it is recorded in the recording unit 17 in association with the first and second audio data as the target of the speaker display processing.

ステップS111Oの後、または、ステップS111Aで参照情報を生成済みであると判断された場合(ステップS111A:Yes)には、再生画面生成部194は、以下の処理を実行する(ステップS111P)。
再生画面生成部194は、ステップS111Pにおいて、記録部17に記録された第1,第2音声データのうち、話者表示処理の対象となる第1,第2音声データに関連付けられた参照情報に基づいて、話者表示再生画面を生成する。
続いて、表示制御部195は、ステップS111Pで生成された話者表示再生画面を表示部14に表示させる(ステップS111Q)。この後、電子機器1は、図2に示したメインルーチンに戻る。
After step S111O or when it is determined in step S111A that reference information has been generated (step S111A: Yes), the playback screen generation unit 194 executes the following processing (step S111P).
In step S111P, the reproduction screen generation unit 194 uses the reference information associated with the first and second audio data to be subjected to the speaker display process among the first and second audio data recorded in the recording unit 17. Based on this, a speaker display reproduction screen is generated.
Subsequently, the display control unit 195 causes the display unit 14 to display the speaker display reproduction screen generated in step S111P (step S111Q). Thereafter, the electronic device 1 returns to the main routine shown in FIG.

〔参照情報の具体例〕
次に、上述した話者表示処理(ステップS111)で生成される参照情報の具体例について説明する。
図4は、話者表示処理(ステップS111)の対象となる第1,第2音声データが生成(録音)される状況の一例を示す図である。図5は、図4の状況で生成された第1,第2音声データを対象として話者表示処理(ステップS111)を実行した場合に生成される参照情報の一例を示す図である。
具体的に、図4では、男性Mと女性L1,L2の3人がテーブルを囲んで打合せをし、当該打合せをテーブルの上に置いた電子機器1にて録音している状況を示している。ここで、電子機器1の上端から当該電子機器1の中心線を延長させた軸Axを基準とした場合に、男性Mは、軸Axに対して「右(電子機器1を正面から見て(図4中、上側から見て)右に120°」の方向に座っているものとする。また、女性L1は、軸Axに対して「右に90°」の方向に座っているものとする。さらに、女性L2は、軸Axに対して「左に10°」の方向に座っているものとする。
また、図5では、ステップS111Bで第1,第2データ要素を読み出す一期間を5秒間としている。このため、以下では、「0〜5秒」、「5〜10秒」、「10〜15秒」、「15〜20秒」、「20〜25秒」の各期間について順に説明する。
[Specific examples of reference information]
Next, a specific example of the reference information generated in the speaker display process (step S111) described above will be described.
FIG. 4 is a diagram illustrating an example of a situation where the first and second audio data to be subjected to speaker display processing (step S111) are generated (recorded). FIG. 5 is a diagram illustrating an example of reference information generated when the speaker display process (step S111) is executed on the first and second audio data generated in the situation of FIG.
Specifically, FIG. 4 shows a situation where three persons, a male M and a female L1, L2, make a meeting surrounding the table and record the meeting with the electronic device 1 placed on the table. . Here, when the axis Ax obtained by extending the center line of the electronic device 1 from the upper end of the electronic device 1 is used as a reference, the male M is “right (when the electronic device 1 is viewed from the front ( Assume that the person is sitting in the direction of 120 ° to the right (viewed from the upper side in FIG. 4). The woman L1 is sitting in the direction of 90 ° to the right with respect to the axis Ax. Furthermore, it is assumed that the female L2 is sitting in the direction of “10 ° to the left” with respect to the axis Ax.
In FIG. 5, one period for reading the first and second data elements in step S111B is set to 5 seconds. Therefore, in the following, each period of “0 to 5 seconds”, “5 to 10 seconds”, “10 to 15 seconds”, “15 to 20 seconds”, and “20 to 25 seconds” will be described in order.

〔0〜5秒の期間〕
この期間では、男性Mのみが声を発したものである。すなわち、当該期間では、第2データ要素に含まれる音声(軸Axに対して右側からの音声)の音量は、第1データ要素に含まれる音声(軸Axに対して左側からの音声)の音量よりも大きくなっている。また、男性Mの声であるため、当該音声は、比較的に低い周波数となっている。このため、ステップS111Cでは、当該期間の第1,第2データ要素に含まれる各音声の音量のバランスにより、話者が「右に120°」の方向であると特定される。また、当該第1,第2データ要素に含まれる音声が比較的に低い周波数であるため、話者が「男性」であると特定される。
[0-5 seconds duration]
During this period, only male M uttered. That is, during the period, the volume of the sound included in the second data element (the sound from the right side with respect to the axis Ax) is the volume of the sound included in the first data element (the sound from the left side with respect to the axis Ax). Is bigger than. In addition, since the voice is male M, the voice has a relatively low frequency. For this reason, in step S111C, the speaker is specified to be in the direction of “120 ° to the right” by the balance of the volume of each voice included in the first and second data elements in the period. Further, since the voice included in the first and second data elements has a relatively low frequency, the speaker is identified as “male”.

また、当該期間は、最初の期間であり、直前の期間がない。このため、ステップS111Eでは、話者のテンションが「通常」と判別される。
そして、ステップS111Fでは、当該期間の参照情報として、図5に示すように、特定された話者(「右に120°」の方向の「男性」)と、判別された話者のテンション(「通常」)と、当該期間に相当するタイムスタンプ(「9/15 11:21:10」)と、声の数(「1」)とが関連付けられた参照情報が生成される。
In addition, this period is the first period and there is no immediately preceding period. For this reason, in step S111E, it is determined that the speaker's tension is “normal”.
In step S111F, as reference information for the period, as shown in FIG. 5, the specified speaker (“male” in the direction of “120 ° to the right”) and the determined speaker's tension (“ Normal ”), a time stamp corresponding to the period (“ 9/15 11:21:10 ”), and the number of voices (“ 1 ”) are associated with each other.

〔5〜10秒の期間〕
この期間では、男性M及び女性L1がそれぞれ声を発したものである。そして、ステップS111Cでは、当該期間の第1,第2データ要素に含まれる各音声の音量のバランス及び音声の周波数(男性の声は周波数が比較的に低く、女性の声は周波数が比較的に高い)により、一人目の話者が「右に120°」の方向の「男性」であり、二人目の話者が「右に90°」の方向の「女性」であると特定される。
また、当該期間では、男性Mが当該期間の直前の「0〜5秒」の期間よりも大きな声を発している。このため、ステップS111Eでは、一人目の話者(「右に120°」の方向の「男性」)の音声の音量が直前の期間での当該話者の音声の音量と比較して第1閾値以上になったことが認識され、当該話者のテンションが「ハイテンション」と判別される。また、二人目の話者(「右に90°」の方向の「女性」)については、直前の「0〜5秒」の期間では当該話者が特定されていないため、ステップS111Eでは、当該話者のテンションが「通常」と判別される。
[5-10 seconds period]
During this period, male M and female L1 each uttered a voice. In step S111C, the balance of the volume of each voice included in the first and second data elements in the period and the frequency of the voice (male voice has a relatively low frequency and female voice has a relatively low frequency. High) identifies the first speaker as “male” in the direction of “120 ° to the right” and the second speaker as “female” in the direction of “90 ° to the right”.
In this period, the male M speaks louder than the period “0 to 5 seconds” immediately before the period. Therefore, in step S111E, the volume of the voice of the first speaker (“male” in the direction of “120 ° to the right”) is compared with the volume of the voice of the speaker in the immediately preceding period. It is recognized that this is the case, and the tension of the speaker is determined as “high tension”. For the second speaker (“female” in the direction of “90 ° to the right”), since the speaker is not specified in the immediately preceding “0 to 5 seconds” period, in step S111E, The speaker's tension is determined as “normal”.

そして、ステップS111Fでは、当該期間の参照情報として、図5に示すように、特定された一人目の話者(「右に120°」の方向の「男性」)及び判別された当該話者のテンション(「ハイテンション」)と、特定された二人目の話者(「右に90°」の方向の「女性」)及び判別された当該話者のテンション(「通常」)と、当該期間に相当するタイムスタンプ(「9/15 11:21:15」)と、声の数(「2」)とが関連付けられた参照情報が生成される。   In step S111F, as the reference information of the period, as shown in FIG. 5, the identified first speaker (“male” in the direction of “120 ° to the right”) and the identified speaker are identified. The tension (“high tension”), the identified second speaker (“female” in the direction of “90 ° to the right”), the determined tension of the speaker (“normal”), and the period Reference information in which a corresponding time stamp (“9/15 11:21:15”) is associated with the number of voices (“2”) is generated.

〔10〜15秒の期間〕
この期間では、男性M及び女性L1がそれぞれ声を発したものである。なお、図5に示す例では、ステップS111Cにおいて、一人目の話者が「男性」であり二人目の話者が「女性」であることを特定することはできたが、当該一人目の話者及び二人目の話者の各方向を特定することができなかったことを例示している。すなわち、話者の特定(話者の方向及び性別の双方の特定)はできていないが、話者が複数(二人)であることは特定されている(ステップS111G:Yes)。このため、ステップS111Hでは、当該期間の参照情報として、特定された一人目の話者(「男性」)及び二人目の話者(「女性」)と、当該期間に相当するタイムスタンプ(「9/15 11:21:20」)と、声の数(「2」)とが関連付けられるとともに、「複数話者期間」フラグがオン状態とされた参照情報が生成される。
[10-15 seconds period]
During this period, male M and female L1 each uttered a voice. In the example shown in FIG. 5, in step S111C, it can be specified that the first speaker is “male” and the second speaker is “female”. This illustrates that the directions of the first speaker and the second speaker could not be specified. That is, it is not possible to specify a speaker (specification of both speaker direction and gender), but it is specified that there are a plurality (two) of speakers (step S111G: Yes). For this reason, in step S111H, as the reference information for the period, the identified first speaker (“male”) and second speaker (“female”), and a time stamp (“9 / 15 11:21:20 ") and the number of voices (" 2 ") are associated with each other, and reference information in which the" multi-speaker period "flag is turned on is generated.

ここで、当該期間の直前の「5〜10秒」の期間では、話者が特定されている。このため、ステップS111Mでは、特定された一人目の話者(「男性」)は、直前の期間で特定された同性の話者(「右に120°」の方向の「男性」)と推定される。同様に、特定された二人目の話者(「女性」)は、直前の期間で特定された同性の話者(「右に90°」の方向の「女性」)と推定される。
そして、ステップS111Nでは、ステップS111Hで生成された参照情報は、図5に示すように、一人目の話者(「右に120°」の方向の「男性」)及び当該話者のテンション(「通常」)と、二人目の話者(「右に90°」の方向の「女性」)及び当該話者のテンション(「通常」)と、タイムスタンプ(「9/15 11:21:20」)と、声の数(「2」)とが関連付けられるとともに、「複数話者期間」フラグがオン状態とされた参照情報に更新される。なお、「複数話者期間」フラグがオン状態である場合には、当該参照情報の更新時に、話者のテンションは「通常」とされる。「ざわざわ期間」フラグがオン状態である場合でも同様である。
Here, the speaker is specified in the period of “5 to 10 seconds” immediately before the period. For this reason, in step S111M, the identified first speaker (“male”) is estimated to be the same-sex speaker identified in the immediately preceding period (“male” in the direction of “120 ° to the right”). The Similarly, the identified second speaker (“female”) is estimated to be the same-sex speaker (“female” in the direction of “90 ° to the right”) identified in the immediately preceding period.
In step S111N, the reference information generated in step S111H includes the first speaker (“male” in the direction of “120 ° to the right”) and the tension (“ ”), The second speaker (“ female ”in the direction of“ 90 ° to the right ”), the tension of the speaker (“ normal ”), and the timestamp (“ 9/15 11:21:20 ” ) And the number of voices (“2”) are associated with each other, and the “multi-speaker period” flag is updated to reference information that is turned on. When the “multiple speaker period” flag is on, the speaker's tension is set to “normal” when the reference information is updated. The same applies to the case where the “noisy period” flag is on.

〔15〜20秒の期間〕
この期間では、女性L1及び女性L2がそれぞれ声を発したものである。そして、ステップS111Cでは、当該期間の第1,第2データ要素に含まれる各音声の音量のバランス及び音声の周波数(女性L1,L2の声の周波数の違い)により、一人目の話者が「右に90°」の方向の「女性」であり、二人目の話者が「左に10°」の方向の「女性」であると特定される。
また、当該期間では、直前の「10〜15秒」の期間で話者が特定されていないため、ステップS111Eでは、一人目の話者(「右に90°」の方向の「女性」)及び二人目の話者(「左に10°」の方向の「女性」)の各テンションが「通常」とそれぞれ判別される。
[15-20 seconds period]
During this period, female L1 and female L2 each uttered voices. Then, in step S111C, the first speaker is determined based on the balance of the volume of each voice included in the first and second data elements in the period and the frequency of the voice (difference between the voice frequencies of females L1 and L2). It is identified as “female” in the direction of “90 ° to the right” and the second speaker is “female” in the direction of “10 ° to the left”.
In addition, in the period, since the speaker is not specified in the immediately preceding “10 to 15 seconds” period, in step S111E, the first speaker (“female” in the direction of “90 ° to the right”) and Each tension of the second speaker (“female” in the direction of “10 ° to the left”) is determined as “normal”.

そして、ステップS111Fでは、当該期間の参照情報として、図5に示すように、特定された一人目の話者(「右に90°」の方向の「女性」)及び判別された当該話者のテンション(「通常」)と、特定された二人目の話者(「左に10°」の方向の「女性」)及び判別された当該話者のテンション(「通常」)と、当該期間に相当するタイムスタンプ(「9/15 11:21:25」)と、声の数(「2」)とが関連付けられた参照情報が生成される。   In step S111F, as the reference information for the period, as shown in FIG. 5, the identified first speaker (“female” in the direction of “90 ° to the right”) and the identified speaker are identified. Tension (“normal”), the identified second speaker (“female” in the direction of “10 ° to the left”) and the determined speaker's tension (“normal”), corresponding to the period The reference information in which the time stamp (“9/15 11:21:25”) to be associated with the number of voices (“2”) is generated is generated.

〔20〜25秒の期間〕
この期間では、女性L2のみが声を発したものである。そして、ステップS111Cでは、当該期間の第1,第2データ要素に含まれる各音声の音量のバランス及び音声の周波数(女性の声は周波数が比較的に高い)により、話者が「左に10°」の方向の「女性」であると特定される。
また、当該期間では、女性L2が当該期間の直前の「15〜20秒」の期間よりも大きな声を発している。このため、ステップS111Eでは、話者(「左に10°」の方向の「女性」)の音声の音量が直前の期間での当該話者の音声の音量と比較して第1閾値以上になったことが認識され、当該話者のテンションが「ハイテンション」と判別される。
[20-25 seconds period]
During this period, only woman L2 uttered. Then, in step S111C, the speaker is “10 to the left by the balance of the volume of each voice and the frequency of the voice (the female voice has a relatively high frequency) included in the first and second data elements in the period. Identified as “female” in the direction of “°”.
Moreover, in the said period, the woman L2 is louder than the period of "15-20 seconds" immediately before the said period. For this reason, in step S111E, the volume of the voice of the speaker (“female” in the direction of “10 ° to the left”) is equal to or higher than the first threshold value compared to the volume of the voice of the speaker in the immediately preceding period. It is recognized that the speaker's tension is “high tension”.

そして、ステップS111Fでは、当該期間の参照情報として、図5に示すように、特定された話者(「左に10°」の方向の「女性」)と、判別された当該話者のテンション(「ハイテンション」)と、当該期間に相当するタイムスタンプ(「9/15 11:21:30」)と、声の数(「1」)とが関連付けられた参照情報が生成される。   In step S111F, as reference information for the period, as shown in FIG. 5, the identified speaker (“female” in the direction of “10 ° to the left”) and the determined tension ( Reference information in which “high tension”), a time stamp corresponding to the period (“9/15 11:21:30”), and the number of voices (“1”) are associated is generated.

〔話者表示再生画面の具体例〕
次に、上述した話者表示処理(ステップS111)で生成される話者表示再生画面の具体例について説明する。
図6は、図5に示した参照情報に基づいて生成される話者表示再生画面W100の一例を示す図である。
ステップS111Oで記録部17に記録された参照情報が図5に示す参照情報であった場合、ステップS111Pでは、図6に示す話者表示再生画面W100が生成される。
この話者表示再生画面W100は、図5に示すように、タイムバーTBと、第1〜第3識別画像I1〜I3とが配置された画面である。
[Specific example of speaker display playback screen]
Next, a specific example of the speaker display reproduction screen generated by the speaker display process (step S111) described above will be described.
FIG. 6 is a diagram showing an example of the speaker display reproduction screen W100 generated based on the reference information shown in FIG.
If the reference information recorded in the recording unit 17 in step S111O is the reference information shown in FIG. 5, a speaker display reproduction screen W100 shown in FIG. 6 is generated in step S111P.
As shown in FIG. 5, the speaker display reproduction screen W100 is a screen on which a time bar TB and first to third identification images I1 to I3 are arranged.

タイムバーTBは、図6に示すように、音声の録音を開始してから終了するまでの時間に対応する時間スケールSCと、時間スケールSC上に設けられ、音声の再生時(ステップS113〜S116)の音声データのタイムスタンプと時間的に対応する再生位置を指し示すスライダSLとを備える。
第1〜第3識別画像I1〜I3は、話者及び当該話者のテンションを識別するための識別画像である。図5に示した参照情報では、話者が三人(「右に120°」の方向の「男性」、「右に90°」の方向の「女性」、及び「左に10°」の方向の「女性」の三人)であるため、話者表示再生画面W100では、3つの第1〜第3識別画像I1〜I3が配置されている。
As shown in FIG. 6, the time bar TB is provided on the time scale SC corresponding to the time from the start to the end of voice recording and the time scale SC, and at the time of voice playback (steps S113 to S116). ) Audio data time stamp and a slider SL indicating a reproduction position corresponding in time.
The first to third identification images I1 to I3 are identification images for identifying the speaker and the tension of the speaker. In the reference information shown in FIG. 5, there are three speakers (“male” in the direction of “120 ° to the right”, “female” in the direction of “90 ° to the right”, and the direction of “10 ° to the left”. In the speaker display reproduction screen W100, three first to third identification images I1 to I3 are arranged.

第1識別画像I1は、一人目の話者である「右に120°」の方向の「男性」に対応する識別画像である。図5に示した参照情報では、当該話者は、「0〜5秒」、「5〜10秒」、及び「10〜15秒」の期間に連続して特定されている。このため、第1識別画像I1は、タイムバーTBに対応する当該「0〜15秒」の期間、タイムバーTBに沿って延びるように配置されている。
ここで、図5に示した参照情報では、当該話者は、「男性」であると特定されている。このため、第1識別画像I1には、図6に示すように、当該「男性」であることを識別するための男性画像MFが付加されている。
また、図5に示した参照情報では、当該話者のテンションは、「5〜10秒」の期間で「ハイテンション」であると判別されている。このため、第1識別画像I1は、図6に示すように、当該期間だけ、他の期間よりも幅寸法が大きくなっている。すなわち、第1識別画像I1の幅は、話者のテンションの高さを示している。なお、他の識別画像についても同様である。話者のテンションの高さに応じて第1識別画像I1の幅をアナログ的に変更してもよいし、段階的に変更してもよい。また、当該幅が隣接のタイムバーTBと重ならないように制限をかけてもよい。なお、美観が損なわれなければ、当該幅が隣接のタイムバーTBと重なるような表現でもよい。この場合には、臨場感が出ることは言うまでもない。また、第1識別画像I1の幅は一定とし、付加する男性画像MFの大きさによってテンションの高さを表してもよい。
The first identification image I1 is an identification image corresponding to “male” in the direction of “120 ° to the right”, which is the first speaker. In the reference information shown in FIG. 5, the speaker is specified continuously for the periods “0 to 5 seconds”, “5 to 10 seconds”, and “10 to 15 seconds”. Therefore, the first identification image I1 is arranged so as to extend along the time bar TB during the “0 to 15 seconds” period corresponding to the time bar TB.
Here, in the reference information shown in FIG. 5, the speaker is identified as “male”. Therefore, as shown in FIG. 6, a male image MF for identifying the “male” is added to the first identification image I1.
Further, in the reference information shown in FIG. 5, it is determined that the speaker's tension is “high tension” in a period of “5 to 10 seconds”. For this reason, as shown in FIG. 6, the first identification image I1 has a width dimension larger than that in other periods only during the period. That is, the width of the first identification image I1 indicates the height of the speaker's tension. The same applies to other identification images. Depending on the height of the speaker's tension, the width of the first identification image I1 may be changed in an analog manner or may be changed in stages. Moreover, you may restrict | limit so that the said width | variety may not overlap with adjacent time bar TB. In addition, as long as the aesthetic appearance is not impaired, the expression may be such that the width overlaps with the adjacent time bar TB. In this case, it goes without saying that there is a sense of realism. Further, the width of the first identification image I1 may be constant, and the height of the tension may be represented by the size of the added male image MF.

第2識別画像I2は、二人目の話者である「右に90°」の方向の「女性」に対応する識別画像である。図5に示した参照情報では、当該話者は、「5〜10秒」、「10〜15秒」、及び「15〜20秒」の期間に連続して特定されている。このため、第2識別画像I2は、タイムバーTBに対応する当該「5〜20秒」の期間、タイムバーTBに沿って延びるように配置されている。
ここで、図5に示した参照情報では、当該話者は、「女性」であると特定されている。このため、第2識別画像I2には、図6に示すように、当該「女性」であることを識別するための女性画像LF1が付加されている。
また、図5に示した参照情報では、当該話者のテンションは、全て「通常」であると判別されている。このため、第2識別画像I2は、図6に示すように、全ての期間で同一の幅寸法となっている。
The second identification image I2 is an identification image corresponding to “female” in the direction of “90 ° to the right”, which is the second speaker. In the reference information shown in FIG. 5, the speaker is specified continuously for the periods of “5 to 10 seconds”, “10 to 15 seconds”, and “15 to 20 seconds”. For this reason, the second identification image I2 is arranged so as to extend along the time bar TB during the “5 to 20 seconds” period corresponding to the time bar TB.
Here, in the reference information shown in FIG. 5, the speaker is identified as “female”. For this reason, as shown in FIG. 6, a female image LF1 for identifying the “female” is added to the second identification image I2.
Further, in the reference information shown in FIG. 5, it is determined that all the tensions of the speaker are “normal”. For this reason, as shown in FIG. 6, the second identification image I2 has the same width dimension in all periods.

第3識別画像I3は、三人目の話者である「左に10°」の方向の「女性」に対応する識別画像である。図5に示した参照情報では、当該話者は、「15〜20秒」及び「20〜25秒」の期間に連続して特定されている。このため、第3識別画像I3は、タイムバーTBに対応する当該「15〜25秒」の期間、タイムバーTBに沿って延びるように配置されている。
ここで、図5に示した参照情報は、当該話者は、二人目の話者(「右に90°」の方向の「女性」)とは異なる「女性」であると特定されている。このため、第3識別画像I3には、図6に示すように、当該「女性」であることを識別するための画像であって、女性画像LF1とは異なる女性画像LF2が付加されている。
また、図5に示した参照情報では、当該話者のテンションは、「20〜25秒」の期間で「ハイテンション」であると判別されている。このため、第3識別画像I3は、図6に示すように、当該期間だけ、他の期間よりも幅寸法が大きくなっている。
The third identification image I3 is an identification image corresponding to “female” in the direction of “10 ° to the left”, which is the third speaker. In the reference information shown in FIG. 5, the speaker is specified continuously for the period of “15 to 20 seconds” and “20 to 25 seconds”. Therefore, the third identification image I3 is arranged so as to extend along the time bar TB during the “15 to 25 seconds” period corresponding to the time bar TB.
Here, the reference information shown in FIG. 5 specifies that the speaker is “female” different from the second speaker (“female” in the direction of “90 ° to the right”). For this reason, as shown in FIG. 6, the third identification image I3 is added with a female image LF2 that is an image for identifying the “female” and is different from the female image LF1.
Further, in the reference information shown in FIG. 5, the tension of the speaker is determined to be “high tension” in a period of “20 to 25 seconds”. For this reason, as shown in FIG. 6, the third identification image I3 has a width dimension larger than that in the other periods only during the period.

以上説明した本実施の形態1に係る電子機器1は、第1,第2音声データを解析することで当該音声データに含まれる音声の特徴成分(話者のテンション)を判別し、当該特徴成分と当該特徴成分が含まれる時間(タイムスタンプ)とを関連付けて参照情報を生成する。そして、電子機器1は、当該参照情報に基づいて、タイムバーとともに、当該タイムバーに対応する各時間に、当該時間に関連付けられた特徴成分を識別するための識別画像を配置した話者表示再生画面を表示する。
特に、電子機器1は、話者のテンションに応じて当該識別画像を異なるもの(図6に示した例では、話者のテンションを識別画像I1〜I3の幅の太さで表現)としている。
このため、ユーザは、当該話者表示再生画面から録音時の状況(話者のテンションがどのような状態であったか)を一目で把握することができる。したがって、本実施の形態1に係る電子機器1によれば、利便性の向上が図れるという効果を奏する。
The electronic device 1 according to the first embodiment described above analyzes the first and second sound data to determine the sound feature component (speaker tension) included in the sound data, and the feature component. And the time (time stamp) in which the characteristic component is included are associated with each other to generate reference information. Based on the reference information, the electronic device 1 reproduces speaker display in which an identification image for identifying a characteristic component associated with the time is arranged at each time corresponding to the time bar together with the time bar. Display the screen.
In particular, the electronic device 1 uses different identification images depending on the speaker's tension (in the example shown in FIG. 6, the speaker's tension is expressed by the width of the identification images I1 to I3).
For this reason, the user can grasp at a glance the situation at the time of recording (how the tension of the speaker was) from the speaker display reproduction screen. Therefore, according to the electronic device 1 according to the first embodiment, the convenience can be improved.

また、本実施の形態1に係る電子機器1は、第1,第2音声データを解析して、当該第1,第2音声データに含まれる音声を発した話者を特定し、当該特定した話者毎に、特徴情報(話者のテンション)を判別する。
このため、ユーザは、話者表示再生画面から、録音時の状況として、話者が誰であったか、当該話者のテンションがどのような状態であったかの双方を一目で把握することができ、利便性の向上がさらに図れる。
特に、電子機器1は、一対の第1,第2マイク111,121が設けられ、当該第1,第2マイク111,121を介して入力した各音声に基づく第1,第2音声データに基づいて、話者の方向を特定する。また、電子機器1は、当該各音声の周波数に基づいて、話者の性別を特定する。さらに、電子機器1は、当該各音声の音量に基づいて、話者のテンションを判別する。このため、簡単な解析処理により、話者の特定(話者の方向及び性別の特定)及び話者のテンションの判別を実行することができる。
In addition, the electronic apparatus 1 according to the first embodiment analyzes the first and second sound data, identifies the speaker that has emitted the sound included in the first and second sound data, and identifies the speaker For each speaker, feature information (speaker tension) is determined.
For this reason, the user can grasp at a glance both who is the speaker and the state of the speaker's tension as a recording situation from the speaker display reproduction screen. Further improvement in performance can be achieved.
In particular, the electronic device 1 is provided with a pair of first and second microphones 111 and 121, and is based on first and second sound data based on each sound input via the first and second microphones 111 and 121. Identify the direction of the speaker. In addition, the electronic device 1 identifies the sex of the speaker based on the frequency of each voice. Furthermore, the electronic device 1 determines the speaker's tension based on the volume of each voice. Therefore, speaker identification (speaker direction and gender identification) and speaker tension determination can be performed by simple analysis processing.

また、本実施の形態1に係る電子機器1は、話者を特定することができなかった場合には、当該話者を特定することができなかった期間の音声を当該期間の直前の期間で特定した話者が発したものと推定する。
このため、話者を特定することができなかった場合であっても、各期間で継続して声を発しているものと推測し、当該話者を尤もらしい話者と推定することができる。
Also, in the case where the electronic device 1 according to the first embodiment cannot identify the speaker, the electronic device 1 transmits the voice of the period in which the speaker cannot be identified in the period immediately before the period. Presume that the identified speaker originated.
For this reason, even if it is a case where a speaker cannot be specified, it can estimate that it is uttering continuously in each period, and can estimate the said speaker as a likely speaker.

(実施の形態1の変形例)
上述した実施の形態1では、電子機器1が再生モードに設定されている場合(ステップS111)に、第1,第2音声データの解析及び参照情報の生成を行っていたが、これに限られない。
例えば、第1,第2音声データの解析及び参照情報の生成(ステップS111B〜S111N)の少なくとも一部を、第1,第2音声データの生成時(ステップS103〜S105)に並行して行っても構わない。
(Modification of Embodiment 1)
In the first embodiment described above, when the electronic device 1 is set to the playback mode (step S111), the analysis of the first and second audio data and the generation of the reference information are performed. Absent.
For example, at least part of the analysis of the first and second sound data and the generation of the reference information (steps S111B to S111N) is performed in parallel with the generation of the first and second sound data (steps S103 to S105). It doesn't matter.

上述した実施の形態1において、第1,第2データ要素を解析し、笑い声や怒った声を認識することができた場合には、話者表示再生画面において、当該認識することができた期間に対応する位置に笑い顔や怒った顔の画像を付加しても構わない。   In the first embodiment described above, when the first and second data elements are analyzed and a laughing voice or an angry voice can be recognized, the period during which the recognition can be performed on the speaker display reproduction screen An image of a laughing face or an angry face may be added at a position corresponding to.

上述した実施の形態1では、話者のテンションを「ハイテンション」及び「通常」の2段階で判別していたが、これに限られず、3段階以上で判別しても構わない。   In the first embodiment described above, the tension of the speaker is determined in two stages of “high tension” and “normal”. However, the present invention is not limited to this and may be determined in three or more stages.

上述した実施の形態1では、話者のテンションを判別する際、話者の音声の音量を該当期間と直前の期間とで比較していたが、これに限られず、該当期間における話者の音声の音量を所定の閾値と比較することで話者のテンションを判別しても構わない。また、該当期間内での話者の音声の音量の変化で話者のテンションを判別しても構わない。ここで、話者のテンション(音声の特徴部分)は感情的な高ぶりを示すものを想定したが、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。つまり、話者のテンションは、一人の話者の声の時間の経過に伴う相対的な変化(集中し始めたなど)を検出したり、複数の人物の声の相対的な差異を検出したりして判定されるものである。   In the first embodiment described above, when determining the tension of the speaker, the volume of the speaker's voice is compared between the corresponding period and the immediately preceding period. However, the present invention is not limited to this. The speaker's tension may be determined by comparing the volume of the speaker with a predetermined threshold. Further, the tension of the speaker may be determined based on a change in the volume of the speaker's voice within the corresponding period. Here, the speaker's tension (speech feature) is assumed to be emotionally high, but the concentration of the story (for example, one speaker explains and others quietly listen to it) Etc.) may be reflected. In this case, the speaker's tension is detected by detecting the relative loudness of the detected voices of multiple people, the degree of the pace of the words (speaking to speak), the speed (speaking), etc. May be determined. In other words, the speaker's tension can detect relative changes (such as starting to concentrate) over the course of a single speaker's voice, or detect the relative differences between multiple people's voices. Is determined.

上述した実施の形態1では、話者を特定することができなかった場合には、当該話者を特定することができなかった期間の音声を当該期間の「直前」の期間で特定した話者が発したものと推定していた(ステップS111M)が、これに限られず、当該期間の「直後」の期間で特定した話者が発したものと推定しても構わない。   In the first embodiment described above, if the speaker cannot be specified, the speaker in which the voice during the period when the speaker could not be specified is specified in the “immediately before” period of the period. (Step S111M) is not limited to this, but it may be estimated that the speaker specified in the “immediately after” period is the speaker.

図7は、本発明の実施の形態1の変形例を示す図である。
上述した実施の形態1で説明した電子機器1の代わりに、撮像機能を付加した電子機器1Aを採用しても構わない。
具体的に、電子機器1Aは、図7に示すように、上述した実施の形態1で説明した電子機器1に対して、撮像部10が追加されているとともに、機器側制御部19の代わりに当該機器側制御部19に対して撮像制御部197を追加した機器側制御部19Aが採用されている。
撮像部10は、撮像制御部197による制御の下、被写体を撮像して画像データを生成する。この撮像部10は、被写体像を結像する光学系(図示略)、当該光学系が結像した被写体像を受光して電気信号に変換するCCD(Charge Coupled Device)等の撮像素子、当該撮像素子からの電気信号(アナログ信号)に対して信号処理(A/D変換等)を行うことによりデジタルの画像データを生成する信号処理部等を用いて構成される。そして、撮像部10にて生成された画像データは、撮像制御部197による制御の下、時計部15にて生成されたタイムスタンプ(当該画像データが生成された日時に関するタイムスタンプ)が付加されて、記録部17に記録される。
撮像制御部197は、ユーザによる操作部13への撮影操作に応じて、撮像部10に被写体を撮像させ、当該撮像部10にて生成された画像データ(タイムスタンプを含む)を記録部17に記録する。
以上のように、電子機器1Aに撮像機能を持たせ、例えば、図4に示す打合せの状況や、男性M、女性L1,L2をそれぞれ撮像しておけば、例えば、図6に示した話者表示再生画面W100において、図4に示す打合せの状況を撮像した画像や、男性画像MF及び女性画像LF1,LF2の代わりに男性M、女性L1,L2を撮像した画像を配置することが可能となる。
FIG. 7 is a diagram showing a modification of the first embodiment of the present invention.
Instead of the electronic device 1 described in the first embodiment, an electronic device 1A to which an imaging function is added may be employed.
Specifically, as illustrated in FIG. 7, the electronic device 1 </ b> A has an imaging unit 10 added to the electronic device 1 described in the first embodiment, and instead of the device-side control unit 19. A device-side control unit 19A in which an imaging control unit 197 is added to the device-side control unit 19 is employed.
The imaging unit 10 captures a subject and generates image data under the control of the imaging control unit 197. The imaging unit 10 includes an optical system (not shown) that forms a subject image, an imaging element such as a CCD (Charge Coupled Device) that receives the subject image formed by the optical system and converts it into an electrical signal, and the imaging It is configured using a signal processing unit that generates digital image data by performing signal processing (A / D conversion or the like) on an electrical signal (analog signal) from the element. The image data generated by the imaging unit 10 is added with a time stamp (time stamp related to the date and time when the image data was generated) generated by the clock unit 15 under the control of the imaging control unit 197. Are recorded in the recording unit 17.
The imaging control unit 197 causes the imaging unit 10 to image the subject in response to a shooting operation on the operation unit 13 by the user, and the image data (including a time stamp) generated by the imaging unit 10 is stored in the recording unit 17. Record.
As described above, if the electronic device 1A is provided with an imaging function, for example, the situation of the meeting shown in FIG. 4 and the images of the male M and the females L1 and L2, respectively, for example, the speaker shown in FIG. On the display reproduction screen W100, it is possible to arrange an image obtained by imaging the meeting situation shown in FIG. 4 and an image obtained by imaging the male M and the female L1, L2 instead of the male image MF and the female images LF1 and LF2. .

(実施の形態2)
次に、本発明の実施の形態2について説明する。
以下の説明では、上述した実施の形態1と同様の構成及びステップには同一符号を付し、その詳細な説明は省略または簡略化する。
図8は、本発明の実施の形態2に係る音声処理システム100の構成を示すブロック図である。
本実施の形態2に係る音声処理システム100は、図8に示すように、上述した実施の形態1で説明した電子機器1の「音声データを解析し参照情報を生成する」機能をサーバ2に持たせ、音声データの生成及び再生を行う電子機器1Bと当該サーバ2との間でインターネット網Nを介して通信を行うシステムである。
(Embodiment 2)
Next, a second embodiment of the present invention will be described.
In the following description, the same reference numerals are given to the same configurations and steps as those in the above-described first embodiment, and the detailed description thereof is omitted or simplified.
FIG. 8 is a block diagram showing the configuration of the speech processing system 100 according to Embodiment 2 of the present invention.
As shown in FIG. 8, the voice processing system 100 according to the second embodiment provides the server 2 with the function of “analyzing voice data and generating reference information” of the electronic device 1 described in the first embodiment. This is a system that performs communication via the Internet network N between the electronic device 1B that generates and reproduces audio data and the server 2.

〔音声処理システムの構成〕
以下、本実施の形態2に係る音声処理システム100を構成する電子機器1B及びサーバ2の構成について順に説明する。
[Configuration of voice processing system]
Hereinafter, the configuration of the electronic device 1B and the server 2 constituting the voice processing system 100 according to the second embodiment will be described in order.

〔電子機器の構成〕
本実施の形態2に係る電子機器1Bは、図8に示すように、上述した実施の形態1で説明した電子機器1(図1)に対して、機器側通信部20が追加されているとともに、機器側制御部19の一部の機能が変更されている。
機器側通信部20は、機器側制御部19Bによる制御の下、サーバ2との間で通信に必要な信号を含む各種データの無線通信を行うための通信インターフェースである。
[Configuration of electronic equipment]
As shown in FIG. 8, the electronic device 1B according to the second embodiment has a device-side communication unit 20 added to the electronic device 1 (FIG. 1) described in the first embodiment. Some functions of the device-side control unit 19 are changed.
The device side communication unit 20 is a communication interface for performing wireless communication of various data including signals necessary for communication with the server 2 under the control of the device side control unit 19B.

本実施の形態2に係る機器側制御部19Bは、図8に示すように、音声データ解析部192及び参照情報生成部193が省略されているとともに、機器側通信制御部198が追加されている。
機器側通信制御部198は、話者表示処理の実行時に、以下の処理を実行する。
具体的に、機器側通信制御部198は、記録部17に記録されたサーバ2の所在位置情報(URL(Uniform Resource Locator))に基づいて、機器側通信部20を介して、インターネット網Nに接続されたサーバ2にアクセス信号(参照画像の送信要求(自身の電子機器1Bを識別する識別情報を含む))を送信し、サーバ2との間で通信接続を確立する。そして、機器側通信制御部198は、話者表示処理の対象となる第1,第2音声データ(タイムスタンプを含む)をサーバ2に送信するとともに、参照情報をサーバ2から受信する。
As shown in FIG. 8, in the device-side control unit 19B according to the second embodiment, the audio data analysis unit 192 and the reference information generation unit 193 are omitted, and the device-side communication control unit 198 is added. .
The device-side communication control unit 198 executes the following process when the speaker display process is executed.
Specifically, the device-side communication control unit 198 connects to the Internet network N via the device-side communication unit 20 based on the location information (URL (Uniform Resource Locator)) of the server 2 recorded in the recording unit 17. An access signal (a request for transmitting a reference image (including identification information for identifying its own electronic device 1B)) is transmitted to the connected server 2 to establish a communication connection with the server 2. And the apparatus side communication control part 198 transmits the 1st, 2nd audio | voice data (a time stamp is included) used as the object of a speaker display process to the server 2, and receives reference information from the server 2. FIG.

〔サーバの構成〕
サーバ2は、電子機器1Bからの参照画像の送信要求とともに送信された第1,第2音声データを解析して参照情報を生成し、当該参照情報を電子機器1Bに送信する。
以下では、サーバ2の構成として、本発明の要部を主に説明する。
サーバ2は、図8に示すように、サーバ側通信部21と、音声データベース22と、サーバ側制御部23とを備える。
[Server configuration]
The server 2 analyzes the first and second audio data transmitted together with the reference image transmission request from the electronic device 1B, generates reference information, and transmits the reference information to the electronic device 1B.
In the following, the main part of the present invention will be mainly described as the configuration of the server 2.
As shown in FIG. 8, the server 2 includes a server-side communication unit 21, a voice database 22, and a server-side control unit 23.

サーバ側通信部21は、サーバ側制御部23による制御の下、電子機器1Bとの間で通信に必要な信号を含む各種データの無線通信を行うための通信インターフェースである。
音声データベース22は、サーバ側制御部23による制御の下、サーバ側通信部21を介して電子機器1Bから受信した第1,第2音声データ(タイムスタンプを含む)を記録する。また、音声データベース22は、サーバ側制御部23による制御の下、参照情報を当該参照情報の生成に用いられた第1,第2音声データに関連付けて記録する。
The server-side communication unit 21 is a communication interface for performing wireless communication of various data including signals necessary for communication with the electronic device 1B under the control of the server-side control unit 23.
The voice database 22 records first and second voice data (including a time stamp) received from the electronic device 1B via the server-side communication unit 21 under the control of the server-side control unit 23. The voice database 22 records reference information in association with the first and second voice data used for generating the reference information under the control of the server-side control unit 23.

サーバ側制御部23は、CPU等を用いて構成され、サーバ2の動作を統括的に制御する。このサーバ側制御部23は、図8に示すように、サーバ側通信制御部231と、端末判定部232と、音声データ記録制御部233と、音声データ解析部234と、参照情報生成部235とを備える。
サーバ側通信制御部231は、サーバ側通信部21及びインターネット網Nを介して電子機器1Bから送信されるアクセス信号(参照情報の送信要求(当該電子機器1Bの識別情報を含む))に応じて、サーバ側通信部21の動作を制御し、電子機器1Bとの間で通信接続を確立する。そして、サーバ側通信制御部231は、電子機器1Bから、音声データベース233に記録させる第1,第2音声データ(タイムスタンプを含む)を受信するとともに、参照情報生成部235にて生成された参照情報を当該電子機器1Bに送信する。
そして、サーバ側通信制御部231は、本発明に係る音声データ取得部としての機能を有する。
The server-side control unit 23 is configured using a CPU or the like, and comprehensively controls the operation of the server 2. As shown in FIG. 8, the server-side control unit 23 includes a server-side communication control unit 231, a terminal determination unit 232, an audio data recording control unit 233, an audio data analysis unit 234, and a reference information generation unit 235. Is provided.
The server-side communication control unit 231 responds to an access signal (reference information transmission request (including identification information of the electronic device 1B)) transmitted from the electronic device 1B via the server-side communication unit 21 and the Internet network N. Then, the operation of the server side communication unit 21 is controlled to establish a communication connection with the electronic device 1B. Then, the server-side communication control unit 231 receives the first and second audio data (including time stamp) to be recorded in the audio database 233 from the electronic device 1B, and the reference generated by the reference information generation unit 235. Information is transmitted to the electronic device 1B.
And the server side communication control part 231 has a function as an audio | voice data acquisition part which concerns on this invention.

端末判定部232は、インターネット網Nを介して電子機器1Bから送信されるアクセス信号に基づいて、アクセスしてきた送信元の電子機器1Bを判定(特定)する。
音声データ記録制御部233は、サーバ側通信部21を介して電子機器1Bから受信した第1,第2音声データ(タイムスタンプを含む)を音声データベース22に記録する。
Based on an access signal transmitted from the electronic device 1B via the Internet N, the terminal determination unit 232 determines (identifies) the transmission-source electronic device 1B that has accessed.
The audio data recording control unit 233 records the first and second audio data (including the time stamp) received from the electronic device 1B via the server side communication unit 21 in the audio database 22.

音声データ解析部234(対象物特定部2341及び特徴成分判別部2342)は、上述した実施の形態1で説明した音声データ解析部192(対象物特定部1921及び特徴成分判別部1922)と同様の機能を有し、サーバ側通信部21を介して電子機器1Bから受信し音声データベース22に記録された第1,第2音声データを解析する。
参照情報生成部235は、上述した実施の形態1で説明した参照情報生成部193と同様の機能を有し、音声データ解析部234の解析結果に基づいて、参照情報を生成する。そして、参照情報生成部235は、当該参照情報を当該参照情報の生成に用いた第1,第2音声データに関連付けて音声データベース22に記録する。
そして、サーバ側通信制御部231、音声データ解析部234、及び参照情報生成部235は、本発明に係る音声処理装置としての機能を有する。
The sound data analysis unit 234 (the object specifying unit 2341 and the feature component determining unit 2342) is the same as the sound data analyzing unit 192 (the object specifying unit 1921 and the feature component determining unit 1922) described in the first embodiment. It has a function and analyzes the first and second sound data received from the electronic device 1B via the server side communication unit 21 and recorded in the sound database 22.
The reference information generation unit 235 has the same function as the reference information generation unit 193 described in the first embodiment, and generates reference information based on the analysis result of the audio data analysis unit 234. Then, the reference information generation unit 235 records the reference information in the audio database 22 in association with the first and second audio data used for generating the reference information.
And the server side communication control part 231, the audio | voice data analysis part 234, and the reference information generation part 235 have a function as an audio | voice processing apparatus which concerns on this invention.

〔音声処理システムの動作〕
次に、上述した音声処理システム100の動作について説明する。
以下、音声処理システム100の動作として、電子機器1Bの動作、及びサーバ2の動作を順に説明する。
[Operation of voice processing system]
Next, the operation of the voice processing system 100 described above will be described.
Hereinafter, as operations of the voice processing system 100, operations of the electronic device 1B and operations of the server 2 will be described in order.

〔電子機器の動作〕
なお、電子機器1Bの動作については、上述した実施の形態1で説明した電子機器1Bの動作(図2,図3)に対して、話者表示処理(ステップS111)が異なるのみである。このため、以下では、本実施の形態2に係る話者表示処理(ステップS111)のみを説明する。
図9は、本発明の実施の形態2に係る話者表示処理(ステップS111)を示すフローチャートである。
本実施の形態2に係る話者表示処理は、図9に示すように、上述した実施の形態1で説明した話者表示処理(図3)に対して、ステップS111A〜S111Oを省略し、ステップS111R,S111Sを追加した点が異なるのみである。このため、以下では、ステップS111R,S111Sのみを説明する。
[Operation of electronic equipment]
The operation of electronic device 1B is different from the operation of electronic device 1B described in the first embodiment (FIGS. 2 and 3) only in the speaker display process (step S111). Therefore, hereinafter, only the speaker display process (step S111) according to the second embodiment will be described.
FIG. 9 is a flowchart showing speaker display processing (step S111) according to Embodiment 2 of the present invention.
In the speaker display process according to the second embodiment, as shown in FIG. 9, steps S111A to S111O are omitted from the speaker display process (FIG. 3) described in the first embodiment. The only difference is the addition of S111R and S111S. Therefore, only steps S111R and S111S will be described below.

ステップS111Rは、話者表示処理(ステップS111)の最初に実行されるステップである。
具体的に、機器側通信制御部198は、機器側通信部20を介して、インターネット網Nに接続されたサーバ2にアクセス信号(参照画像の送信要求(自身の電子機器1Bの識別情報を含む))を送信し、サーバ2との間で通信接続を確立する。そして、機器側通信制御部198は、話者表示処理の対象となる第1,第2音声データ(ステップS109で選択された第1,第2音声データ(タイムスタンプを含む))をサーバ2に送信する。
Step S111R is a step executed at the beginning of the speaker display process (step S111).
Specifically, the device-side communication control unit 198 sends an access signal (reference image transmission request (including identification information of its own electronic device 1B) to the server 2 connected to the Internet network N via the device-side communication unit 20. )) To establish a communication connection with the server 2. Then, the device-side communication control unit 198 sends the first and second voice data (first and second voice data (including time stamp) selected in step S109) to be the target of the speaker display process to the server 2. Send.

続いて、機器側通信制御部198は、機器側通信部20を介して、サーバ2から参照情報を受信し、メモリ部16に記憶する(ステップS111S)。
そして、電子機器1Bは、メモリ部16に記憶した参照情報に基づいて、話者表示再生画面を生成し(ステップS111P)、当該話者表示再生画面を表示部14に表示する(ステップS111Q)。
Subsequently, the device-side communication control unit 198 receives reference information from the server 2 via the device-side communication unit 20 and stores it in the memory unit 16 (step S111S).
Then, the electronic device 1B generates a speaker display reproduction screen based on the reference information stored in the memory unit 16 (step S111P), and displays the speaker display reproduction screen on the display unit 14 (step S111Q).

〔サーバの動作〕
図10は、サーバ2の動作を示すフローチャートである。
サーバ側通信制御部231は、サーバ側通信部21及びインターネット網Nを介して、電子機器1Bからアクセス信号(参照画像の送信要求(当該電子機器1Bの識別情報を含む))を受信したか否かを判断する(ステップS201)。
参照画像の送信要求を受信していないと判断された場合(ステップS201:No)には、サーバ3は、ステップS210に移行する。
一方、参照画像の送信要求を受信したと判断された場合(ステップS201:Yes)には、端末判定部232は、当該送信要求に基づいて、アクセスしてきた送信元の電子機器1Bを特定する(ステップS202)。
[Server operation]
FIG. 10 is a flowchart showing the operation of the server 2.
Whether the server-side communication control unit 231 has received an access signal (a reference image transmission request (including identification information of the electronic device 1B)) from the electronic device 1B via the server-side communication unit 21 and the Internet network N. Is determined (step S201).
If it is determined that the reference image transmission request has not been received (step S201: No), the server 3 proceeds to step S210.
On the other hand, when it is determined that the reference image transmission request has been received (step S201: Yes), the terminal determination unit 232 identifies the electronic device 1B that has accessed, based on the transmission request ( Step S202).

続いて、サーバ側通信制御部231は、サーバ側通信部21及びインターネット網Nを介して、電子機器1Bから第1,第2音声データ(タイムスタンプを含む)を受信する(ステップS203:音声データ取得ステップ)。そして、音声データ記録制御部233は、音声データベース22に記録された第1,第2音声データを参照し、ステップS203で受信した第1,第2音声データと同一の第1,第2音声データが未だ記録されていない場合には、当該受信した第1,第2音声データを音声データベース22に記録する。   Subsequently, the server side communication control unit 231 receives the first and second audio data (including the time stamp) from the electronic device 1B via the server side communication unit 21 and the Internet network N (step S203: audio data). Acquisition step). Then, the audio data recording control unit 233 refers to the first and second audio data recorded in the audio database 22, and the same first and second audio data as the first and second audio data received in step S203. Is not recorded yet, the received first and second audio data are recorded in the audio database 22.

続いて、サーバ側制御部23は、ステップS203で受信した第1,第2音声データの参照情報を既に生成しているか否かを判断する(ステップS204)。すなわち、サーバ側制御部23は、ステップS204において、音声データベース22に記録された当該第1,第2音声データに参照情報が関連付けられているか否かを判断している。
参照情報を生成済みであると判断された場合(ステップS204:No)には、サーバ2は、ステップS219に移行する。
一方、参照情報を未だ生成していないと判断された場合(ステップS204:Yes)には、サーバ2は、上述した実施の形態1で説明したステップS111B〜S111Nと同様に、ステップS203で受信した第1,第2音声データの解析、及び参照情報の生成を実行する(ステップS205〜S217)。
すなわち、ステップS208は、本発明に係る音声データ解析ステップに相当する。また、ステップS209は、本発明に係る参照情報生成ステップに相当する。
Subsequently, the server-side control unit 23 determines whether reference information for the first and second audio data received in step S203 has already been generated (step S204). That is, the server-side control unit 23 determines whether or not reference information is associated with the first and second audio data recorded in the audio database 22 in step S204.
When it is determined that the reference information has been generated (step S204: No), the server 2 proceeds to step S219.
On the other hand, when it is determined that the reference information has not yet been generated (step S204: Yes), the server 2 receives the information in step S203 as in steps S111B to S111N described in the first embodiment. Analysis of the first and second audio data and generation of reference information are executed (steps S205 to S217).
That is, step S208 corresponds to the audio data analysis step according to the present invention. Step S209 corresponds to a reference information generation step according to the present invention.

ステップS217の後、または、ステップS215で直前の期間で話者が特定されていないと判断された場合(ステップS215:No)には、サーバ2は、ステップS209,S211,S212で生成された各期間の参照情報(ステップS217で更新された場合には更新後の参照情報)を、当該参照情報の生成に用いられた第1,第2音声データに関連付けて音声データベース22に記録する(ステップS218)。
ステップS218の後、または、ステップS204で参照情報を生成済みであると判断された場合(ステップS204:No)には、サーバ側通信制御部231は、サーバ側通信部21及びインターネット網Nを介して、ステップS203で受信した第1,第2音声データに対しステップS218で関連付けて記録された参照情報を、ステップS202で特定された電子機器1Bに送信する(ステップS219)。この後、サーバ2は、ステップS201に戻る。
After step S217 or when it is determined in step S215 that the speaker has not been specified in the immediately preceding period (step S215: No), the server 2 generates each of the steps generated in steps S209, S211 and S212. The reference information of the period (or the updated reference information when updated in step S217) is recorded in the voice database 22 in association with the first and second voice data used for generating the reference information (step S218). ).
After step S218 or when it is determined that the reference information has been generated in step S204 (step S204: No), the server side communication control unit 231 passes through the server side communication unit 21 and the Internet network N. The reference information recorded in association with the first and second audio data received in step S203 in step S218 is transmitted to the electronic device 1B specified in step S202 (step S219). Thereafter, the server 2 returns to step S201.

ステップS201で参照画像の送信要求を受信していないと判断された場合(ステップS201:No)には、サーバ2は、上述した処理とは異なる他の処理を実行する(ステップS210)。この後、サーバ2は、ステップS201に戻る。   If it is determined in step S201 that a reference image transmission request has not been received (step S201: No), the server 2 executes another process different from the process described above (step S210). Thereafter, the server 2 returns to step S201.

以上説明した本実施の形態2によれば、上述した実施の形態1と同様の効果を奏することができるとともに、電子機器1Bの構成の簡素化が図れる、という効果を奏する。   According to the second embodiment described above, the same effects as those of the first embodiment described above can be achieved, and the configuration of the electronic device 1B can be simplified.

(その他の実施の形態)
ここまで、本発明を実施するための形態を説明してきたが、本発明は上述した実施の形態1,2によってのみ限定されるべきものではない。
図11A〜図11Cは、上述した実施の形態1,2で説明した話者表示再生画面の変形例を示す図である。
上述した実施の形態1,2で例示した話者表示再生画面W100では、第1〜第3識別画像I1〜I3は、話者のテンションを幅の太さで表現していたが、これに限られず、例えば、図11A〜図11Cに示す話者表示再生画面W101〜W103のように表現しても構わない。
具体的に、図11Aに示す話者表示再生画面W101では、第1〜第3識別画像I1〜I3は、話者のテンションの変化を波形で表現している。すなわち、図11Aに示す話者表示再生画面W101において、縦方向はテンションの高さを示している。
また、図11Bに示す話者表示再生画面W102は、図11Aに示した話者表示再生画面W101を3D表示したものである。
さらに、図11Cに示す話者表示再生画面W103では、第1〜第3識別画像I1〜I3は、話者のテンションを画素値で表現している。すなわち、図11Cに示す話者表示再生画面W101において、画素値の高い部分(明るい部分)は、テンションが高い時間を示している。ここで、話者のテンションは感情的な高ぶりを示すものであるが、話の集中具合(例えば、一人の話者が説明し、それを他の人物が静かに聴くなど)を反映してもよい。この場合、検出された複数の人物の声の相対的な大きさの関係や、言葉のペースの一定度(説き聞かせるように語る)やスピード(まくしたてる)などを検出して、話者のテンションを判定してもよい。このような声の特徴(の変化)によって、例えば、状況を判定するための検索を行うことも可能である。
(Other embodiments)
The embodiments for carrying out the present invention have been described so far, but the present invention should not be limited only by the above-described first and second embodiments.
11A to 11C are diagrams showing modifications of the speaker display reproduction screen described in the first and second embodiments.
In the speaker display reproduction screen W100 exemplified in the first and second embodiments described above, the first to third identification images I1 to I3 express the speaker's tension with the thickness of the width. Instead, for example, the speaker display reproduction screens W101 to W103 shown in FIGS. 11A to 11C may be expressed.
Specifically, on the speaker display reproduction screen W101 shown in FIG. 11A, the first to third identification images I1 to I3 express changes in the speaker's tension as waveforms. That is, in the speaker display reproduction screen W101 shown in FIG. 11A, the vertical direction indicates the height of the tension.
A speaker display reproduction screen W102 shown in FIG. 11B is a 3D display of the speaker display reproduction screen W101 shown in FIG. 11A.
Further, on the speaker display reproduction screen W103 shown in FIG. 11C, the first to third identification images I1 to I3 express the speaker's tension as a pixel value. That is, in the speaker display reproduction screen W101 shown in FIG. 11C, a portion with a high pixel value (bright portion) indicates a time during which the tension is high. Here, the speaker's tension shows an emotional height, but even if it reflects the concentration of the story (for example, one speaker explains it and others listen quietly) Good. In this case, the speaker's tension is detected by detecting the relative loudness of the voices of multiple people detected, the degree of the pace of the words (speaking to speak) and the speed (speaking). May be determined. For example, it is possible to perform a search for determining the situation based on the characteristics (changes) of the voice.

図12は、上述した実施の形態1,2で説明した参照情報の変形例を示す図である。
上述した実施の形態1,2において、参照情報は、上述した実施の形態1,2で説明した参照情報(例えば、図5)に限られず、例えば、図12に示す参照情報を採用しても構わない。
例えば、上述した実施の形態1において、記録部17に特定のキーワードを予め記録しておく。なお、図12では、説明の便宜上、当該特定のキーワードを1つのみとしているが、複数としても構わない。また、音声データ解析部192は、第1,第2データ要素を解析し、当該第1,第2データ要素に記録部17に記録された特定のキーワードが含まれているか否かを判定する。そして、参照情報生成部193は、音声データ解析部192にて特定のキーワードが含まれていると判定された場合に、該当期間(図12の例では、「5〜10秒」の期間)の参照情報として、「キーワード」フラグをオン状態とした参照情報を生成する。なお、上述した実施の形態2では、サーバ2に上述した処理を実行させ、図12に示す参照情報を生成させればよい。
FIG. 12 is a diagram showing a modification of the reference information described in the first and second embodiments.
In the first and second embodiments, the reference information is not limited to the reference information (for example, FIG. 5) described in the first and second embodiments. For example, the reference information illustrated in FIG. I do not care.
For example, in Embodiment 1 described above, a specific keyword is recorded in advance in the recording unit 17. In FIG. 12, for convenience of explanation, only one specific keyword is used, but a plurality of specific keywords may be used. Further, the voice data analysis unit 192 analyzes the first and second data elements and determines whether or not the specific keyword recorded in the recording unit 17 is included in the first and second data elements. When the voice data analysis unit 192 determines that the specific keyword is included, the reference information generation unit 193 has a corresponding period (a period of “5 to 10 seconds” in the example of FIG. 12). As reference information, reference information with the “keyword” flag turned on is generated. In the second embodiment described above, the server 2 may execute the above-described processing to generate the reference information illustrated in FIG.

図13は、図12に示した参照情報に基づいて生成される話者表示再生画面W104の一例を示す図である。
例えば、上述した実施の形態1,2において、電子機器1やサーバ2が図12に示した参照情報を生成した場合には、電子機器1,1Bは、例えば、図13に示す話者表示再生画面W104を生成する。
具体的に、図13に示す話者表示再生画面W104は、図6に示した話者表示再生画面W100に対して、キーワード入力部KWが追加されている。
キーワード入力部KWは、ユーザによる操作部13への操作によって、キーワードが入力される部分である。
そして、再生画面生成部194は、記録部17に記録された特定のキーワードと同一のキーワードがユーザによる操作部13への操作によって入力された場合には、当該入力の前(図13(a))と当該入力の後(図13(b))とで、話者表示再生画面W104を以下に示すように変化させる。
すなわち、再生画面生成部194は、図12に示した参照情報を参照し、「キーワード」フラグがオン状態となっている期間の話者に対応する識別画像(図12及び図13(b)の例では、第2識別画像I2)の輝度を向上させた話者表示再生画面W104(図13(b))を生成する。
なお、「キーワード」フラグがオン状態となっている期間の話者に対応する識別画像の表示態様を従前の当該識別画像の表示態様と異なるものとすれば、上述した輝度の向上に限られず、その他の方法を採用しても構わない。
FIG. 13 is a diagram showing an example of the speaker display reproduction screen W104 generated based on the reference information shown in FIG.
For example, in the first and second embodiments described above, when the electronic device 1 or the server 2 generates the reference information shown in FIG. 12, the electronic devices 1 and 1B, for example, reproduce the speaker display shown in FIG. A screen W104 is generated.
Specifically, in the speaker display reproduction screen W104 shown in FIG. 13, a keyword input unit KW is added to the speaker display reproduction screen W100 shown in FIG.
The keyword input unit KW is a part where a keyword is input by an operation on the operation unit 13 by a user.
Then, when the same keyword as the specific keyword recorded in the recording unit 17 is input by the user operating the operation unit 13, the playback screen generation unit 194 performs the input before the input (FIG. 13A). ) And after the input (FIG. 13B), the speaker display reproduction screen W104 is changed as shown below.
That is, the playback screen generation unit 194 refers to the reference information shown in FIG. 12, and identifies the identification image corresponding to the speaker during the period in which the “keyword” flag is on (FIGS. 12 and 13B). In the example, a speaker display reproduction screen W104 (FIG. 13B) in which the luminance of the second identification image I2) is improved is generated.
In addition, if the display mode of the identification image corresponding to the speaker in the period in which the “keyword” flag is on is different from the display mode of the identification image, the brightness is not limited to the above-described improvement. Other methods may be adopted.

また、処理フローは、上述した実施の形態1,2で説明したフローチャートにおける処理の順序に限られず、矛盾のない範囲で変更しても構わない。
さらに、本明細書においてフローチャートを用いて説明した処理のアルゴリズムは、プログラムとして記述することが可能である。このようなプログラムは、コンピュータ内部の記録部に記録してもよいし、コンピュータ読み取り可能な記録媒体に記録してもよい。プログラムの記録部または記録媒体への記録は、コンピュータまたは記録媒体を製品として出荷する際に行ってもよいし、通信ネットワークを介したダウンロードにより行ってもよい。
The processing flow is not limited to the processing order in the flowcharts described in the first and second embodiments, and may be changed within a consistent range.
Furthermore, the processing algorithm described using the flowcharts in this specification can be described as a program. Such a program may be recorded on a recording unit inside the computer, or may be recorded on a computer-readable recording medium. Recording of the program in the recording unit or recording medium may be performed when the computer or recording medium is shipped as a product, or may be performed by downloading via a communication network.

上述した実施の形態では、分かり易く、ICレコーダ、録音機等の検索技術を例にとって説明したが、ビデオカメラ等で連携する動画撮影システムであれば、音声と画像が関連付けられているので、音声記録機能付きカメラ等にも応用が可能である。撮影画像を話者のテンションに基づいて記録、検索、タグ付けすることが可能である。   In the above-described embodiment, the description has been made by taking the search technology such as an IC recorder and a recorder as an example for easy understanding. However, in the case of a video shooting system linked with a video camera or the like, audio and images are associated with each other. It can also be applied to cameras with recording functions. It is possible to record, search, and tag captured images based on speaker tension.

また、一般のカメラのみならず、車載カメラでは、車内の会話によって撮影したり画像を検索するような用途もあり、ドライバーを判定したり、ドライブしながらのハンズフリー撮影を行うことが可能である。また、監視カメラや検査用カメラ、医療用のカメラでは、特定の人物の会話に関係する画像を検索することができる。検査装置に応用した場合でも、検査対象の画像のみならず、検査している風景などについても、会話に基づいて重要シーンをチェックでき、本発明ならではの効果を期待することができる。   In addition to general cameras, in-vehicle cameras can also be used for taking pictures and searching for images through in-car conversations, so it is possible to determine the driver and perform hands-free photography while driving. . In addition, surveillance cameras, inspection cameras, and medical cameras can search for images related to a conversation of a specific person. Even when applied to an inspection apparatus, not only the image to be inspected but also the scenery being inspected can check the important scene based on the conversation, and the effect unique to the present invention can be expected.

1,1A,1B・・・電子機器;2・・・サーバ;10・・・撮像部;11・・・第1音声データ生成部;12・・・第2音声データ生成部;13・・・操作部;14・・・表示部;15・・・時計部;16・・・メモリ部;17・・・記録部;18・・・音声出力部;19,19A,19B・・・機器側制御部;20・・・機器側通信部;21・・・サーバ側通信部;22・・・音声データベース;23・・・サーバ側通信制御部;100・・・音声処理システム;111・・・第1マイク;112・・・第1増幅部;113・・・第1A/D変換部;121・・・第2マイク;122・・・第2増幅部;123・・・第2A/D変換部;181・・・D/A変換部;182・・・増幅器;183・・・スピーカ;191・・・音声データ取得部;192・・・音声データ解析部;193・・・参照情報生成部;194・・・再生画面生成部;195・・・表示制御部;196・・・音声制御部;197・・・撮像制御部;198・・・機器側通信制御部;231・・・サーバ側通信制御部;232・・・端末判定部;233・・・音声データ記録制御部;234・・・音声データ解析部;235・・・参照情報生成部;1921・・・対象物特定部;1922・・・特徴成分判別部;2341・・・対象物特定部;2342・・・特徴成分判別部;Ax・・・軸;I1〜I3・・・第1〜第3識別画像;KW・・・キーワード入力部;L1,L2・・・女性;LF1,LF2・・・女性画像;M・・・男性;MF・・・男性画像;N・・・インターネット網;SC・・・時間スケール;SL・・・スライダ;TB・・・タイムバー;W100〜W104・・・話者表示再生画面   DESCRIPTION OF SYMBOLS 1, 1A, 1B ... Electronic device; 2 ... Server; 10 ... Imaging part; 11 ... 1st audio | voice data generation part; 12 ... 2nd audio | voice data generation part; Operation unit; 14 ... display unit; 15 ... clock unit; 16 ... memory unit; 17 ... recording unit; 18 ... audio output unit; 19, 19A, 19B ... device side control 20: device side communication unit; 21 ... server side communication unit; 22 ... voice database; 23 ... server side communication control unit; 100 ... voice processing system; 1st microphone; 112 ... 1st amplification part; 113 ... 1st A / D conversion part; 121 ... 2nd microphone; 122 ... 2nd amplification part; 123 ... 2nd A / D conversion part 181 ... D / A converter; 182 ... Amplifier; 183 ... Speaker; 191 ... Audio data Obtaining unit: 192: Audio data analyzing unit; 193: Reference information generating unit; 194: Reproduction screen generating unit; 195 ... Display control unit: 196 ... Audio control unit: 197 ... Imaging control unit: 198: Device side communication control unit; 231: Server side communication control unit; 232: Terminal determination unit; 233: Audio data recording control unit: 234: Audio data analysis unit 235 ... Reference information generation unit; 1921 ... Object identification unit; 1922 ... Feature component discrimination unit; 2341 ... Object identification unit; 2342 ... Feature component discrimination unit; Ax ... Axis; I1-I3 ... 1st-3rd identification image; KW ... Keyword input part; L1, L2 ... Female; LF1, LF2 ... Female image; M ... Male;・ Male image; N ... Internet network; SC ... Time scan Lumpur; SL ··· slider; TB ··· time bar; W100~W104 ··· speaker display playback screen

Claims (10)

音声データを取得する音声データ取得部と、
前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析部と、
前記テンションの高い成分と前記音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成部とを備え
前記音声データ解析部は、
前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定す
ことを特徴とする音声処理装置。
An audio data acquisition unit for acquiring audio data;
An audio data analysis unit that analyzes the audio data and discriminates a high tension component of the audio included in the audio data;
A reference information generation unit that associates the high tension component and the time during which the high tension component is included in the audio data, and generates reference information used when generating the reproduction screen of the audio data ;
The voice data analysis unit
Analyzing the voice data, for each predetermined time range in the voice data, identifying the speaker that has produced the voice contained in the voice data and determining the high tension component, and identifying the speaker If it is not possible to do, and characterized in that the voice of the speaker time range that can not be identified, you estimated that shortly before or speaker identified in the time range immediately uttered for that time range Voice processing device.
前記音声データ解析部は、
前記音声データを解析して、前記音声データに含まれる音声を発した話者を特定し、当該特定した話者毎に、前記テンションの高い成分の有無を判別する
ことを特徴とする請求項1に記載の音声処理装置。
The voice data analysis unit
2. The voice data is analyzed to identify a speaker who has produced a voice included in the voice data, and the presence or absence of the high tension component is determined for each of the identified speakers. The voice processing apparatus according to 1.
前記音声データ解析部は、
話者の感情的な高ぶり、複数の人物の声の相対的な大きさの関係、話者が語る言葉のペースの一定度、話者のスピード、音声の音量、音声の周波数、音声の音素成分の時間密度、または特定の音声成分、に基づいて、前記テンションの高い成分を検出して、話者のテンションを判定する
ことを特徴とする請求項1または2に記載の音声処理装置。
The voice data analysis unit
Speaker's emotional height, relative loudness of multiple people's voices, constant pace of words spoken by the speaker, speaker speed, voice volume, voice frequency, phoneme component of voice The speech processing apparatus according to claim 1, wherein the tension of the speaker is determined by detecting the component having a high tension based on the time density of the voice or a specific voice component.
前記参照情報生成部によって生成された参照情報に基づいて、前記時間に関連付けられたテンションを識別するための識別画像を配置した話者表示再生画面を生成する再生画面生成部を更に有する
ことを特徴とする請求項1〜3のいずれか一つに記載の音声処理装置。
And a reproduction screen generation unit that generates a speaker display reproduction screen in which an identification image for identifying a tension associated with the time is arranged based on the reference information generated by the reference information generation unit. The speech processing apparatus according to any one of claims 1 to 3.
前記再生画面生成部は、
前記テンションを識別するための識別画像に、話者を識別するために表示するアイコンを生成する
ことを特徴とする請求項4に記載の音声処理装置。
The playback screen generation unit
The voice processing apparatus according to claim 4, wherein an icon to be displayed for identifying a speaker is generated in the identification image for identifying the tension.
前記識別画像は、
前記時間に対して前記音声データに含まれる音声が対応するように表示され、前記話者のテンションを示す期間が他の期間よりも幅が大きく表示されるデータとして生成される
ことを特徴とする請求項5に記載の音声処理装置。
The identification image is
The voice included in the voice data is displayed so as to correspond to the time, and the period indicating the speaker's tension is generated as data that is displayed wider than other periods. The speech processing apparatus according to claim 5.
前記識別画像は、
前記時間に対して前記音声データに含まれる音声が対応するように表示され、前記話者のテンションを示す期間がアナログ的に段階的に他の期間よりも幅が大きく表示されるデータとして生成される
ことを特徴とする請求項5に記載の音声処理装置。
The identification image is
The voice included in the voice data is displayed so as to correspond to the time, and the period indicating the speaker's tension is generated as data that is displayed in a stepwise manner that is wider in analog than the other periods. The speech processing apparatus according to claim 5, wherein:
キーワードの入力操作を受け付ける操作受付部を備え、
前記再生画面生成部は、
前記テンションの高い成分に基づく特定の音声が前記操作受付部にて受け付けた前記キーワードに一致した場合に、当該テンションの高い成分を識別するための前記識別画像を従前の識別画像とは異なる表示態様とする
ことを特徴とする請求項4または5に記載の音声処理装置。
It has an operation reception unit that accepts keyword input operations,
The playback screen generation unit
When the specific sound based on the high tension component matches the keyword received by the operation reception unit, the identification image for identifying the high tension component is different from the previous identification image. The speech processing apparatus according to claim 4 or 5, wherein:
音声処理装置が行う音声処理方法において、
音声データを取得する音声データ取得ステップと、
前記音声データを解析して、当該音声データに含まれる音声のうち、テンションの高い成分を判別する音声データ解析ステップと、
前記テンションの高い成分と当該音声データにおける当該テンションの高い成分が含まれる時間とを関連付け、前記音声データの再生画面を生成する際に用いられる参照情報を生成する参照情報生成ステップとを含み、
前記音声データ解析ステップでは、
前記音声データを解析して、当該音声データ中の所定の時間範囲毎に、当該音声データに含まれる音声を発した話者の特定及び前記テンションの高い成分の判別を行い、前記話者を特定することができない場合には、当該話者を特定することができない時間範囲の音声を、当該時間範囲に対する直前または直後の時間範囲で特定した話者が発したものと推定する
ことを特徴とする音声処理方法。
In the speech processing method performed by the speech processing apparatus,
An audio data acquisition step for acquiring audio data;
An audio data analysis step of analyzing the audio data and discriminating a high tension component of the audio included in the audio data;
Associating the time and included high component of the tension in the high component and the audio data of the tension, see contains a reference information generating step of generating a reference information used in generating the playback screen of the voice data,
In the voice data analysis step,
Analyzing the voice data, for each predetermined time range in the voice data, identifying the speaker that has produced the voice contained in the voice data and determining the high tension component, and identifying the speaker When it is not possible to do so, it is presumed that the voice in the time range in which the speaker cannot be specified is emitted by the speaker specified in the time range immediately before or immediately after the time range. Audio processing method.
請求項に記載の音声処理方法を音声処理装置に実行させる
ことを特徴とする音声処理プログラム。
A speech processing program for causing a speech processing device to execute the speech processing method according to claim 9 .
JP2014163742A 2014-08-11 2014-08-11 Audio processing apparatus, audio processing method, and audio processing program Active JP6392578B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014163742A JP6392578B2 (en) 2014-08-11 2014-08-11 Audio processing apparatus, audio processing method, and audio processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014163742A JP6392578B2 (en) 2014-08-11 2014-08-11 Audio processing apparatus, audio processing method, and audio processing program

Publications (3)

Publication Number Publication Date
JP2016038546A JP2016038546A (en) 2016-03-22
JP2016038546A5 JP2016038546A5 (en) 2017-07-06
JP6392578B2 true JP6392578B2 (en) 2018-09-19

Family

ID=55529639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014163742A Active JP6392578B2 (en) 2014-08-11 2014-08-11 Audio processing apparatus, audio processing method, and audio processing program

Country Status (1)

Country Link
JP (1) JP6392578B2 (en)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266632A (en) * 1993-03-12 1994-09-22 Toshiba Corp Method and device for processing information of electronic conference system
JP3676969B2 (en) * 2000-09-13 2005-07-27 株式会社エイ・ジー・アイ Emotion detection method, emotion detection apparatus, and recording medium
JP4610543B2 (en) * 2006-11-02 2011-01-12 日本電信電話株式会社 Period extracting device, period extracting method, period extracting program implementing the method, and recording medium storing the program
JP4812733B2 (en) * 2007-11-01 2011-11-09 日本電信電話株式会社 Information editing apparatus, information editing method, information editing program, and recording medium recording the program
JP2010054991A (en) * 2008-08-29 2010-03-11 Yamaha Corp Recording device
EP2343668B1 (en) * 2010-01-08 2017-10-04 Deutsche Telekom AG A method and system of processing annotated multimedia documents using granular and hierarchical permissions
JP2011221627A (en) * 2010-04-06 2011-11-04 Seiko Epson Corp Customer service support device, customer service support method and program
JP2013222347A (en) * 2012-04-17 2013-10-28 Canon Inc Minute book generation device and minute book generation method

Also Published As

Publication number Publication date
JP2016038546A (en) 2016-03-22

Similar Documents

Publication Publication Date Title
JP6819672B2 (en) Information processing equipment, information processing methods, and programs
CN110634483B (en) Man-machine interaction method and device, electronic equipment and storage medium
US10409547B2 (en) Apparatus for recording audio information and method for controlling same
CN106464939A (en) Method and device for playing sound effect
JP6585733B2 (en) Information processing device
US10089980B2 (en) Sound reproduction method, speech dialogue device, and recording medium
KR102628211B1 (en) Electronic apparatus and thereof control method
WO2017141530A1 (en) Information processing device, information processing method and program
EP2503545A1 (en) Arrangement and method relating to audio recognition
WO2021153101A1 (en) Information processing device, information processing method, and information processing program
JP6678315B2 (en) Voice reproduction method, voice interaction device, and voice interaction program
JP2014149571A (en) Content search device
JP6392578B2 (en) Audio processing apparatus, audio processing method, and audio processing program
JP4772315B2 (en) Information conversion apparatus, information conversion method, communication apparatus, and communication method
CN112235183B (en) Communication message processing method and device and instant communication client
CN111696566B (en) Voice processing method, device and medium
CN111179943A (en) Conversation auxiliary equipment and method for acquiring information
KR101562901B1 (en) System and method for supporing conversation
CN113066513B (en) Voice data processing method and device, electronic equipment and storage medium
JP7271821B2 (en) Cloud voice conversion system
CN111696565B (en) Voice processing method, device and medium
US20210082427A1 (en) Information processing apparatus and information processing method
JP7136656B2 (en) Information processing system and program
CN112331179A (en) Data processing method and earphone accommodating device
CN117133279A (en) Information processing device, information processing method, storage medium, and computer device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170522

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180823

R151 Written notification of patent or utility model registration

Ref document number: 6392578

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250