JP2008102538A - Storage/reproduction device and control method of storing/reproducing device - Google Patents

Storage/reproduction device and control method of storing/reproducing device Download PDF

Info

Publication number
JP2008102538A
JP2008102538A JP2007291765A JP2007291765A JP2008102538A JP 2008102538 A JP2008102538 A JP 2008102538A JP 2007291765 A JP2007291765 A JP 2007291765A JP 2007291765 A JP2007291765 A JP 2007291765A JP 2008102538 A JP2008102538 A JP 2008102538A
Authority
JP
Japan
Prior art keywords
speaker
information
storage
signal
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007291765A
Other languages
Japanese (ja)
Inventor
Izuru Tanaka
出 田中
Kenichi Iida
健一 飯田
Satoshi Mihara
悟史 三原
Eiichi Yamada
榮一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007291765A priority Critical patent/JP2008102538A/en
Publication of JP2008102538A publication Critical patent/JP2008102538A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To quickly find out a target part in voice data to be processed and use it, without causing troubles to user. <P>SOLUTION: A position of a speaker is identified by a voice signal processing part 136 from a voice signal part detected from signals captured through microphones 131(1) and 131(2), and a changing point of a voice signal to be processed is detected by a voice characteristic analysis part 143 for taking into consideration the speaker's location. Signals, captured through the microphones 131(1) and 131(2), are converted into digital signals and are recorded to a data storage device 111, together with the information on the detected switching point of the speaker. When the information, stored in the data storage device 111, is reproduced, display information relating to the stored speaker is displayed on an LCD 135, in synchronization with the reproduction of the digital signals, based on the information on the switching point of the speaker. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

この発明は、例えば、IC(Integrated Circuit)レコーダ、MD(Mini Disc(登録商標))レコーダ、パーソナルコンピュータなどの音声信号を処理する種々の装置、この装置で用いられる方法に関する。   The present invention relates to various apparatuses for processing audio signals such as an IC (Integrated Circuit) recorder, an MD (Mini Disc (registered trademark)) recorder, and a personal computer, and a method used in the apparatus.

例えば、後に記す特許文献1に開示されているように、録音された音声データに対して音声認識を行って、これをテキストデータに変換し、自動的に議事録を作成するようにする議事録作成装置が提案されている。このような技術を用いることによって、人手を介すことなく、会議の議事録を迅速に作成することが可能となる。しかし、録音した全ての音声データに基づいた議事録を作成するまでもなく、重要な部分のみの議事録を作成するようにしたい場合もある。このため、録音した音声データから目的とする部分を探し出す必要が生じる。   For example, as disclosed in Patent Document 1 to be described later, the minutes for performing voice recognition on the recorded voice data, converting the voice data into text data, and automatically creating the minutes A creation device has been proposed. By using such a technique, it is possible to quickly create the minutes of the meeting without human intervention. However, there is a case where it is not necessary to create a minutes based on all the recorded audio data, and it is desirable to create a minutes of only the important part. For this reason, it is necessary to find a target portion from the recorded audio data.

例えば、ICレコーダやMDレコーダなどを用いて長時間の会議などの様子を録音した場合、記録された音声データから聞きたい場所を探し出すには、その音声データを再生し、再生音声を聴取するようにしなければならない。もちろん、早送りや早戻しなどの機能を用いて、目的とする部分を探すようにすることも可能であるが、手間や時間がかかる場合が多い。このため、「検索を容易にするための目印」を、録音した音声データに埋め込むようにする(付加するようにする)ことができるようにした機能を備えた録音装置が提供されている。例えば、MDレコーダなどにおいては、トラックマークを付加する機能として実現されている。
特開平2−206825号公報
For example, when a situation such as a long-time meeting is recorded using an IC recorder or an MD recorder, in order to find a place to be heard from the recorded audio data, the audio data is reproduced and the reproduced audio is listened to. Must be. Of course, it is possible to search for a target portion by using a function such as fast-forward or fast-reverse, but it often takes time and effort. For this reason, there is provided a recording apparatus having a function capable of embedding (adding) a “mark for facilitating search” in recorded audio data. For example, an MD recorder or the like is realized as a function for adding a track mark.
JP-A-2-206825

ところが、上述したように、「検索を容易にするための目印」をデータに付加するようにする機能は、ユーザの手動操作により用いることができるものであり、ユーザの操作が無ければ、目印を付加することができない。したがって、録音中に重要であると判断した部分に目印を付す操作を行おうと思っていても、会議に集中している場合などにおいては、目印を付すための操作を忘れてしまう場合もあると考えられる。   However, as described above, the function of adding “a mark for easy search” to data can be used by a user's manual operation. If there is no user's operation, the mark is added. Cannot be added. Therefore, even if you want to mark an important part during recording, you might forget the mark-marking operation if you are concentrating on a meeting. Conceivable.

また、注目すべき発言部分に目印を付けられたとしても、目印を埋め込む操作は注目すべき発言を聞いたときに行われるので、目印は注目の発言の後ろに記録される。そのため、ユーザが注目の発言を聞くには、再生位置を目印のところに移動させたあと、少し前に戻す操作をしなければならない。希望の場所の先に進み過ぎたり、戻り過ぎたりして、この操作を繰り返さなければならないのは、ユーザにとってとても面倒でありストレスのたまる作業である。   Further, even if a mark is added to a noticeable speech part, the mark embedding operation is performed when a noteworthy comment is heard, so that the mark is recorded after the noticeable comment. Therefore, in order for the user to listen to the remarks of interest, the user has to move the playback position to the mark and then move it back a little. It is a very cumbersome and stressful operation for the user to repeat this operation by going too far beyond the desired place or returning too much.

また、目印がついている場所がどんな内容であるかは聞いてみるまで分からない。聞いてみて目的の場所でなければ、次の目印へと移動させる操作を目的の場所に達するまで繰り返さなければならず、これもまた手間のかかる作業である。このように、「検索を容易にするための目印」をデータに付加するようにする機能は、便利なものであるが、ユーザの操作がおぼつかない場合などにおいては、音声データの目的とする部分に目印を付す機能を十分に機能させることができない。   Also, I don't know until I ask what the place is marked with. If it is not the target location after listening, the operation of moving to the next landmark must be repeated until the target location is reached, which is also a time-consuming work. As described above, the function of adding “a mark for facilitating search” to the data is convenient. However, in the case where the user's operation is unclear, it is possible to add to the target portion of the audio data. The function of attaching a mark cannot be sufficiently functioned.

以上のことにかんがみ、この発明は、ユーザの手を煩わせることなく、処理対象の音声信号中の目的とする部分を迅速に見つけ出して利用することができるようにする装置、方法を提供することを目的とする。   In view of the above, the present invention provides an apparatus and method that can quickly find and use a target portion in an audio signal to be processed without bothering the user. With the goal.

上記課題を解決するため、請求項1に記載の発明の記憶再生装置は、
複数のマイクと、
上記マイクから入力される信号をデジタル信号へ変換するデジタル変換手段と、
上記デジタル信号に変換された信号から音声信号部分を検出する音声信号検出手段と、
上記音声信号検出手段によって検出された複数のマイクによって集音された音声信号部分に基づいて話者の位置を特定するとともに話者の変化点を検出するための話者検出手段と、
話者を特定するデータと話者に関する話者関連表示情報とを関連づけて話者毎に記憶する話者情報記憶手段と、
記憶媒体に上記デジタル信号と上記話者の変化点の情報を記憶させる記憶制御手段と、
情報表示がされる表示手段と、
上記記憶媒体に記憶されたデジタル信号と上記話者の変化点の情報を再生する再生手段と、
話者の変化点の情報に基づいて、上記デジタル信号の再生に同期して話者関連表示情報を上記表示手段に表示する制御手段と
を備えることを特徴とする。
In order to solve the above-mentioned problem, a storage / reproduction device according to claim 1 is provided.
Multiple microphones,
Digital conversion means for converting a signal input from the microphone into a digital signal;
Audio signal detection means for detecting an audio signal portion from the signal converted into the digital signal;
Speaker detection means for specifying the position of the speaker based on the audio signal parts collected by the plurality of microphones detected by the audio signal detection means and detecting a change point of the speaker;
Speaker information storage means for associating data for identifying a speaker and speaker-related display information related to the speaker for each speaker;
Storage control means for storing information on the digital signal and the change point of the speaker in a storage medium;
Display means for displaying information;
Reproducing means for reproducing the digital signal stored in the storage medium and the information of the change point of the speaker;
And control means for displaying speaker-related display information on the display means in synchronism with the reproduction of the digital signal based on information on the change point of the speaker.

この請求項1に記載の発明の記憶再生装置によれば、複数のマイクを備えており、当該複数のマイクのそれぞれを通じて入力される信号は、デジタル変換手段によりデジタル信号に変換され、これらのデジタル信号から音声信号検出手段により音声信号部分が検出される。そして、各マイクによって集音された信号から検出された音声信号部分に基づいて、話者検出手段によって、話者の位置が特定されると共に、話者の変化点が検出するようにされる。そして、デジタル変換手段によって変換されたデジタル信号と、話者検出手段によって検出された話者の変化点の情報が記憶制御手段の制御により所定の記録媒体に記憶される。   According to the recording / reproducing apparatus of the first aspect of the present invention, a plurality of microphones are provided, and a signal input through each of the plurality of microphones is converted into a digital signal by the digital conversion means. The audio signal portion is detected from the signal by the audio signal detecting means. Then, based on the audio signal portion detected from the signal collected by each microphone, the speaker detecting means specifies the position of the speaker and detects the change point of the speaker. Then, the digital signal converted by the digital conversion means and the information on the change point of the speaker detected by the speaker detection means are stored in a predetermined recording medium under the control of the storage control means.

そして、所定の記録媒体に記録されたデジタル信号と話者の変化点の情報は、再生手段によって再生するようにされるが、話者情報記憶手段には、話者を特定するデータと話者に関連する話者関連表示情報が関連付けられて話者毎に記憶されており、制御手段によって、話者の変換点の情報に基づいて、デジタル信号の再生に同期して話者関連表示情報が表示手段に表示するようにされる。   The digital signal recorded on the predetermined recording medium and the information about the speaker change point are reproduced by the reproducing means. The speaker information storage means includes data for identifying the speaker and the speaker. The speaker related display information is stored for each speaker in association with each other. Based on the conversion point information of the speaker, the speaker related display information is synchronized with the reproduction of the digital signal by the control means. It is displayed on the display means.

これにより、複数のマイクを用いることにより、話者の位置をも検出され、この検出された話者の位置をも考慮されて、話者の変化点を正確に検出することができるようにされる。そして、話者の変化点毎に、話者関連表示情報が表示手段に表示するようにされ、話者が変わる毎に、その話者が誰であるのかを確実かつ迅速に知ることができるようにされる。   Thus, by using a plurality of microphones, the position of the speaker is also detected, and the change point of the speaker can be accurately detected in consideration of the detected position of the speaker. The And, for each change point of the speaker, speaker related display information is displayed on the display means so that each time the speaker changes, it is possible to surely and quickly know who the speaker is. To be.

本発明によれば、長時間の会議を録音しても話者が切り換わるごとに切り替わりマーク(目印)が自動的に付加するようにされるので、議事録を作成する際に、発言の検索性を向上させ、目的とする話者の発言部分を繰り返し再生するなどのことが簡単かつ迅速に行えるようになる。   According to the present invention, even when a long meeting is recorded, a switching mark (mark) is automatically added every time a speaker is switched. This makes it possible to easily and quickly replay the speech portion of the target speaker.

また、変化点における話者を識別し、その識別した話者を示す情報と音声データとの変化点とを対応付けて管理することができるので、音声データを再生することなく、特定の話者の発言部分を簡単かつ迅速に探し出すことができる。   In addition, it is possible to identify the speaker at the change point and manage the information indicating the identified speaker and the change point of the voice data in association with each other, so that a specific speaker can be managed without reproducing the voice data. Can be easily and quickly located.

また、これまで議事録作成者の記憶に頼っていた部分を排除し、手間と時間がかかっていた議事録作成作業の効率を向上させることができる。また、議事録自体の作成を省略し、検索性の高い、音声データの形式の議事録として録音データを用いるようにすることができる。   In addition, it is possible to eliminate the portion that has been relied on the memory of the minutes creator so far, and to improve the efficiency of the minutes creation work, which took time and effort. In addition, it is possible to omit the creation of the minutes itself and use the recorded data as minutes of the audio data format with high searchability.

以下、図を参照しながら、この発明の一実施の形態について説明する。以下に説明する実施の形態においては、この発明を音声信号の記録再生装置であるICレコーダに適用した場合を例にして説明する。   Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In the embodiments described below, the present invention will be described by taking as an example a case where the present invention is applied to an IC recorder which is a recording / reproducing apparatus for audio signals.

[第1の実施の形態]
[ICレコーダの構成と動作の概要]
図1は、この第1の実施の形態の記録再生装置であるICレコーダを説明するためのブロック図である。図1に示すように、この実施の形態のICレコーダは、CPU(Central Processing Unit)101、プログラムや各種のデータが記憶されているROM(Read Only Memory)102、主に作業領域として用いられるRAM(Random Access Memory)103がCPUバス104を通じて接続されて、マイクロコンピュータの構成とされた制御部100を備えている。なお、RAM103は、後述もするように、圧縮データ領域103(1)と、PCM(Pulse Code Modulation)領域103(2)とが設けられている。
[First Embodiment]
[Overview of IC recorder configuration and operation]
FIG. 1 is a block diagram for explaining an IC recorder which is a recording / reproducing apparatus according to the first embodiment. As shown in FIG. 1, an IC recorder of this embodiment includes a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102 storing programs and various data, and a RAM mainly used as a work area. A (Random Access Memory) 103 is connected via a CPU bus 104 and includes a control unit 100 configured as a microcomputer. Note that the RAM 103 is provided with a compressed data area 103 (1) and a PCM (Pulse Code Modulation) area 103 (2), as will be described later.

制御部100には、ファイル処理部110を通じてデータ記憶装置111が接続され、入力処理部120を通じてキー操作部121が接続されている。また、制御部100には、アナログ/デジタルコンバータ(以下、A/Dコンバータと略称する。)132を通じてマイクロホン131が接続され、デジタル/アナログコンバータ(以下、D/Aコンバータと略称する。)134を通じてスピーカ133が接続されている。また、制御部100には、LCD(Liquid Crystal Display)135が接続されている。なお、この実施の形態において、LCD135は、LCDコントローラの機能をも備えたものである。   A data storage device 111 is connected to the control unit 100 through a file processing unit 110, and a key operation unit 121 is connected through an input processing unit 120. Further, a microphone 131 is connected to the control unit 100 through an analog / digital converter (hereinafter abbreviated as A / D converter) 132 and through a digital / analog converter (hereinafter abbreviated as D / A converter) 134. A speaker 133 is connected. Further, an LCD (Liquid Crystal Display) 135 is connected to the control unit 100. In this embodiment, the LCD 135 also has an LCD controller function.

さらに、制御部100には、データ圧縮処理部141、データ伸張処理部142、音声特徴解析部143、通信インターフェース(以下、通信I/Fと略称する。)144が接続されている。図1において、2重線で示したデータ圧縮処理部141、データ伸張処理部142、音声特徴解析部143は、制御部100のCPU101で実行されるソフトウェア(プログラム)によっても、その機能を実現することができるものである。   Further, a data compression processing unit 141, a data expansion processing unit 142, an audio feature analysis unit 143, and a communication interface (hereinafter abbreviated as communication I / F) 144 are connected to the control unit 100. In FIG. 1, the data compression processing unit 141, the data expansion processing unit 142, and the audio feature analysis unit 143 indicated by double lines also realize their functions by software (programs) executed by the CPU 101 of the control unit 100. It is something that can be done.

また、この実施の形態において、通信インターフェース144は、例えば、USB(Universal Serial Bus)やIEEE(Institute of Electrical and Electronics Engineers)1394などのデジタルインターフェースであり、接続端子145に接続されるパーソナルコンピュータ、デジタルカメラなどの種々の電子機器との間でデータの送受を行うことができるものである。   In this embodiment, the communication interface 144 is a digital interface such as USB (Universal Serial Bus) or IEEE (Institute of Electrical and Electronics Engineers) 1394, and is a personal computer connected to the connection terminal 145, digital Data can be exchanged with various electronic devices such as cameras.

この第1の実施の形態のICレコーダは、キー操作部121のRECキー(録音キー)211が押下操作されると、CPU101が各部を制御して録音処理を行う。この場合、マイクロホン131で集音され、A/Dコンバータ132でデジタル変換されると共に、データ圧縮処理部141の機能によりデータ圧縮された音声信号が、ファイル変換部110を通じてデータ記憶装置111の所定の記憶領域に記録される。   In the IC recorder of the first embodiment, when the REC key (recording key) 211 of the key operation unit 121 is pressed, the CPU 101 controls each unit to perform recording processing. In this case, a sound signal collected by the microphone 131 and digitally converted by the A / D converter 132 and data-compressed by the function of the data compression processing unit 141 is transmitted to the predetermined data storage device 111 through the file conversion unit 110. Recorded in the storage area.

この第1の実施の形態のデータ記憶装置111は、フラッシュメモリ、あるいは、フラッシュメモリを用いたメモリカードであり、後述もするように、データベース領域111(1)と音声ファイル111(2)が設けられたものである。   The data storage device 111 according to the first embodiment is a flash memory or a memory card using a flash memory, and a database area 111 (1) and an audio file 111 (2) are provided as will be described later. It is what was done.

録音処理時において、この第1の実施の形態のICレコーダは、音声特徴解析部143の機能により、集音して録音(記録)する音声信号について、所定の処理単位毎に特徴解析を行い、特徴が変化したことを検出した場合に、その特徴が変化した時点にマーク(目印)を付すようにしている。そして、このマークを利用して、録音した音声信号から目的とする音声信号部分の検索を迅速に行うことができるようにしている。   During the recording process, the IC recorder according to the first embodiment performs a feature analysis for each predetermined processing unit on the sound signal to be collected and recorded (recorded) by the function of the sound feature analysis unit 143. When it is detected that a feature has changed, a mark (mark) is added at the time when the feature has changed. By using this mark, the target audio signal portion can be quickly searched from the recorded audio signal.

図2は、集音して録音する音声信号の変化点にマークを付すようにする処理の概要を説明するための図である。この第1の実施の形態のICレコーダにおいては、上述もしたように、マイクロホン131により集音された音声信号について、所定の処理単位毎に特徴解析を行う。   FIG. 2 is a diagram for explaining the outline of the process for marking a change point of an audio signal to be collected and recorded. In the IC recorder according to the first embodiment, as described above, the feature analysis is performed for each predetermined processing unit on the sound signal collected by the microphone 131.

そして、直前の特徴解析結果と比較することによって、無音部分や雑音部分から話音声部分に変化した変化点、あるいは、話音声部分であっても、話者が変化した変化点を検出し、当該音声信号上の変化点の位置(時間)を特定する。そして、その特定した位置を変化点情報(マーク情報)としてデータ記憶装置111に記憶しておくようにする。このように、音声信号上の変化点の位置を示す変化点情報を保持することが、集音して録音する音声信号に対してマークを付すことになる。   Then, by comparing with the previous feature analysis result, the change point changed from the silent part or the noise part to the spoken voice part, or the change point where the speaker changed even in the spoken voice part, The position (time) of the change point on the audio signal is specified. Then, the specified position is stored in the data storage device 111 as change point information (mark information). Thus, holding the change point information indicating the position of the change point on the audio signal marks the audio signal to be collected and recorded.

具体的には、図2に示すように、会議の様子を録音するようにした場合、録音開始から10秒後に、Aさんが発言を始めたとする。この場合、Aさんの発言の開始前は、無音、あるいは、ざわめきや椅子を引く音、テーブルに何かがあたる音など、明瞭な話音声とは異なるいわゆる雑音などの無意味な音声が集音されおり、Aさんが発言を始め、その話音声が集音されることにより、集音した音声信号の特徴解析結果は、Aさんが発言を始める前とは明らかに異なることになる。   Specifically, as shown in FIG. 2, when recording the state of the conference, it is assumed that Mr. A starts speaking 10 seconds after the start of recording. In this case, before Mr. A's speech starts, silent or non-sensed sounds such as noise that is different from clear speech, such as a noise or a noise that pulls a chair, or a sound that hits a table are collected. Therefore, when Mr. A starts speaking and the speech is collected, the characteristic analysis result of the collected voice signal is clearly different from that before Mr. A starts speaking.

この集音して録音する音声信号の変化点を音声特徴解析部143において検出し、その変化点の音声信号上の位置を特定(取得)して、この特定した変化点情報(音声信号上の特定した位置情報)を図2におけるマークMK1としてデータ記憶装置111に記憶保持する。なお、図2においては、録音開始からの経過時間を変化点情報として記憶保持するようにしている場合の例を示している。   The voice feature analysis unit 143 detects a change point of the voice signal to be collected and recorded, specifies (acquires) the position of the change point on the voice signal, and specifies the specified change point information (on the voice signal). The specified position information) is stored and held in the data storage device 111 as the mark MK1 in FIG. FIG. 2 shows an example in which the elapsed time from the start of recording is stored and held as change point information.

そして、Aさんの発言が終了した後、少し間をおいて、Bさんが発言を始めたとする。このBさんの発言開始の直前も、無音あるいは雑音である。この場合にも、Bさんが発言を始め、その話音声が集音されることにより、集音した音声信号の特徴解析結果は、Bさんが発言を始める前とは明らかに異なることになり、図2において、マークMK2が示すように、Bさんの発言の開始部分にマークを付すように、変化点情報(マークMK2)をデータ記憶装置111に記憶保持する。   Then, suppose that Mr. B started speaking after a while after Mr. A's speech ended. Immediately before Mr. B starts speaking, it is silent or noisy. Also in this case, when Mr. B starts speaking and the speech is collected, the characteristic analysis result of the collected voice signal is clearly different from that before Mr. B started speaking. In FIG. 2, as indicated by the mark MK2, the change point information (mark MK2) is stored and held in the data storage device 111 so that the start portion of Mr. B's speech is marked.

さらに、Bさんの発言の途中でCさんが割って入ったような場合も発生する。この場合には、Bさんの話し声と、Cさんの話し声とでは、異なっているために、集音した音声信号の解析結果も異なることになり、図2において、マークMK3が示すように、Cさんの発言の開始部分にマークを付すように、変化点情報(マークMK3)をデータ記憶装置111に記憶保持する。   Furthermore, a case may occur where Mr. C breaks in the middle of Mr. B's statement. In this case, since the voice of Mr. B is different from the voice of Mr. C, the analysis result of the collected voice signal is also different. As shown by mark MK3 in FIG. The change point information (mark MK3) is stored and held in the data storage device 111 so that a mark is attached to the start part of the remark.

このように、この実施の形態のICレコーダは、録音処理時において、集音した音声信号の特徴解析を行い、特徴が変化した音声信号上の位置を記憶保持することによって、音声信号の特徴が変化した時点にマークを付すようにすることができるようにしたものである。   As described above, the IC recorder according to this embodiment performs the feature analysis of the collected sound signal during the recording process, and stores and holds the position on the sound signal in which the feature has been changed. The mark can be attached at the time of change.

なお、図2において、マークMK1、MK2、MK3において、その他という欄が示すように、例えば、発言部分を音声認識してテキストデータに変換することにより、そのテキストデータを関連付けて記憶保持するようにしたり、その他の関連情報を一緒に記憶保持させるようにしたりすることもできるようにしている。   In FIG. 2, as indicated by the column “other” in the marks MK1, MK2, and MK3, for example, by recognizing a speech portion and converting it into text data, the text data is associated and stored. Or other related information can be stored and held together.

そして、この第1の実施の形態のICレコーダは、キー操作部121のPLAYキー(再生キー)212が押下操作されると、CPU101が各部を制御して再生処理を行う。すなわち、データ圧縮されてデータ記憶装置111の所定の記憶領域に記憶されている録音された音声信号(デジタル音声信号)がファイル処理部110を通じて読み出され、これがデータ伸張処理部142の機能により伸張処理されて、データ圧縮前の元のデジタル音声信号に復元される。この復元されたデジタル音声信号が、D/Aコンバータ134においてアナログ音声信号に変換され、これがスピーカ133に供給されて録音されて再生するようにされた音声信号に応じた音声が放音される。   In the IC recorder according to the first embodiment, when the PLAY key (reproduction key) 212 of the key operation unit 121 is pressed, the CPU 101 controls each unit to perform reproduction processing. That is, a recorded audio signal (digital audio signal) that has been compressed and stored in a predetermined storage area of the data storage device 111 is read through the file processing unit 110, and is decompressed by the function of the data expansion processing unit 142. It is processed and restored to the original digital audio signal before data compression. The restored digital audio signal is converted into an analog audio signal by the D / A converter 134, and this is supplied to the speaker 133, and the audio corresponding to the audio signal recorded and reproduced is emitted.

この再生処理時に、この第1のICレコーダにおいては、キー操作部121のNEXTキー(次のマークへの位置付けを指示するキー)214やPREVキー(前のマークへの位置付けを指示するキー)215が操作された場合に、これに応じて、再生位置をすばやくマークが付与された位置に位置付けて、そこから再生を行うことができるようにしている。   At the time of this reproduction processing, in the first IC recorder, the NEXT key (key for instructing positioning to the next mark) 214 and the PREV key (key for instructing positioning to the previous mark) 215 of the key operation unit 121. In response to this, the playback position is quickly positioned at the position where the mark is given, and playback can be performed from there.

図3は、録音した音声信号の再生時に行われるマークが示す音声信号上の位置への位置付け動作を説明するための図であり、操作に応じて変化するLCD135の表示情報の変化を示す図である。図3に示すように、PLAYキー211が押下操作されると、上述もしたように、CPU101は各部を制御し、指示された録音音声信号の先頭から再生を開始する。   FIG. 3 is a diagram for explaining the positioning operation to the position on the audio signal indicated by the mark performed at the time of reproduction of the recorded audio signal, and is a diagram showing the change in the display information of the LCD 135 that changes according to the operation. is there. As shown in FIG. 3, when the PLAY key 211 is pressed, as described above, the CPU 101 controls each unit and starts playback from the head of the instructed recorded audio signal.

そして、Aさんの発言部分においては、図2を用いて説明したように、録音処理時に付された(記憶保持された)マークMK1に基づいて、図3Aに示すように、Aさんの発言の開始時刻が表示されると共に、これが録音開始から最初に付したマークであることを示すSEQ−No.1という表示がされる。   In the remark part of Mr. A, as described with reference to FIG. 2, based on the mark MK1 (stored and held) at the time of the recording process, as shown in FIG. A start time is displayed, and SEQ-No. Indicating that this is the first mark added from the start of recording. 1 is displayed.

再生が続行され、Bさんの発言部分の再生が開始されると、図3Bに示すように、Bさんの発言の開始時刻が表示されると共に、これが録音開始から2番目に付したマークであることを示すSEQ−No.2という表示がされる。この後、PREVキー215が押下操作されると、CPU101は、図3Cに示すように、開始時刻が先頭から10秒後(0分10秒後)のマークMK1が示すAさんの発言の開始部分に再生位置を位置付け、そこから再生を再開する。   When playback is continued and playback of Mr. B's speech portion is started, the start time of Mr. B's speech is displayed as shown in FIG. 3B, and this is the second mark from the start of recording. SEQ-No. 2 is displayed. Thereafter, when the PREV key 215 is pressed, as shown in FIG. 3C, the CPU 101 starts the part of Mr. A's remark indicated by the mark MK1 whose start time is 10 seconds after the beginning (0 minutes 10 seconds later). Position the playback position at, and resume playback from there.

この後、NEXTキーが押下操作されると、CPU101は、図3Dに示すように、開始時刻が先頭から1分25秒後のマークMK2が示すBさんの発言の開始部分に再生位置を位置付け、そこから再生を再開する。さらに、NEXTキーが押下操作されると、CPU101は、図3Eに示すように、開始時刻が先頭から2分30秒後のマークMK3が示すCさんの発言の開始部分に再生位置を位置付け、そこから再生を再開する。   Thereafter, when the NEXT key is pressed, as shown in FIG. 3D, the CPU 101 positions the playback position at the start portion of Mr. B's remark indicated by the mark MK2 whose start time is 1 minute 25 seconds after the beginning, Playback resumes from there. Further, when the NEXT key is pressed, the CPU 101 positions the playback position at the start portion of Mr. C's remark indicated by the mark MK3 whose start time is 2 minutes and 30 seconds after the beginning, as shown in FIG. 3E. Resume playback from.

このように、この実施の形態のICレコーダは、録音処理時において、集音した音声信号の特徴解析を自動的に行い、特徴の変化点にマークを付するようにすると共に、再生処理時においては、NEXTキー214、PREVキー215を操作することによって、付したマークが示す録音された音声信号上の位置に再生位置をすばやく位置付けて、そこから再生を行うようにすることができるものである。   As described above, the IC recorder of this embodiment automatically analyzes the characteristics of the collected audio signal during the recording process, and marks the change points of the characteristics, and at the time of the reproduction process. By operating the NEXT key 214 and PREV key 215, the playback position can be quickly positioned at the position on the recorded audio signal indicated by the marked mark, and playback can be performed from there. .

これによって、ユーザは、すばやく目的とする話者(発言者)の発言部分に再生位置を位置付けて、録音した音声信号を再生して聴取することができるので、目的とする発言部分の議事録を迅速に作成することができる。   As a result, the user can quickly position the playback position on the speech portion of the target speaker (speaker) and play and listen to the recorded audio signal, so that the minutes of the target speech portion can be recorded. Can be created quickly.

なお、ここでは、説明を簡単にするため、変化点情報として、録音開始時点からの時刻情報を用いるようにしたが、これに限るものではなく、録音された音声信号のデータ記憶装置111の記録媒体上のアドレスを変化点情報として用いることもできる。   Here, for the sake of simplicity, the time information from the recording start time is used as the change point information. However, the present invention is not limited to this, and recording of the recorded audio signal in the data storage device 111 is not limited thereto. Addresses on the medium can also be used as change point information.

[ICレコーダの動作の詳細について]
次に、図4、図5のフローチャートを参照しながら、この第1の実施の形態のICレコーダにおける録音処理と再生処理とについて、詳細に説明する。
[Details of IC recorder operation]
Next, the recording process and the reproduction process in the IC recorder of the first embodiment will be described in detail with reference to the flowcharts of FIGS.

[録音処理について]
まず、録音処理について説明する。図4は、この第1の実施の形態のICレコーダにおいて行われる録音処理を説明するためのフローチャートである。図4に示す処理は、CPU101が各部を制御することにより行われる処理である。
[Recording process]
First, the recording process will be described. FIG. 4 is a flowchart for explaining a recording process performed in the IC recorder according to the first embodiment. The process illustrated in FIG. 4 is a process performed by the CPU 101 controlling each unit.

この第1の実施の形態のICレコーダは、電源が投入された状態にあり、動作していないときには、ユーザからの操作入力待ちとなる(ステップS101)。ユーザが操作部121にある操作キーを押下すると、入力処理部120がそれを検知し、CPU101に通知するので、CPU101は、受け付けた操作入力は、RECキー211の押下操作か否かを判断する(ステップS102)。   When the IC recorder according to the first embodiment is in a state where the power is turned on and is not operating, it waits for an operation input from the user (step S101). When the user presses an operation key on the operation unit 121, the input processing unit 120 detects this and notifies the CPU 101, so the CPU 101 determines whether or not the received operation input is a pressing operation of the REC key 211. (Step S102).

ステップS102の判断処理において、受け付けた操作入力は、RECキー211の押下操作ではないと判断したときには、CPU101はユーザにより操作されたキーに応じた処理、例えば、PLAYキー212に応じた再生処理、NEXTキー124に応じた次のマークへの位置付け処理、PREVキー215に応じた1つ前のマークへの位置付け処理などを行うことになる(ステップS103)。もちろん、早送り処理や早戻し処理などを行うこともできるようにされている。   If it is determined in step S102 that the received operation input is not a pressing operation of the REC key 211, the CPU 101 performs processing corresponding to the key operated by the user, for example, reproduction processing corresponding to the PLAY key 212, A positioning process for the next mark according to the NEXT key 124, a positioning process for the previous mark according to the PREV key 215, and the like are performed (step S103). Of course, it is also possible to perform fast forward processing, fast reverse processing, and the like.

ステップS102の判断処理において、RECキーが押下されたと判断した場合には、CPU101は、ファイル処理部110にファイル記録処理を行うように指示を出し、これに応じて、ファイル処理部110は、データ記録装置111に音声ファイル111(2)を作成する(ステップS104)。   If it is determined in step S102 that the REC key has been pressed, the CPU 101 instructs the file processing unit 110 to perform file recording processing, and in response to this, the file processing unit 110 performs data recording. An audio file 111 (2) is created in the recording device 111 (step S104).

そして、CPU101は、キー操作部121のSTOPキー(停止キー)213が押下操作されたか否かを判断する(ステップS105)。ステップS105の判断処理において、STOPキー213が操作されたと判断したときには、後述もするように、所定の終了処理を行って(ステップS114)、この図4に示す処理を終了する。   Then, the CPU 101 determines whether or not the STOP key (stop key) 213 of the key operation unit 121 has been pressed (step S105). If it is determined in step S105 that the STOP key 213 has been operated, a predetermined end process is performed (step S114), as will be described later, and the process shown in FIG. 4 ends.

ステップS105の判断処理において、STOPキー213は操作されていないと判断したときには、CPU101は、A/Dコンバータ132にマイクロホン131を通じて入力されるアナログ音声信号をデジタル音声信号に変換することを指示し、集音音声のデジタル変換を行うようにする(ステップS106)。   If it is determined in step S105 that the STOP key 213 is not operated, the CPU 101 instructs the A / D converter 132 to convert an analog audio signal input through the microphone 131 into a digital audio signal. Digital conversion of the collected sound is performed (step S106).

これにより、A/Dコンバータ132は、マイクロホン131を通じて入力されるアナログ音声信号を一定周期ごと(所定の処理単位ごと)に変換したデジタル音声信号を、RAM103のPCMデータ領域103(2)に書き込み、書き込んだことをCPU101に通知する(ステップS107)。   As a result, the A / D converter 132 writes the digital audio signal obtained by converting the analog audio signal input through the microphone 131 at regular intervals (predetermined processing units) into the PCM data area 103 (2) of the RAM 103, The CPU 101 is notified of the writing (step S107).

これを受けて、CPU101は、データ圧縮処理部141に対し、RAM104のPCMデータ領域103(2)に格納したデジタル音声信号(PCMデータ)をデータ圧縮するように指示する(ステップS108)。これに応じて、データ圧縮処理部141は、RAM103のPCMデータ領域103(2)のデジタル音声信号を圧縮処理し、圧縮したデジタル音声信号をRAM103の圧縮データ領域103(1)に書き込む(ステップS109)。   In response to this, the CPU 101 instructs the data compression processing unit 141 to compress the data of the digital audio signal (PCM data) stored in the PCM data area 103 (2) of the RAM 104 (step S108). In response to this, the data compression processing unit 141 compresses the digital audio signal in the PCM data area 103 (2) of the RAM 103, and writes the compressed digital audio signal in the compressed data area 103 (1) of the RAM 103 (step S109). ).

そして、CPU101は、ファイル処理部110に対して、RAM103の圧縮データ領域103(1)の圧縮されたデジタル音声信号をデータ記憶装置111に作成した音声ファイル111(2)に書き込むことを指示し、これにより、ファイル処理部110により、RAM103の圧縮データ領域の圧縮されたデジタル音声信号が、データ記憶装置111の音声ファイル111(2)に書き込まれる(ステップS110)。   Then, the CPU 101 instructs the file processing unit 110 to write the compressed digital audio signal in the compressed data area 103 (1) of the RAM 103 into the audio file 111 (2) created in the data storage device 111. As a result, the file processing unit 110 writes the compressed digital audio signal in the compressed data area of the RAM 103 into the audio file 111 (2) of the data storage device 111 (step S110).

ファイル処理部110は、圧縮されたデジタル音声信号の音声ファイル111(2)への書き込みを終了すると、これをCPU101に通知するので、CPU101は、音声特徴解析部143に対して、RAM103のPCMデータ領域103(2)に先に記録されたデジタル音声信号の特徴解析を指示し、音声特徴解析部143によって、RAM103のPCMデータ領域103(2)のデジタル音声信号の特徴を抽出する(ステップS111)。   When the file processing unit 110 finishes writing the compressed digital audio signal to the audio file 111 (2), the file processing unit 110 notifies the CPU 101 of this, so the CPU 101 notifies the audio feature analysis unit 143 of the PCM data in the RAM 103. The feature analysis of the digital audio signal recorded in the area 103 (2) is instructed, and the audio feature analysis unit 143 extracts the feature of the digital audio signal in the PCM data area 103 (2) of the RAM 103 (step S111). .

なお、音声特徴解析部143において行われるデジタル音声信号の特徴解析(特徴抽出)処理は、声紋分析、話速分析、間の取り方の分析、音声の強弱の分析などの種々の方法を用いることが可能である。ここでは説明を簡単にするため、この第1の実施の形態のICレコーダの音声特徴解析部143は、声紋分析を行うことにより、解析対象のデジタル音声信号の特徴を抽出するものとして説明する。   The feature analysis (feature extraction) processing of the digital voice signal performed in the voice feature analysis unit 143 uses various methods such as voice print analysis, speech speed analysis, interval analysis, and voice strength analysis. Is possible. Here, in order to simplify the description, the audio feature analysis unit 143 of the IC recorder according to the first embodiment will be described as extracting features of a digital audio signal to be analyzed by performing voiceprint analysis.

そして、音声特徴解析部143は、今回抽出した音声の特徴(声紋データ)と、過去に抽出した音声の声紋データとを比較し、入力された音声信号から抽出した特徴が、これまでの音声の特徴から変化したか否かを判断し、その判断結果をCPU101に対して通知するので、これに基づき、CPU101は、集音音声の特徴が変化したか否かを判断する(ステップS112)。   Then, the voice feature analysis unit 143 compares the voice feature (voice print data) extracted this time with the voice print data of the voice extracted in the past, and the features extracted from the input voice signal are It is determined whether or not the feature has changed, and the determination result is notified to the CPU 101. Based on this, the CPU 101 determines whether or not the feature of the collected sound has changed (step S112).

ステップS112の判断処理において、変化がなかったと判断したときには、CPU101は、ステップS105からの処理を繰り返し、次の周期(次の処理単位)の音声信号についても、上述したステップS105からステップS112までの処理を行うようにする。   When it is determined in step S112 that there is no change, the CPU 101 repeats the processing from step S105, and the audio signal of the next cycle (next processing unit) is also processed from the above-described steps S105 to S112. Do processing.

ステップS112の判断処理において、変化があったと判断したときには、CPU101は、「話者が切り替わった」と判断し、ファイル処理部110に対して、処理対象の音声信号上の音声の特徴の変化点にマークを付することを指示する(ステップS113)。これにより、ファイル処理部110は、データ記録装置111上のデータベース領域111(1)に当該音声ファイル111(2)に関する情報として、音声の特徴に変化のあった場所を示す情報として、当該音声ファイル111(2)の先頭からの時刻情報、あるいは、記録位置に対応するアドレス情報を書き込む。この場合、音声ファイルと音声の特徴に変化のあった場所を示す情報とは対応付けられて記憶される。   When it is determined in step S112 that there has been a change, the CPU 101 determines that “the speaker has been switched”, and causes the file processing unit 110 to change the feature of the sound on the sound signal to be processed. Is instructed to be marked (step S113). As a result, the file processing unit 110 uses the audio file as information indicating the location where the audio characteristics have changed as information related to the audio file 111 (2) in the database area 111 (1) on the data recording device 111. The time information from the head of 111 (2) or the address information corresponding to the recording position is written. In this case, the audio file and information indicating the location where the audio feature has changed are stored in association with each other.

このステップS113の処理の後、CPU101は、ステップS105からの処理を繰り返し、次の周期(次の処理単位)の音声信号についても、上述したステップS105からステップS112までの処理を行うようにする。   After the process of step S113, the CPU 101 repeats the process from step S105, and performs the process from step S105 to step S112 on the audio signal of the next cycle (next process unit).

そして、ステップS105の判断処理において、ユーザがSTOPキー213を押下操作したと判断したときには、CPU101は、ファイル処理部110に対してデータ記憶装置111の音声ファイル111(2)へのデータの書き込みの停止を、データ圧縮処理部141に対して圧縮処理の停止を、A/Dコンバータ132に対してデジタル信号への変換の停止を指示する等の所定の終了処理を行って(ステップS114)、この図4に示す処理を終了する。   When it is determined in the determination process in step S105 that the user has pressed the STOP key 213, the CPU 101 writes data to the audio file 111 (2) of the data storage device 111 to the file processing unit 110. A predetermined end process is performed such as stopping the data compression processing unit 141 to stop the compression process and instructing the A / D converter 132 to stop the conversion to a digital signal (step S114). The process shown in FIG.

なお、音声特徴解析部143において行われる音声の特徴が変化したか否かの判断は、過去に抽出した音声の特徴データ(声紋データ)を保持しておき、これと新たに抽出した特徴データ(声紋データ)とを比較することにより行う。この場合、直前の1つの特徴データだけと比較するだけでよいのであれば、過去の特徴データは、常に直前の1つだけを保持しておけばよい。しかし、精度を向上させるため、過去の2つ以上の特徴データと比較し、2つ以上の違いが生じた場合に特徴が変化したと判断するようにする場合には、2つ以上の過去の特徴データを保持しておく必要がある。   Note that the voice feature analysis unit 143 determines whether or not the voice feature has been changed by retaining previously extracted voice feature data (voice print data) and newly extracted feature data ( Voice print data). In this case, if it is only necessary to compare with the immediately preceding feature data, only the immediately preceding feature data needs to be held. However, in order to improve accuracy, when comparing with two or more feature data in the past and judging that the feature has changed when two or more differences occur, two or more past data are used. It is necessary to store the feature data.

このように、この第1の実施の形態のICレコーダは、集音して録音する音声信号の特徴解析を行い、その集音音声信号の特徴の変化点を検出して、その変化点に相当する集音音声信号上の位置にマークを付すようにすることができるものである。   As described above, the IC recorder according to the first embodiment performs feature analysis of a sound signal to be collected and recorded, detects a change point of the feature of the collected sound signal, and corresponds to the change point. The mark can be attached to the position on the collected sound signal.

[再生処理について]
次に、再生処理について説明する。図5は、この第1の実施の形態のICレコーダにおいて行われる再生処理を説明するためのフローチャートである。図5に示す処理は、CPU101が各部を制御することにより行われる処理である。
[About playback processing]
Next, the reproduction process will be described. FIG. 5 is a flowchart for explaining the reproduction process performed in the IC recorder according to the first embodiment. The processing illustrated in FIG. 5 is processing performed by the CPU 101 controlling each unit.

この第1の実施の形態のICレコーダの再生処理においては、図4を用いて説明したように、録音処理時に付される集音音声(集音して録音する音声)の特徴の変化点に付されたマークを利用して、録音された音声信号から迅速に目的とする音声信号部分を検出することができるようにしている。   In the playback process of the IC recorder of the first embodiment, as described with reference to FIG. 4, the characteristic change point of the collected voice (sound collected and recorded) added during the recording process is used. By using the attached mark, a target audio signal portion can be quickly detected from the recorded audio signal.

この第1の実施の形態のICレコーダは、電源が投入された状態にあり、動作していないときには、ユーザからの操作入力待ちとなる(ステップS201)。ユーザが操作部121にある操作キーを押下すると、入力処理部120がそれを検知し、CPU101に通知するので、CPU101は、受け付けた操作入力は、PLAYキー212の押下操作か否かを判断する(ステップS202)。   The IC recorder according to the first embodiment is in a state where power is turned on, and when not operating, the IC recorder waits for an operation input from the user (step S201). When the user presses an operation key on the operation unit 121, the input processing unit 120 detects this and notifies the CPU 101. Therefore, the CPU 101 determines whether or not the received operation input is a pressing operation of the PLAY key 212. (Step S202).

ステップS202の判断処理において、受け付けた操作入力は、PLAYキー212の押下操作ではないと判断したときには、CPU101はユーザにより操作されたキーに応じた処理、例えば、RECキー212に応じた録音処理、NEXTキー124に応じた次のマークへの位置付け処理、PREVキー215に応じた1つ前のマークへの位置付け処理などを行うことになる(ステップS203)。もちろん、早送り処理や早戻し処理などを行うこともできるようにされている。   If it is determined in step S202 that the received operation input is not a pressing operation of the PLAY key 212, the CPU 101 performs processing corresponding to the key operated by the user, for example, recording processing corresponding to the REC key 212, A positioning process for the next mark according to the NEXT key 124, a positioning process for the previous mark according to the PREV key 215, and the like are performed (step S203). Of course, it is also possible to perform fast forward processing, fast reverse processing, and the like.

ステップS202の判断処理において、受け付けた操作入力は、PLAYキーの押下操作であると判断したときには、CPU101は、ファイル処理部110にデータ記録装置111上の音声ファイル111(2)の読み出しを指示する(ステップS204)。そして、CPU101は、キー操作部121のSTOPキー(停止キー)213が押下操作されたか否かを判断する(ステップS205)。   In the determination process of step S202, when it is determined that the received operation input is a PLAY key pressing operation, the CPU 101 instructs the file processing unit 110 to read the audio file 111 (2) on the data recording device 111. (Step S204). Then, the CPU 101 determines whether or not the STOP key (stop key) 213 of the key operation unit 121 has been pressed (step S205).

ステップS205の判断処理において、STOPキー213が操作されたと判断したときには、後述もするように、所定の終了処理を行って(ステップS219)、この図5に示す処理を終了することになる。   If it is determined in step S205 that the STOP key 213 has been operated, a predetermined end process is performed (step S219) as will be described later, and the process shown in FIG. 5 ends.

ステップS205の判断処理において、STOPキー213が操作されていないと判断したときには、CPU101はファイル処理部110を制御し、データ記憶装置111の音声ファイル111(2)に記憶されている圧縮されたデジタル音声信号をシステムで規定された所定の処理単位の量だけ読み出し、RAM103の圧縮データ領域103(1)に書き込むようにする(ステップS206)。   If it is determined in step S205 that the STOP key 213 has not been operated, the CPU 101 controls the file processing unit 110 to store the compressed digital data stored in the audio file 111 (2) of the data storage device 111. The audio signal is read out in an amount corresponding to a predetermined processing unit defined by the system, and is written into the compressed data area 103 (1) of the RAM 103 (step S206).

書き込みが終了すると、これがCPU101に通知されるので、CPU101は、データ伸張処理部142に対して、RAM103の圧縮データ領域103(1)の圧縮されたデジタル音声信号の伸長処理を行うことを指示し、データ伸張処理部142によって圧縮されたデジタル音声信号の伸張処理を行って、RAM103のPCMデータ領域103(2)に書きこむようにする(ステップS207)。   When the writing is completed, the CPU 101 is notified of this, so the CPU 101 instructs the data expansion processing unit 142 to perform the expansion processing of the compressed digital audio signal in the compressed data area 103 (1) of the RAM 103. Then, the digital audio signal compressed by the data expansion processing unit 142 is expanded and written in the PCM data area 103 (2) of the RAM 103 (step S207).

書き込みが終了すると、これがCPU101に通知されるので、CPU101は、D/Aコンバータ134に対し、RAM103のPCMデータ領域103(2)に格納されたデジタル音声信号(伸張されたデジタル音声信号)をアナログ音声信号に変換し、スピーカ133に供給するように制御する。   When the writing is completed, this is notified to the CPU 101, and the CPU 101 analogizes the digital audio signal (expanded digital audio signal) stored in the PCM data area 103 (2) of the RAM 103 to the D / A converter 134. Control is performed so that the sound signal is converted and supplied to the speaker 133.

これにより、データ記憶装置111の音声ファイル111(2)に記憶保持されているデジタル音声信号に応じた音声が、スピーカ133から放音するようにされる。そして、D/Aコンバータ134は、D/A変換したアナログ音声信号を出力したことをCPU101に通知してくるので、CPU101は、キー操作部121の操作キーが操作されたか否かを判断する(ステップS209)。   As a result, sound corresponding to the digital sound signal stored and held in the sound file 111 (2) of the data storage device 111 is emitted from the speaker 133. Then, since the D / A converter 134 notifies the CPU 101 that the analog audio signal after D / A conversion has been output, the CPU 101 determines whether or not the operation key of the key operation unit 121 has been operated ( Step S209).

ステップS209の判断処理において、操作キーは操作されていないと判断したときには、ステップS205からの処理を繰り返し、データ記憶装置111の音声ファイル111(2)のデジタル音声信号の再生を続行する。   If it is determined in step S209 that the operation key has not been operated, the processing from step S205 is repeated, and the reproduction of the digital audio signal of the audio file 111 (2) in the data storage device 111 is continued.

ステップS209の判断処理において、操作キーが操作されたと判断したときには、CPU101は、操作されたキーは、PREVキー215か否かを判断する(ステップS210)。ステップS210の判断処理において、PREVキー215が操作されたと判断したときには、CPU101は、ファイル処理部110に対して音声ファイル111(2)からのデジタル音声信号の読み出しの停止を指示し、データ伸張処理部142に対して伸長処理の停止を指示し、D/Aコンバータ134に対してアナログ信号への変換の停止を指示する(ステップS211)。   When determining in step S209 that the operation key is operated, the CPU 101 determines whether the operated key is the PREV key 215 (step S210). If it is determined in step S210 that the PREV key 215 has been operated, the CPU 101 instructs the file processing unit 110 to stop reading the digital audio signal from the audio file 111 (2), and the data expansion processing is performed. The decompression process is instructed to the unit 142, and the conversion to the analog signal is instructed to the D / A converter 134 (step S211).

次に、CPU101は、ファイル処理部110にデータ記憶装置111のデータベース領域111(1)から現在再生している位置の直前のマークの情報(変化点情報)を読み出すよう指示し、その読み出されたマークの情報によって指示される音声信号上の位置に再生位置を位置付け、そこから再生を開始するようにし(ステップS212)、図3を用いて説明したように、位置付けに用いたマークの情報に応じた再生位置情報を表示して(ステップS213)、ステップS205からの処理を繰り返す。   Next, the CPU 101 instructs the file processing unit 110 to read the information (change point information) immediately before the position that is currently reproduced from the database area 111 (1) of the data storage device 111, and the reading is performed. The playback position is positioned at the position on the audio signal indicated by the mark information, and playback is started from that position (step S212). As described with reference to FIG. 3, the mark information used for positioning is added. The corresponding reproduction position information is displayed (step S213), and the processing from step S205 is repeated.

ステップS210の判断処理において、操作されたキーは、PREVキー215ではないと判断されたときには、CPU101は、操作されたキーは、NEXTキー214か否かを判断する(ステップS214)。ステップS214の判断処理において、NEXTキー214が操作されたと判断したときには、CPU101は、ファイル処理部110を制御し、音声ファイル111(2)からのデジタル音声信号の読み出しの停止を、データ伸張処理部142に伸長処理の停止を、D/Aコンバータ134にアナログ信号への変換の停止を、それぞれ指示する(ステップS215)。   When it is determined in step S210 that the operated key is not the PREV key 215, the CPU 101 determines whether or not the operated key is the NEXT key 214 (step S214). If it is determined in step S214 that the NEXT key 214 has been operated, the CPU 101 controls the file processing unit 110 to stop reading the digital audio signal from the audio file 111 (2). 142 is instructed to stop the decompression process, and the D / A converter 134 is instructed to stop the conversion to an analog signal (step S215).

次に、CPU101は、ファイル処理部110にデータ記憶装置111のデータベース領域111(1)から現在再生している位置の直後のマークの情報(変化点情報)を読み出すよう指示し、その読み出されたマークの情報によって指示される音声信号上の位置に再生位置を位置付け、そこから再生を開始するようにし(ステップS216)、図3を用いて説明したように、位置付けに用いたマークの情報に応じた再生位置情報を表示して(ステップS217)、ステップS205からの処理を繰り返す。   Next, the CPU 101 instructs the file processing unit 110 to read the information (change point information) immediately after the position that is currently reproduced from the database area 111 (1) of the data storage device 111, and the reading is performed. The playback position is positioned at the position on the audio signal indicated by the mark information, and playback is started from that position (step S216). As described with reference to FIG. 3, the mark information used for positioning is added to the mark information. The corresponding reproduction position information is displayed (step S217), and the processing from step S205 is repeated.

ステップS214の判断処理において、操作されたキーは、NEXTキー214ではないと判断されたときには、CPU101は、操作されたキーに応じた処理、例えば、早送り、早戻しなどの操作されたキーに応じた処理を行って、ステップS205からの処理を繰り返す。   When it is determined in step S214 that the operated key is not the NEXT key 214, the CPU 101 performs processing corresponding to the operated key, for example, according to the operated key such as fast forward or fast reverse. The process from step S205 is repeated.

このように、録音時にICレコーダが音声の特徴に変化があったことを話者の切り替わりと判断し,その位置にマークを自動的につけることで,ユーザは再生時にPREVキー215、NEXTキー214を押下操作して簡単に各発言の先頭位置を呼び出すことが可能になり、議事録作成時において、ある発言を繰り返し再生させたいときや、重要な発言を見つけ出す際の手間が大幅に削減できる。すなわち、録音された音声信号中から、目的とする音声信号部分を迅速に検索することができる。   As described above, when the IC recorder determines that the voice characteristics have changed during recording, it is determined that the speaker is switched, and a mark is automatically added at that position, so that the user can use the PREV key 215 and the NEXT key 214 during playback. It is possible to easily call the head position of each utterance by pressing the button, and when creating a minutes, it is possible to greatly reduce the trouble of repeatedly reproducing a certain utterance or finding an important utterance. That is, the target audio signal portion can be quickly searched from the recorded audio signal.

しかも、集音音声の特徴の変化点は自動検出され、その変化点へのマークの付与も自動的に行われるので、変化点へのマークの付与に関し、ユーザの手を煩わせることは一切ない。   In addition, the change point of the characteristics of the collected sound is automatically detected, and the mark is automatically assigned to the change point, so that the user's hand is not troubled about the mark assignment to the change point. .

[第1の実施の形態の変形例]
ところで、会議の様子を録音し、この録音に基づいて議事録を作成する場合、誰がどこで発言をしたかを、録音音声を再生することなく知ることができればより便利である。そこで、この変形例のICレコーダは、会議への出席者の音声の特徴解析結果である声紋データを、各出席者を識別するためのシンボルと対応付けて記憶させておくことによって、話者を特定できるマークを付すようにしたものである。
[Modification of the first embodiment]
By the way, when recording the state of a meeting and creating a minutes based on this recording, it is more convenient if it is possible to know who has spoken and where without replaying the recorded sound. In view of this, the IC recorder of this modification example stores voiceprint data, which is a voice characteristic analysis result of attendees attending a conference, in association with symbols for identifying each attendee, thereby allowing a speaker to be stored. A mark that can be identified is attached.

この変形例のICレコーダは、図1に示した第1の実施の形態のICレコーダと同様に構成されるものである。しかし、この変形例のICレコーダの例えば外部記憶装置の111やRAM103の記憶領域には、会議の出席者についての音声特徴データベースを形成するようにしたものである。なお、以下の説明においては、音声特徴データベースは、外部記憶装置111に形成するものとして説明する。   The IC recorder of this modification is configured similarly to the IC recorder of the first embodiment shown in FIG. However, an audio feature database for the attendees of the conference is formed in the storage area of, for example, the external storage device 111 or the RAM 103 of the IC recorder of this modification. In the following description, the voice feature database is described as being formed in the external storage device 111.

図6は、この変形例のICレコーダの外部記憶装置111の記憶領域に形成される音声データベースの一例を説明するための図である。図6に示すように、この例の音声データベースは、会議の出席者を識別するための識別子(例えば、登録順に応じたシーケンスナンバなど)と、会議の出席者の名前、会議の出席者の音声の特徴解析結果である声紋データ、会議の出席者の顔写真などの画像データ、会議の出席者のそれぞれに割り当てられたアイコンデータ、その他、テキストデータなどからなるものである。   FIG. 6 is a diagram for explaining an example of a voice database formed in the storage area of the external storage device 111 of the IC recorder of this modification. As shown in FIG. 6, the voice database of this example includes an identifier (for example, a sequence number corresponding to the registration order) for identifying a conference attendee, the name of the conference attendee, and the voice of the conference attendee. This is composed of voice print data, which is a result of feature analysis, image data such as face photos of meeting attendees, icon data assigned to each meeting attendee, and text data.

声紋データ、画像データ、アイコンデータ、その他のデータのそれぞれは、ファイルの形式で外部記憶装置111に記憶されており、それが会議の各出席者の識別子をキー情報(対応付け情報)として記憶保持されている。なお、特徴解析結果である声紋データは、会議に先だって、会議の出席者の音声を集音し、特徴解析を行うことにより予め得るようにしたものである。   Each of the voiceprint data, image data, icon data, and other data is stored in the external storage device 111 in the form of a file, which stores and holds the identifier of each attendee of the meeting as key information (association information). Has been. Note that the voiceprint data, which is the result of feature analysis, is obtained in advance by collecting voices of the attendees of the conference and performing feature analysis prior to the conference.

すなわち、この例のICレコーダは、音声データベース作成モードを有するものである。そして、音声データベース作成モードが選択された場合には、会議の出席者の音声を集音し、この集音音声の特徴解析を音声特徴解析部143で行って声紋データを得て、この声紋データをシーケンスナンバなどの識別子と対応付けて、外部記憶装置111の記憶領域に記憶することができるものである。   That is, the IC recorder of this example has a voice database creation mode. When the voice database creation mode is selected, the voices of the attendees of the conference are collected, and the voice analysis is performed by the voice feature analysis unit 143 to obtain voice print data. Can be stored in the storage area of the external storage device 111 in association with an identifier such as a sequence number.

識別子と声紋データ以外の情報である、名前、画像データ、アイコンデータなどの情報は、接続端子145に接続される例えばパーソナルコンピュータなどを通じて、この例のICレコーダに供給され、図6に示したように、対応する識別子、声紋データと関連付けられて記憶保持するようにされる。もちろん、名前などは、ICレコーダのキー操作部121に設けられている操作キーを操作して入力することも可能である。また、画像データは、接続端子145に接続されるデジタルカメラから取り込むことも可能である。   Information other than the identifier and voiceprint data, such as name, image data, and icon data, is supplied to the IC recorder of this example through, for example, a personal computer connected to the connection terminal 145, as shown in FIG. And stored in association with the corresponding identifier and voiceprint data. Of course, a name or the like can be input by operating an operation key provided in the key operation unit 121 of the IC recorder. The image data can also be captured from a digital camera connected to the connection terminal 145.

そして、この例のICレコーダもまた、図1、図2および図4を用いて説明したように、集音音声の特徴解析を行って、声紋データの変化点を検出し、その変化点に対応する音声信号上の位置にマークを自動的に付与していくのであるが、変化点を検出した場合に、最新の集音音声の声紋データと、音声データベースの声紋データとのマッチングを行い、声紋データが一致した会議の出席者の識別子を付与するマークに含めるようにしている。   As described with reference to FIGS. 1, 2, and 4, the IC recorder of this example also performs a feature analysis of the collected voice, detects a change point of voiceprint data, and responds to the change point. When a change point is detected, the voiceprint data of the latest collected voice is matched with the voiceprint data of the voice database when a change point is detected. It is included in the mark that gives the identifier of the meeting attendee whose data matches.

図7は、この変形例のICレコーダにおいて行われる集音して録音する音声信号にマークを付す処理の概要を説明するための図である。基本的にマークを付す処理は、図2を用いて説明した場合と同様に行なわれる。しかし、マークには、話者の識別子が付加される。   FIG. 7 is a diagram for explaining the outline of the process of adding marks to the audio signal to be collected and recorded in the IC recorder of this modification. The process of adding marks is basically performed in the same manner as described with reference to FIG. However, the speaker identifier is added to the mark.

図7に示すように、会議の様子を録音するようにした場合、録音開始から10秒後に、Aさんが発言を始めたとする。この場合、Aさんの発言の開始前は、無音、あるいは、ざわめきや椅子を引く音、テーブルに何かがあたる音など、明瞭な話音声とは異なるいわゆる雑音などの無意味な音声が集音されているので、集音した音声信号の特徴解析結果は、Aさんが発言を始める前とは明らかに異なることになる。この変化点の音声信号上の位置を特定(取得)して、この特定した変化点情報を図7におけるマークMK1として記憶保持する。   As shown in FIG. 7, when recording the state of the meeting, it is assumed that Mr. A starts speaking after 10 seconds from the start of recording. In this case, before Mr. A's speech starts, silent or non-sensed sounds such as noise that is different from clear speech, such as a noise or a noise that pulls a chair, or a sound that hits a table are collected. Therefore, the characteristic analysis result of the collected audio signal is clearly different from that before Mr. A started speaking. The position of the change point on the audio signal is specified (acquired), and the specified change point information is stored and held as a mark MK1 in FIG.

この場合に、最新の声紋データと音声データベースの声紋データとのマッチングを行い、一致する声紋データに対応する話者(会議の出席者)の識別子をマークMK1に含めるようにする。なお、図7においても、録音開始からの経過時間を変化点情報として記憶保持している場合を示している。   In this case, the latest voiceprint data and voiceprint data in the voice database are matched, and the identifier of the speaker (conference attendee) corresponding to the matching voiceprint data is included in the mark MK1. FIG. 7 also shows a case where the elapsed time from the start of recording is stored and held as change point information.

そして、Aさんの発言が終了した後、少し間をおいて、Bさんが発言を始めたとする。このBさんの発言の直前も、無音あるいは雑音であったとする。この場合にも、Bさんが発言を始め、それが集音されることにより、集音した音声信号の特徴解析結果は、Bさんが発言を始める前とは明らかに異なることになり、図7において、マークMK2が示すように、Bさんの発言の開始部分にマークを付すように、変化点情報(マークMK2)を記憶保持する。   Then, suppose that Mr. B started speaking after a while after Mr. A's speech ended. It is assumed that there was no sound or noise immediately before Mr. B's remark. Also in this case, when Mr. B starts speaking and is collected, the characteristic analysis result of the collected voice signal is clearly different from that before Mr. B starts speaking. As shown by the mark MK2, the change point information (mark MK2) is stored and held so as to mark the start part of Mr. B's speech.

この場合にも、最新の声紋データと音声データベースの声紋データとのマッチングを行い、一致する声紋データに対応する話者(会議の出席者)の識別子をマークMK2に含めるようにする。   Also in this case, matching is performed between the latest voiceprint data and the voiceprint data of the voice database, and the identifier of the speaker (conference attendee) corresponding to the matching voiceprint data is included in the mark MK2.

さらに、Bさんの発言の途中でCさんが割って入ったような場合も発生するが、この場合には、Bさんの話し声とCさんの話し声とでは異なっているために、集音した音声信号の解析結果も異なることになり、図7において、マークMK3が示すように、Cさんの発言の開始部分にマークを付すように、変化点情報(マークMK3)を記憶保持する。   Furthermore, there may be a case where Mr. C breaks in the middle of Mr. B's speech. In this case, the voice of the collected sound is different because Mr. B's voice is different from Mr. C's voice. The signal analysis results are also different. In FIG. 7, as indicated by the mark MK3, the change point information (mark MK3) is stored and held so that a mark is attached to the start portion of Mr. C's speech.

この場合にも、最新の声紋データと音声データベースの声紋データとのマッチングを行い、一致する声紋データに対応する話者(会議の出席者)の識別子をマークMK3に含めるようにする。   Also in this case, the latest voiceprint data is matched with the voiceprint data of the voice database, and the identifier of the speaker (conference attendee) corresponding to the matched voiceprint data is included in the mark MK3.

このようにすることによって、録音した音声信号のどの部分が誰の発言部分であるかを特定することができるようにされ、例えば、Aさんの発言部分だけを再生するようにしてAさんの発言の要旨をまとめるなどのことが簡単にできるようになる。   By doing so, it becomes possible to specify which part of the recorded audio signal is who's utterance. For example, only Mr. A's utterance is reproduced and Mr. A's utterance is reproduced. It becomes easy to summarize the summary of.

なお、この変形例の各マークのその他の情報は、例えば、集音音声の音声認識を行って、集音音声をテキストデータに変換し、このテキストデータをその他の情報としてファイル形式(テキストデータファイル)で記憶保持するようにしている。このテキストデータを用いることにより、議事録や発言の要約を迅速に作成することができるようにされる。   The other information of each mark of this modification is, for example, by performing voice recognition of the collected voice, converting the collected voice into text data, and using this text data as other information in a file format (text data file ) Is stored and retained. By using this text data, minutes and summaries of statements can be quickly created.

そして、この変形例のICレコーダにおいても、図1、図3、図5を用いて説明した場合と同様にして、録音音声の再生を行うことができるようにされる。そして、この変形例のICレコーダの場合には、録音音声における各発言者の発言部分の録音音声を再生することなく特定することができるようにされる。   Also in this modified example of the IC recorder, the recorded voice can be reproduced in the same manner as described with reference to FIGS. And in the case of the IC recorder of this modification, it is possible to specify without reproducing the recorded voice of the utterance part of each speaker in the recorded voice.

図8は、録音した音声信号の再生時に行われるマークへの位置付け動作を説明するための図であり、操作に応じて変化するLCD135の表示情報の変化を示す図である。図8に示すように、PLAYキー211が押下操作されると、上述もしたように、CPU101は各部を制御し、指示された録音音声信号の先頭から再生を開始するようにする。   FIG. 8 is a diagram for explaining an operation of positioning a mark performed when a recorded audio signal is reproduced, and is a diagram showing a change in display information on the LCD 135 that changes in accordance with an operation. As shown in FIG. 8, when the PLAY key 211 is pressed, as described above, the CPU 101 controls each unit to start playback from the head of the instructed recorded audio signal.

そして、Aさんの発言部分においては、図7を用いて説明したように、録音処理時に付された(記憶保持された)マークMK1に基づいて、図8Aに示すように、Aさんについての、発言の開始時刻D(1)、話者の画像データに応じた顔写真D(2)、話者の名前D(3)、発言の最初の部分のテキストデータD(4)が表示されると共に、再生中表示D(5)が表示される。   In Mr. A's remarks part, as described with reference to FIG. 7, based on the mark MK1 (stored and held) during the recording process, as shown in FIG. A speech start time D (1), a face photo D (2) corresponding to the speaker's image data, a speaker's name D (3), and text data D (4) of the first part of the speech are displayed. During playback, display D (5) is displayed.

そして、再生が続行され、Bさんの発言部分の再生が開始されると、録音時に付されたマークMK2に基づいて、図8Bに示すように、Bさんについての、発言の開始時刻D(1)、話者の画像データに応じた顔写真D(2)、話者の名前D(3)、発言の最初の部分のテキストデータD(4)が表示されると共に、再生中表示D(5)が表示される。   Then, when the reproduction is continued and the reproduction of Mr. B's speech part is started, the message start time D (1) for Mr. B is shown in FIG. 8B based on the mark MK2 attached at the time of recording. ), A face photograph D (2) corresponding to the image data of the speaker, a name D (3) of the speaker, and text data D (4) of the first part of the utterance, and a display D (5) during playback ) Is displayed.

この後、PREVキー215が押下操作されると、CPU101は、図8Cに示すように、開始時刻が先頭から10秒後(0分10秒後)のマークMK1が示すAさんの発言の開始部分に再生位置を位置付け、そこから再生を開始するようにする。この場合には、図8Aの場合と同様に、Aさんについての、発言の開始時刻D(1)、話者の画像データに応じた顔写真D(2)、話者の名前D(3)、発言の最初の部分のテキストデータD(4)が表示されると共に、再生中表示D(5)が表示される。   Thereafter, when the PREV key 215 is pressed, as shown in FIG. 8C, the CPU 101 starts the part of Mr. A's speech indicated by the mark MK1 whose start time is 10 seconds after the beginning (0 minutes and 10 seconds later). The playback position is positioned at, and playback starts from there. In this case, as in the case of FIG. 8A, the speech start time D (1), face photo D (2) corresponding to the speaker image data, and speaker name D (3) The text data D (4) of the first part of the utterance is displayed and the display D (5) during playback is displayed.

この後、NEXTキーが押下操作されると、CPU101は、図8Dに示すように、開始時刻が先頭から1分25秒後のマークMK2が示すBさんの発言の開始部分に再生位置を位置付け、そこから再生を開始するようにする。この場合には、図8Bの場合と同様に、Bさんについての、発言の開始時刻D(1)、話者の画像データに応じた顔写真D(2)、話者の名前D(3)、発言の最初の部分のテキストデータD(4)が表示されると共に、再生中表示D(5)が表示される。   Thereafter, when the NEXT key is pressed, as shown in FIG. 8D, the CPU 101 positions the playback position at the start portion of Mr. B's remark indicated by the mark MK2 whose start time is 1 minute 25 seconds after the beginning, Start playback from there. In this case, as in the case of FIG. 8B, the start time D (1) of the utterance about Mr. B, the face photo D (2) corresponding to the image data of the speaker, and the name D (3) of the speaker The text data D (4) of the first part of the utterance is displayed and the display D (5) during playback is displayed.

さらに、NEXTキーが押下操作されると、CPU101は、図8Eに示すように、開始時刻が先頭から2分30秒後のマークMK3が示すCさんの発言の開始部分に再生位置を位置付け、そこから再生を開始するようにする。この場合には、Cさんについての、発言の開始時刻D(1)、話者の画像データに応じた顔写真D(2)、話者の名前D(3)、発言の最初の部分のテキストデータD(4)が表示されると共に、再生中表示D(5)が表示される。   Further, when the NEXT key is pressed, the CPU 101 positions the playback position at the start of Mr. C's remark indicated by the mark MK3 whose start time is 2 minutes and 30 seconds after the beginning, as shown in FIG. 8E. Start playback from. In this case, Mr. C's speech start time D (1), face photo D (2) corresponding to the speaker's image data, speaker's name D (3), and text of the first part of the speech The data D (4) is displayed and the playback display D (5) is displayed.

なお、この変形例において、例えばAさんの発言部分を再生中にNEXTキーまたはPREVキーをすばやく2回押下すると、次にAさんの発言部分が出現する部分またはこれ以前にAさんの発言部分が出現した部分に再生位置を位置付け、そこから再生を開始するモードを付加してもよい。つまり、この操作を繰り返すことにより、Aさんの発言部分のみを辿って、あるいは遡って再生させることができる。もちろん、NEXTキーやPREVキーではなく、このモードを明示的に示す操作キーを設けてもよく、その場合には自動的に次々とAさんの発言部分が再生されるようにする。   In this modification, for example, when the NEXT key or PREV key is pressed twice quickly while Mr. A's speech part is being played back, the part where Mr. A's speech part appears next or before that, A mode may be added in which a playback position is positioned at an appearing portion and playback is started from there. In other words, by repeating this operation, only Mr. A's remark part can be traced or reproduced retroactively. Of course, instead of the NEXT key or PREV key, an operation key that explicitly indicates this mode may be provided. In this case, the remark portion of Mr. A is automatically reproduced one after another.

このように、この変形例のICレコーダは、録音処理時において、集音した音声信号の特徴解析を自動的に行い、特徴の変化点にマークを付与するようにすると共に、再生処理時においては、NEXTキー214、PREVキー215を操作することによって、付与されたマークが示す録音された音声信号上の位置に再生位置をすばやく位置付けて、そこから再生を行うようにすることができるものである。   As described above, the IC recorder of this modified example automatically performs the feature analysis of the collected audio signal at the time of the recording process, adds a mark to the change point of the feature, and at the time of the reproduction process. By operating the NEXT key 214 and PREV key 215, the playback position can be quickly positioned at the position on the recorded audio signal indicated by the assigned mark, and playback can be performed from there. .

しかも、録音された音声信号の変化点においては、誰の発言部分であるかを、話者の名前の表示や顔写真の表示により明確に示すことができるので、目的とする話者の発言部分を迅速に検索することができると共に、特定の話者の発言部分のみを再生するようにするなどのことが簡単にできる。もちろん、話者を特定するための情報として、各話者に固有のアイコンデータに応じたアイコンを表示するようにしてもよい。また、発言の最初の部分のテキストデータを表示することもできるので、目的とする発言部分か否かを判断する際に役立てることができる。   Moreover, at the change point of the recorded audio signal, it is possible to clearly indicate who is speaking by displaying the name of the speaker or displaying a face photo. Can be searched quickly, and only the utterance portion of a specific speaker can be reproduced. Of course, as information for specifying a speaker, an icon corresponding to icon data unique to each speaker may be displayed. In addition, since the text data of the first part of the utterance can be displayed, it can be used when determining whether or not the utterance part is the target.

そして、この変形例のICレコーダのユーザは、再生時の表示情報をも利用して、目的とする人の発言部分に再生位置を迅速に位置付けて、録音した音声信号を再生して聴取することができるので、目的とする発言部分の議事録を迅速に作成することができる。   Then, the user of the IC recorder of this modified example uses the display information at the time of reproduction to quickly position the reproduction position in the remarked part of the intended person and reproduce and listen to the recorded audio signal. Therefore, it is possible to quickly create the minutes of the target remark part.

換言すれば、録音後に録音音声信号をいちいち再生することなく、どこに誰の発言があるのかを視覚的に把握することができ、特定の話者の発言を簡単に探し出すことが可能になる。シンボルには文字列や記号の他に話者の顔写真など、より話者を特定し易くできるような情報が利用できるので、検索性が向上する。   In other words, without replaying the recorded audio signal after recording, it is possible to visually grasp who is speaking, and it is possible to easily find out the speech of a specific speaker. As the symbols, in addition to character strings and symbols, information that makes it easier to specify the speaker, such as a photograph of the speaker's face, can be used, so searchability is improved.

また、音声の特徴が未登録の話者(登録済みであってもICレコーダが識別できなかった場合)の発言には未登録話者であることを意味するシンボルを対応付けておくことで、その部分を見つけ易くできる。この場合、議事録作成者は、未登録話者の発言部分を再生し、それが誰であるかを判断すればよい。   In addition, by associating a utterance of a speaker whose voice characteristics are unregistered (when the IC recorder cannot be identified even though it is registered) with a symbol indicating that the speaker is an unregistered speaker, You can easily find that part. In this case, the minutes maker may reproduce the utterance part of the unregistered speaker and determine who the person is.

未登録話者が誰であるかがわかったときには、それが登録済みの話者であったならば、その話者に対応付けられたシンボルをマークとして付け直せるようにすることもできる。また、未登録の話者であった場合は,話者の新規登録操作を行えるようにすることもできる。音声の特徴は録音音声から抽出し、対応付けるシンボルはICレコーダに予め登録済みの記号や文字列入力、ICレコーダにカメラ撮影機能があれば撮影した画像,または外部機器から取り込んだ画像データなどを用いる。   When it is known who the unregistered speaker is, if it is a registered speaker, a symbol associated with the speaker can be re-marked. If the speaker is unregistered, the speaker can be newly registered. The features of the sound are extracted from the recorded sound, and the symbol to be associated is input with a symbol or character string registered in advance in the IC recorder, a photographed image if the IC recorder has a camera photographing function, or image data captured from an external device. .

なお、この変形例のICレコーダの録音処理は、図4を用いて説明した録音処理と同様に行われるが、ステップS113の話者の切り替わりのマークMK1、MK2、MK3、…を付与する処理において、音声データベースの声紋データとのマッチングを行って、該当する話者の識別子が付加するようにされる。また、該当する声紋データが無かった場合には、該当なしを示すマークが付与されることになる。   The recording process of the IC recorder of this modification is performed in the same manner as the recording process described with reference to FIG. 4, but in the process of assigning speaker switching marks MK1, MK2, MK3,. Then, matching with the voice print data of the voice database is performed, and the identifier of the corresponding speaker is added. Further, when there is no corresponding voiceprint data, a mark indicating no corresponding is given.

また、この変形例のICレコーダの再生処理は、図5を用いて説明した再生処理と同様に行われるが、ステップS213、ステップS217の再生位置情報の表示処理において、話者の顔写真や氏名、発言内容のテキストデータなどが表示するようにされることになる。   Further, the reproduction process of the IC recorder of this modification is performed in the same manner as the reproduction process described with reference to FIG. 5, but in the reproduction position information display process in steps S213 and S217, the face photograph of the speaker and the name The text data of the content of the utterance will be displayed.

なお、この変形例のICレコーダの場合にも、変化点情報として、録音開始時点からの時刻を用いるようにしたが、これに限るものではなく、録音された音声信号のデータ記憶装置111の記録媒体上のアドレスを変化点情報として用いるようにしてもよい。   Also in the case of the IC recorder of this modification, the time from the recording start time is used as the change point information. However, the present invention is not limited to this, and recording of the recorded audio signal in the data storage device 111 is not limited thereto. An address on the medium may be used as change point information.

[マーク付与処理の実行タイミングについて]
上述した第1の実施の形態のICレコーダ、第1の実施の形態の変形例のICレコーダにおいては、録音処理時に集音音声の変化点を検出し、その変化点に対応する音声信号上の位置にマークを付すようにしたが、これに限るものではない。録音処理終了後において、マークを付すようにすることができる。すなわち、再生処理時にマークを付すようにしたり、あるいは、マーク付与処理だけを行うようにしたりすることが可能である。
[Mark execution timing]
In the IC recorder of the first embodiment described above and the IC recorder of the modification of the first embodiment, a change point of the collected sound is detected during the recording process, and an audio signal corresponding to the change point is detected. Although the mark is attached to the position, it is not limited to this. A mark can be added after the recording process is completed. That is, it is possible to add a mark at the time of reproduction processing, or to perform only the mark addition processing.

図9は、録音処理終了後において、録音した音声信号の変化点にマークを付すようにする処理を説明するためのフローチャートである。すなわち、図9に示す処理は、再生処理時において録音音声の変化点にマークを付すようにする場合、あるいは、録音音声の変化点に対してマーク付与処理だけを独立に行う場合において行われるものである。この図9に示す処理もまた、ICレコーダのCPU101が各部を制御することにより行なわれる処理である。   FIG. 9 is a flowchart for explaining a process of marking a change point of a recorded audio signal after the recording process is completed. That is, the process shown in FIG. 9 is performed when a mark is added to the change point of the recorded sound at the time of the reproduction process, or when only the mark providing process is performed independently for the change point of the recorded sound. It is. The processing shown in FIG. 9 is also processing performed by the CPU 101 of the IC recorder controlling each unit.

まず、CPU101は、ファイル処理部104を制御して、データ記憶装置111の音声ファイルにデータ圧縮されて記憶されている録音音声信号を所定単位分づつ読み出し(ステップS301)、全ての録音音声信号の読み出しを終了しているか否かを判断する(ステップS302)。   First, the CPU 101 controls the file processing unit 104 to read out the recorded audio signals stored in the audio file of the data storage device 111 after being compressed in predetermined units (step S301), and to record all the recorded audio signals. It is determined whether or not the reading is finished (step S302).

ステップS302の判断処理において、全ての録音音声信号が読み出されていないと判断したときには、CPU101は、データ伸張処理部142を制御して、データ圧縮されている録音音声信号の伸張処理を行う(ステップS303)。この後、CPU101が、音声特徴解析部143を制御して、伸張した音声信号の特徴解析を行って、声紋データを得て、先に取得した声紋データと比較することによって、録音音声信号の特徴が変化したか否かを判断する(ステップS305)。   If it is determined in step S302 that all the recorded audio signals have not been read, the CPU 101 controls the data expansion processing unit 142 to perform the expansion processing of the data-compressed recorded audio signals ( Step S303). Thereafter, the CPU 101 controls the voice feature analysis unit 143 to perform the feature analysis of the expanded voice signal, obtain voice print data, and compare it with the previously obtained voice print data. It is determined whether or not has changed (step S305).

ステップS305の判断処理において、録音音声信号の特徴は変化していないと判断したときには、ステップS301からの処理を繰り返すようにする。また、ステップS305の判断処理において、録音音声信号の特徴が変化したと判断したときには、CPU101は、「話者が切り替わった」と判断し、ファイル処理部110に音声の特徴に変化があった場所にマークを付加することを指示する(ステップS306)。   If it is determined in step S305 that the characteristics of the recorded audio signal have not changed, the processing from step S301 is repeated. If it is determined in the determination process in step S305 that the characteristics of the recorded voice signal have changed, the CPU 101 determines that “the speaker has been switched” and the file processing unit 110 has changed the voice characteristics. Is instructed to add a mark (step S306).

これにより、ファイル処理部110は、データ記録装置111上のデータベース領域111(1)に当該音声ファイル111(2)に関する情報として、音声の特徴に変化のあった場所を示す情報として、ファイルの先頭からの時刻情報、あるいは、記録位置に対応するアドレス情報を書き込む。この場合、音声ファイルと音声の特徴に変化のあった場所を示す情報とは対応付けられて記憶される。   As a result, the file processing unit 110 uses the database area 111 (1) on the data recording device 111 as information related to the audio file 111 (2) as information indicating the location where the audio characteristics have changed. The time information from or the address information corresponding to the recording position is written. In this case, the audio file and information indicating the location where the audio feature has changed are stored in association with each other.

このステップS306の処理の後、CPU101は、ステップS301からの処理を繰り返し、次の周期(次の処理単位)の音声信号についても同様の処理を行う。そして、ステップS302の判断処理において、全ての録音音声信号について読み出しが終了していると判断したときには、所定の終了処理を行って(ステップS307)、この図9に示す処理を終了する。   After the processing in step S306, the CPU 101 repeats the processing from step S301, and performs the same processing for the audio signal in the next cycle (next processing unit). If it is determined in step S302 that reading has been completed for all the recorded audio signals, a predetermined termination process is performed (step S307), and the process shown in FIG. 9 is terminated.

これにより、録音処理後において、再生処理時に録音音声の変化点を検出し、当該録音音声信号に対してマークを付与するようにしたり、あるいは、録音音声に対してマーク付与処理だけを独立に行うようにしたりすることができる。再生処理時において、マークの付与を行う場合には、図9に示したステップS303で伸張処理された音声信号をD/A変換し、D/A変換後のアナログ音声信号をスピーカ133に供給するようにすればよい。   As a result, after the recording process, the change point of the recorded voice is detected during the reproduction process, and a mark is given to the recorded voice signal, or only the mark giving process is independently performed on the recorded voice. And so on. When adding marks during reproduction processing, the audio signal expanded in step S 303 shown in FIG. 9 is D / A converted, and the analog audio signal after D / A conversion is supplied to the speaker 133. What should I do?

このように、録音後に録音音声信号の特徴の変化点に対してマークを付与するようにすることによって、録音時の処理の負荷と消費電力を軽減することが期待できる。また、ユーザがすべての録音において自動マーク付けを希望しない場合もある。録音時の自動マーク付け機能のオン/オフ設定ができるようにしてもよい。そして、ユーザがオフに設定したまま録音してしまった場合に、後でマーク付けが必要になった場合には、上述のようにして、録音処理後においても、録音音声信号に対してマーク付けができるので、非常に便利である。   As described above, it is expected that the processing load and power consumption during recording can be reduced by adding marks to the changing points of the characteristics of the recorded audio signal after recording. Also, the user may not want automatic markup for all recordings. It may be possible to turn on / off the automatic marking function during recording. If the user has recorded with the recording set to OFF, and marking is required later, the recorded audio signal is marked even after the recording process as described above. Is very convenient.

また、上述したように、録音された音声信号に対するマーク付けが可能であるので、録音機能を持たないが信号処理機能を備えた機器への適用が可能になる。例えば、パーソナルコンピュータのアプリケーションソフトに、この発明を適用することも可能である。すなわち、音声録音機器で録音された音声信号をパーソナルコンピュータに転送し、このパーソナルコンピュータ上で動作する上述の信号処理アプリケーションソフトにより、マーク付けをすることができる。   Further, as described above, since the recorded audio signal can be marked, it can be applied to a device that does not have a recording function but has a signal processing function. For example, the present invention can be applied to application software of a personal computer. That is, an audio signal recorded by an audio recording device can be transferred to a personal computer and marked by the above-described signal processing application software operating on the personal computer.

また、この発明を適用した機器で作成したデータを、ネットワークなどを介して共有することで、このデータから議事録を書き起こすことなく、このデータそのものを議事録として用いることも可能になる。   Further, by sharing data created by a device to which the present invention is applied via a network or the like, it is possible to use the data itself as a minutes without writing the minutes from the data.

したがって、この発明は、録音機器だけでなく、信号処理が可能な種々の電子機器に適用可能であり、既に録音済みの音声信号であっても、この発明を適応したで電子機器で処理することにより、同様の結果を得ることができる。すなわち、議事録の作成を効率的に行うことができるようにされる。   Therefore, the present invention can be applied not only to a recording device but also to various electronic devices capable of signal processing, and even an already recorded audio signal is processed by the electronic device by applying the present invention. Thus, the same result can be obtained. That is, the minutes can be created efficiently.

また、上述もしたように、図1を用いて説明した第1の実施の形態のICレコーダは、通信I/F144を備えており、パーソナルコンピュータなどの電子機器に接続可能である。そこで、上述した第1の実施の形態のICレコーダで録音されると共に、変化点にマークが付すようにされた音声信号(デジタル音声信号)をパーソナルコンピュータに転送するようにすれば、パーソナルコンピュータの大きな表示画面の表示装置を通じて、詳細情報をより多く表示し、目的とする発言者の発言部分を迅速に検索することができる。   As described above, the IC recorder according to the first embodiment described with reference to FIG. 1 includes the communication I / F 144 and can be connected to an electronic device such as a personal computer. Therefore, if an audio signal (digital audio signal) recorded by the IC recorder of the first embodiment described above and marked with a change point is transferred to the personal computer, the personal computer's Through the display device having a large display screen, it is possible to display more detailed information and to quickly search for a speech portion of a target speaker.

図10、図11は、上述した第1の実施の形態のICレコーダからパーソナルコンピュータに転送された録音音声信号、付与された変化点情報(マーク情報)に基づいて、パーソナルコンピュータに接続された表示装置200の表示画面への変化点情報の表示例を説明するための図である。   10 and 11 show the display connected to the personal computer based on the recorded audio signal transferred from the IC recorder of the first embodiment described above to the personal computer and the given change point information (mark information). 6 is a diagram for explaining a display example of change point information on a display screen of the apparatus 200. FIG.

図10の場合には、録音音声信号に対応する時間帯表示201と、その時間帯表示201の該当位置に、マーク表示(変化点表示)MK1、MK2、MK3、MK4、…を表示するようにする。このようにすれば、複数の変化点の位置を一見して認識することができる。そして、例えばマウスなどのポインティングデバイスを用いて、目的とするマーク表示にカーソルを位置付けてクリックすることにより、その位置から録音音声の再生を行うようにすることなどができるようにされる。   In the case of FIG. 10, the time zone display 201 corresponding to the recorded audio signal and the mark display (change point display) MK1, MK2, MK3, MK4,... To do. In this way, it is possible to recognize the positions of a plurality of change points at a glance. Then, for example, by using a pointing device such as a mouse to position the cursor on the target mark display and clicking, the recorded sound can be reproduced from that position.

また、図11の場合には、図8に示した表示を、表示装置200の表示画眼に複数個いっぺんに表示するようにしたものであり、話者の顔写真211(1)、211(2)、211(3)、…や発言内容に応じたテキストデータ212(1)、212(2)、212(3)、…を表示して、目的とする話者の発言部分を迅速に検索するなどのことができるようにされる。また、パーソナルコンピュータの機能を用いて、タイトル表示210を行うようにすることもできる。   In the case of FIG. 11, a plurality of the displays shown in FIG. 8 are displayed on the display image of the display device 200 all at once, and the speaker's face photographs 211 (1), 211 (2 ), 211 (3),... And text data 212 (1), 212 (2), 212 (3),... Corresponding to the content of the utterance are displayed to quickly search the utterance portion of the target speaker. And so on. In addition, the title display 210 can be performed using a function of a personal computer.

なお、図11の表示例の場合、左側の「00」、「01」、「02」、「03」、…は、録音音声の先頭からの時間を示すものである。もちろん、図8に示したような表示を複数個行うようにするなど、種々の表示態様の実現が可能である。   In the display example of FIG. 11, “00”, “01”, “02”, “03”,... On the left side indicate the time from the beginning of the recorded voice. Of course, it is possible to realize various display modes such as performing a plurality of displays as shown in FIG.

そして、発言(録音音声)とその発言者を識別する情報(シンボル)とが対応付けられたデータをパーソナルコンピュータなど表示部が大きい機器に転送すれば、音声データから文章を書き起こさなくても議事録が作成できる。つまり、この発明を適用したICレコーダで録音したデータそのものが議事録になっていることになる。   If the data in which the utterance (recorded voice) is associated with the information (symbol) identifying the utterer is transferred to a device such as a personal computer that has a large display unit, the agenda can be used without writing the sentence from the voice data. A record can be created. That is, the data itself recorded by the IC recorder to which the present invention is applied is the minutes.

また、そのデータを Webページで公開し、Webブラウザで閲覧できるようにするプラグイン(plug-in)のようなソフトウェアを用意すれば、ネットワークを通じて議事録を共有することが可能になる。これにより情報の共有、すなわち、情報を公開するまでの手間と時間が、この発明を用いることにより、大幅に削減できる。   In addition, if software such as a plug-in that makes the data public on a web page and can be viewed on a web browser is prepared, the minutes can be shared through the network. As a result, sharing of information, that is, time and effort until the information is disclosed can be greatly reduced by using the present invention.

[第2の実施の形態]
[ICレコーダの構成と動作の概要]
図12は、この第2の実施の形態の記録再生装置であるICレコーダを説明するためのブロック図である。この第2の実施の形態のICレコーダは、2つのマイクロホン131(1)、131(2)と、これら2つのマイクロホン131(1)、131(2)からの音声信号を処理する音声信号処理部136を備える点を除けば、図1に示した第1の実施の形態のICレコーダと同様に構成されるものである。このため、この第2の実施の形態のICレコーダにおいて、図1に示した第1の実施の形態のICレコーダと同様に構成される部分には同じ参照符号を付し、その部分の詳細な説明については省略することとする。
[Second Embodiment]
[Outline of configuration and operation of IC recorder]
FIG. 12 is a block diagram for explaining an IC recorder which is a recording / reproducing apparatus according to the second embodiment. The IC recorder of the second embodiment includes two microphones 131 (1) and 131 (2) and an audio signal processing unit that processes audio signals from the two microphones 131 (1) and 131 (2). Except for the point provided with 136, it is configured in the same manner as the IC recorder of the first embodiment shown in FIG. For this reason, in the IC recorder of the second embodiment, the same reference numerals are given to the same components as those of the IC recorder of the first embodiment shown in FIG. The description will be omitted.

そして、この第2の実施の形態のICレコーダにおいては、2つのマイクロホン131(1)、131(2)のそれぞれからの集音音声信号を音声信号処理部136において処理することにより、話者の位置(音源の位置)を特定するようにし、これをも考慮して集音した音声信号の変化点(話者の変化点)を特定することができるようにしたものである。すなわち、音声解析の結果得られる声紋データを用いた集音音声信号の変化点検出を行う場合の補助情報として、2つのマイクロホンの集音音声に基づく、話者の位置をも用いて、より正確に、変化点や話者を特定することができるようにしたものである。   In the IC recorder according to the second embodiment, the voice signal processing unit 136 processes the collected voice signals from the two microphones 131 (1) and 131 (2), so that the speaker's The position (sound source position) is specified, and the change point (speaker change point) of the collected sound signal can be specified taking this into consideration. That is, as auxiliary information for detecting a change point of a collected voice signal using voiceprint data obtained as a result of voice analysis, the position of the speaker based on the collected voices of two microphones is also used to be more accurate. In addition, change points and speakers can be specified.

図13は、マイクロホン131(1)、131(2)と、音声信号処理部136との構成例を説明するための図である。この図13に示す例の場合、2つのマイクロホン131(1)、131(2)のそれぞれは、図13にそれらの指向特性を示したように、いずれも単一指向性のものである。そして、マイクロホン131(1)、131(2)は、主指向方向が逆向きとなるように背中あわせに近接配置されている。これにより、マイクロホン131(1)は発言者Aの音声を良好に集音し、マイクロホン131(2)は発言者Bの音声を良好に集音することができるようにされる。   FIG. 13 is a diagram for explaining a configuration example of the microphones 131 (1) and 131 (2) and the audio signal processing unit 136. In the case of the example shown in FIG. 13, each of the two microphones 131 (1) and 131 (2) is unidirectional as shown in FIG. The microphones 131 (1) and 131 (2) are arranged close to each other so that the main directing direction is opposite. Thereby, the microphone 131 (1) can collect the voice of the speaker A satisfactorily, and the microphone 131 (2) can collect the voice of the speaker B satisfactorily.

そして、音声信号処理部136は、図13に示したように、加算器1361と、コンパレータ(比較器)1362と、A/Dコンバータ1363とを備えたものである。そして、マイクロホン131(1)、131(2)のそれぞれ集音された音声信号は、加算器1361と、コンパレータ1362に供給される。   The audio signal processing unit 136 includes an adder 1361, a comparator (comparator) 1362, and an A / D converter 1363 as shown in FIG. The sound signals collected by the microphones 131 (1) and 131 (2) are supplied to an adder 1361 and a comparator 1362.

加算器1361は、マイクロホン131(1)からの集音音声信号と、マイクロホン131(2)からの集音音声信号とを加算し、加算後の音声信号をA/Dコンバータ1363に供給する。マイクロホン131(1)からの集音音声とマイクロホン131(2)からの集音音声の加算信号は、次の(式1)のように表すことがで、無指向性マイクで集音したものと同じになることが分かる。
((1+cosθ)/2)+((1−cosθ)/2)=1 …(1式)
また、コンパレータ1362は、マイクロホン131(1)からの集音声信号と、マイクロホン131(2)からの集音音声信号とを比較する。そして、コンパレータ1362は、マイクロホン131(1)からの集音音声信号のレベルの方が大きければ、発言者Aが主に発言していると判断し、値が「1(ハイレベル)」となる話者判別信号を制御部100に供給する。また、コンパレータ1362は、マイクロホン131(2)からの集音音声信号のレベルの方が大きければ、発言者Bが主に発言していると判断し、値が「0(ローレベル)」となる話者判別信号を制御部100に供給する。
The adder 1361 adds the collected sound signal from the microphone 131 (1) and the collected sound signal from the microphone 131 (2), and supplies the added sound signal to the A / D converter 1363. The sum signal of the collected sound from the microphone 131 (1) and the collected sound from the microphone 131 (2) can be expressed as the following (Equation 1), and is collected by the omnidirectional microphone. You can see that they are the same.
((1 + cos θ) / 2) + ((1-cos θ) / 2) = 1 (Expression 1)
Further, the comparator 1362 compares the collected sound signal from the microphone 131 (1) with the collected sound signal from the microphone 131 (2). The comparator 1362 determines that the speaker A is mainly speaking if the level of the collected sound signal from the microphone 131 (1) is larger, and the value becomes “1 (high level)”. A speaker discrimination signal is supplied to the control unit 100. The comparator 1362 determines that the speaker B is mainly speaking if the level of the collected sound signal from the microphone 131 (2) is larger, and the value becomes “0 (low level)”. A speaker discrimination signal is supplied to the control unit 100.

これにより、マイクロホン131(1)からの集音音声信号と、マイクロホン131(2)からの集音音声信号とに基づいて、話者の位置を特定するようにし、発言者Aの発言か発言者Bの発言かを判別することができるようにしている。   Thus, the position of the speaker is specified based on the collected sound signal from the microphone 131 (1) and the collected sound signal from the microphone 131 (2), and the speaker A speaks or speaks. It is possible to determine whether the message is B.

なお、3人目の発言者Cが、マイクロホン131(1)、131(2)の主指向方向と交差する方向(図13において、発言者A、発言者Bをそれぞれ斜め前方に見る位置(図13の横方向))から発言した場合には、マイクロホン131(1)、131(2)からの集音音声の出力レベルはほぼ等しくなる。   Note that the third speaker C sees the speaker A and the speaker B obliquely forward in the direction crossing the main direction of the microphones 131 (1) and 131 (2) (FIG. 13). )), The output levels of the collected sound from the microphones 131 (1) and 131 (2) are substantially equal.

このような位置にある発言者Cについても対応する場合には、コンパレータ1362における閾値を2つ設けて、レベル差が±Vth以内なら横方向にいる発言者Cによる発言であると判断し、レベル差が+Vthより大きければ発言者Aであり、レベル差が−Vthより小さければ発言者Bであると判断するようにしてもよい。   When the speaker C at such a position is also supported, two threshold values in the comparator 1362 are provided, and if the level difference is within ± Vth, it is determined that the speaker C is in the horizontal direction, If the difference is larger than + Vth, the speaker A may be determined, and if the level difference is smaller than −Vth, the speaker B may be determined.

そして、マイクロホン131(1)の指向方向に位置する発言者、マイクロホン131(2)の指向方向に位置する発言者、マイクロホン131(1)、131(2)の指向方向と交差する方向に位置する発言者のそれぞれが誰であるかを把握しておくことにより、発言者(話者)が誰であるかを識別することができるようにされる。したがって、集音音声の特徴解析の結果得られる声紋データによる変化点検出の他に、マイクロホンの集音音声のレベルをも考慮することにより、発言者の特定をより正確に行うようにすることができる。   Then, a speaker located in the directivity direction of the microphone 131 (1), a speaker located in the directivity direction of the microphone 131 (2), and a direction intersecting the directivity direction of the microphones 131 (1) and 131 (2). By knowing who each of the speakers is, it is possible to identify who the speaker (speaker) is. Therefore, in addition to detection of change points based on voiceprint data obtained as a result of collected voice feature analysis, it is possible to more accurately identify the speaker by taking into account the level of the collected voice of the microphone. it can.

[マイクロホンと音声信号処理部の他の例]
また、マイクロホン131(1)、131(2)と音声信号処理部136とは、図14に示すように構成することもできる。すなわち、図14は、マイクロホン131(1)、131(2)と、音声信号処理部136との他の構成例を説明するための図である。この図14に示す例の場合、2つのマイクロホン131(1)、131(2)のそれぞれは、図14にそれらの指向特性を示したように、いずれも無指向性のものである。マイクロホン131(1)、131(2)は、例えば1cm位離間して近接配置するようにする。
[Other examples of microphone and audio signal processor]
Further, the microphones 131 (1) and 131 (2) and the audio signal processing unit 136 can be configured as shown in FIG. That is, FIG. 14 is a diagram for explaining another configuration example of the microphones 131 (1) and 131 (2) and the audio signal processing unit 136. In the case of the example shown in FIG. 14, each of the two microphones 131 (1) and 131 (2) is omnidirectional as shown in FIG. The microphones 131 (1) and 131 (2) are arranged close to each other with a spacing of about 1 cm, for example.

また、図14に示したように、この例の音声信号処理部136は、加算器1361、A/Dコンバータ1363、減算器1364、位相比較器1365を備えたものである。そして、マイクロホン131(1)、131(2)のそれぞれからの集音音声信号は、加算器1361と減算器1364とのそれぞれに供給される。   As shown in FIG. 14, the audio signal processing unit 136 of this example includes an adder 1361, an A / D converter 1363, a subtractor 1364, and a phase comparator 1365. The collected sound signals from the microphones 131 (1) and 131 (2) are supplied to the adder 1361 and the subtractor 1364, respectively.

ここで、加算器1361からの加算出力信号は、無指向性マイク出力と等価であり、減算器1364からの減算出力は、両指向性(8の字型指向性)マイク出力と等価である。両指向性マイクは、その音波の入射方向により出力の位相が正相または逆相になる。そこで、加算器1361からの加算出力(無指向性出力)と、減算器1364からの減算出力との間で位相コンパレータ1365により位相比較を行うことにより、減算器1364からの減算出力の極性を判断することにより発言者を特定できる。   Here, the added output signal from the adder 1361 is equivalent to the omnidirectional microphone output, and the subtracted output from the subtractor 1364 is equivalent to the bidirectional (eight-shaped directivity) microphone output. In the bi-directional microphone, the phase of the output is normal phase or reverse phase depending on the incident direction of the sound wave. Therefore, the polarity of the subtracted output from the subtractor 1364 is determined by performing phase comparison between the added output (omnidirectional output) from the adder 1361 and the subtracted output from the subtractor 1364 by the phase comparator 1365. By doing so, the speaker can be identified.

すなわち、減算器1364からの減算出力の極性が正相の場合には、発言者Aの発言を集音しており、減算器1364からの減算出力の極性が逆相の場合には、発言者Bの発言を集音していると判断することができる。   That is, when the polarity of the subtraction output from the subtractor 1364 is normal phase, the speech of the speaker A is collected, and when the polarity of the subtraction output from the subtractor 1364 is reverse phase, the speaker is collected. It can be determined that the utterance of B is collected.

また、図13を用いて説明した場合と同様に、発言者A、発言者Bのそれぞれを斜め前方に見る位置(図14の横方向)に位置する発言者Cの発言をも判断しようとする場合には、当該発言者Cの発言を集音した音声信号の減算出力は、そのレベルが小さくなる。そこで、加算器1361からの加算出力と、減算器1364からの減算出力とのレベルをチェックすることで、発言者Cの発言をも認識することが可能となる。   Similarly to the case described with reference to FIG. 13, it also tries to determine the utterance of the utterer C located at the position where the utterer A and the utterer B are viewed obliquely forward (in the horizontal direction in FIG. 14). In this case, the level of the subtraction output of the audio signal obtained by collecting the utterance of the utterer C becomes small. Therefore, by checking the levels of the addition output from the adder 1361 and the subtraction output from the subtractor 1364, it is possible to recognize the speech of the speaker C.

なお、図14に示した音声信号処理部136の場合には、加算器1361を用いるようにした。しかし、加算器1361は必須の構成要素ではない。例えば、マイクロホン131(1)、または、131(2)のいずれか一方の出力信号を、A/Dコンバータ1363と、位相比較器1365とに供給するようにしてもよい。   In the case of the audio signal processing unit 136 shown in FIG. 14, an adder 1361 is used. However, the adder 1361 is not an essential component. For example, the output signal of either the microphone 131 (1) or 131 (2) may be supplied to the A / D converter 1363 and the phase comparator 1365.

このように、図13、図14は、録音処理時において、2つのマイクロホン131(1)、131(2)の集音音声のレベルや極性を用いて、発言者の位置を特定することができるようにしている。そして、この特定結果をも考慮することにより、集音音声の変化点の検出、および、発言者の特定を精度良く行うことができるようにしている。   As described above, in FIGS. 13 and 14, the position of the speaker can be specified using the levels and polarities of the collected voices of the two microphones 131 (1) and 131 (2) during the recording process. I am doing so. By taking this identification result into consideration, it is possible to accurately detect the change point of the collected sound and to identify the speaker.

そして、図13、図14を用いた方式は、録音処理時だけでなく、再生処理時に録音音声に対してマークを付与する場合や、録音音声に対してマーク付与処理だけを独立に行う場合にも利用することができる。   The method using FIG. 13 and FIG. 14 is used not only at the time of the recording process but also when a mark is given to the recorded sound at the time of the reproduction process, or when only the mark giving process is performed on the recorded sound independently. Can also be used.

例えば、図13を用いて説明した方式を録音処理後において利用しようとする場合に置いては、図15Aに示すように、単一指向性のマイクロホン131(1)、131(2)のそれぞれからの集音音声信号を2チャンネルステレオ録音する。そして、図15Bに示すように、再生時、あるいは、マーク付与処理を独立に行う場合において、外部記憶装置111から読み出されるデータ圧縮された2チャンネルの音声信号のそれぞれを伸張処理し、伸張処理後の2チャンネルの音声信号を図13に示したコンパレータ1362と同様の機能を有するコンパレータに入力する。   For example, when the system described with reference to FIG. 13 is to be used after recording processing, as shown in FIG. 15A, each of the unidirectional microphones 131 (1) and 131 (2) is used. 2 channel stereo recording of the collected audio signal. Then, as shown in FIG. 15B, during reproduction or when the mark providing process is performed independently, each of the compressed two-channel audio signals compressed from the external storage device 111 is decompressed, and after the decompression process. Are input to a comparator having the same function as the comparator 1362 shown in FIG.

これにより、マイクロホン131(1)の集音音声信号が主に用いられたか、マイクロホン131(2)の集音音声信号が主に用いられたかを判別することができ、この判別結果と、予め把握されている各マイクロホンに対する発言者の位置とに基づいて、発言者を特定することができる。   This makes it possible to determine whether the collected sound signal of the microphone 131 (1) is mainly used or whether the collected sound signal of the microphone 131 (2) is mainly used. The speaker can be specified based on the position of the speaker with respect to each microphone.

なお、図14を用いて説明した方式を録音処理後において利用しようとする場合においても同様に、マイクロホン131(1)、131(2)からの出力信号を2チャンネルステレオ録音し、再生時やマーク付与処理を独立に行う場合において、図14に示した音声信号処理部136と同様の処理を行うことによって、発言者を特定することができる。   Similarly, when the method described with reference to FIG. 14 is to be used after the recording process, the output signals from the microphones 131 (1) and 131 (2) are recorded in two channels in stereo, and are reproduced or marked. In the case where the assigning process is performed independently, the speaker can be specified by performing the same process as the audio signal processing unit 136 shown in FIG.

そして、マイクロホン131(1)、131(2)からの出力信号を用いた発言者の特定処理を行う場合に予め用意するマイクロホン131(1)、131(2)のそれぞれに対する発言者の位置情報は、例えば、図16に示す話者位置データベースのようにして、ICレコーダに記憶保持されておくようにすればよい。   The position information of the speaker with respect to each of the microphones 131 (1) and 131 (2) prepared in advance when performing speaker specifying processing using output signals from the microphones 131 (1) and 131 (2) is as follows. For example, it may be stored and held in the IC recorder as in the speaker position database shown in FIG.

図16は、話者位置データベースの一例を説明するための図である。この例の話者位置データベースは、ICレコーダの音声信号処理部136からの識別結果に対応する話者識別信号と、各話者識別信号に対応するマイクロホンの識別情報と、各マイクロホンを主に用いる発言者候補の識別子(話者識別子)からなるものである。また、図16に示したように、1つのマイクロホンに対して、話者識別子は複数個登録することができるようにしている。   FIG. 16 is a diagram for explaining an example of the speaker position database. The speaker position database in this example mainly uses the speaker identification signal corresponding to the identification result from the audio signal processing unit 136 of the IC recorder, the microphone identification information corresponding to each speaker identification signal, and each microphone. It consists of an identifier (speaker identifier) of a speaker candidate. Further, as shown in FIG. 16, a plurality of speaker identifiers can be registered for one microphone.

この図16に示すような話者位置データベースは、好ましくは、会議の始まる前に作成しておく。一般に、会議への出席者や各出席者の席順は予め決まっている場合が多いので、ICレコーダの設置位置を考慮して、会議の始まる前に話者位置データベースを作成することが可能である。   The speaker location database as shown in FIG. 16 is preferably created before the start of the conference. In general, there are many cases where attendees to a conference and the seating order of each attendee are determined in advance, so that it is possible to create a speaker location database before the start of the conference in consideration of the installation position of the IC recorder. .

また、会議への出席者の急な変更や、会議中において、座席が変更になった場合においては、例えば、マイクロホンの集音音声に応じた発言者の認識は行わないようにし、音声解析処理により得た声紋データによる変化点の検出だけを行うようにしたり、あるいは、録音処理後において、話者位置データベースを調整して正確なものとし、録音音声に対して、マークの付け直しを行うようにしたりすることもできる。   Also, if the attendees suddenly change or the seat changes during the meeting, for example, the speaker is not recognized according to the sound collected by the microphone, and voice analysis processing is performed. Only the change point is detected based on the voiceprint data obtained from the above, or after the recording process, the speaker position database is adjusted to be accurate and the recorded voice is remarked. It can also be made.

この図16に示すような話者位置データベースを用いることにより、話者位置を特定し、その位置の話者自体をも特定することができるようにされる。   By using the speaker position database as shown in FIG. 16, the speaker position can be specified, and the speaker itself at that position can also be specified.

なお、この第2の実施の形態においては、2つのマイクロホン131(1)、131(2)を用い、発言者も2人または3人である場合を例にして説明したが、これに限るものではない。用いるマイクロホンを多くすることにより、より多くの発言者の識別を行うことが可能である。   In the second embodiment, two microphones 131 (1) and 131 (2) are used and two or three speakers are used as an example. However, the present invention is not limited to this. is not. By using more microphones, it is possible to identify more speakers.

また、マイクロホンからの出力信号に応じて、発言者の位置を特定することにより、発言者自身を特定する方式としては、図13、図14を用いて説明した方式に限るものではない。例えば、近接4点法や近接3点法などを用いるようにすることもできる。   Further, the method of specifying the speaker himself / herself by specifying the position of the speaker according to the output signal from the microphone is not limited to the method described with reference to FIGS. For example, a proximity 4-point method or a proximity 3-point method can be used.

近接4点法は、図17Aに示すように、必ず1つのマイクロホンが同一平面内にないようにして近接配置される4つのマイクロホンM0、M1、M2、M3で集音された音声信号の時間構造のわずかな違いに着目して、短時間相関あるいは音響インテンシティなどの手法により、音源の位置や大きさなどの空間情報を算出するようにする手法である。このように、少なくとも4つのマイクロホンを用いることにより、発言者の位置を正確に特定し、その発言者の位置(座席位置)に応じて、発言者を特定することも可能である。   As shown in FIG. 17A, the proximity four-point method is a time structure of audio signals collected by four microphones M0, M1, M2, and M3 that are arranged in close proximity so that one microphone is not necessarily in the same plane. In this method, spatial information such as the position and size of the sound source is calculated by a technique such as short-time correlation or acoustic intensity. In this way, by using at least four microphones, it is possible to accurately specify the position of the speaker and to specify the speaker according to the position (seat position) of the speaker.

また、発言者がほぼ水平面内に位置すると限定して差し支えない場合には、近接配置されるマイクロホンの配置関係は、図17Bに示すように水平面内の3つでよい。   Further, in the case where it is possible to limit the speaker to be located substantially in the horizontal plane, the arrangement relationship of the microphones arranged close to each other may be three in the horizontal plane as shown in FIG. 17B.

また、図17A、Bに示したように、各マイクロホンの配置関係は、直交関係とならなくてもよい。図17Bに示した近接3点法の場合には、3つのマイクロホンが、例えば正三角形の頂点に配置されるような位置関係となるようにしてもよい。   As shown in FIGS. 17A and 17B, the arrangement relationship of the microphones does not have to be an orthogonal relationship. In the case of the proximity three-point method shown in FIG. 17B, the three microphones may have a positional relationship such as being arranged at the apex of an equilateral triangle, for example.

[第2の実施の形態の変形例]
上述した第2の実施の形態のICレコーダにおいては、音声解析の結果得られる声紋データを用いた集音音声信号の変化点検出を行う場合に、2つのマイクロホンの集音音声に基づく、主に利用されているマイクロホンの判別結果をも考慮することによって、音声信号の変化点の検出をより精度良く行うようにした。しかし、これに限るものではない。
[Modification of Second Embodiment]
In the above-described IC recorder of the second embodiment, when detecting a change point of a collected sound signal using voiceprint data obtained as a result of sound analysis, mainly based on the collected sound of two microphones. By taking into account the discrimination results of the microphones used, the change point of the audio signal is detected with higher accuracy. However, it is not limited to this.

例えば、図18に示すように、2つのマイクロホン131(1)、131(2)と、音声信号処理部136は備えるが、音声特徴解析部143を備えないようにしたICレコーダを構成することも可能である。すなわち、図18のICレコーダは、音声特徴解析部143を備えない点を除けば、図12に示した第2の実施の形態のICレコーダと同様に構成されるものである。   For example, as shown in FIG. 18, an IC recorder may be configured in which two microphones 131 (1) and 131 (2) and an audio signal processing unit 136 are provided, but an audio feature analysis unit 143 is not provided. Is possible. That is, the IC recorder of FIG. 18 is configured similarly to the IC recorder of the second embodiment shown in FIG. 12 except that the audio feature analysis unit 143 is not provided.

そして、2つのマイクロホン131(1)、131(2)の集音音声に基づく、主に利用されているマイクロホンの判別結果のみに基づいて、話者の変化点を検出し、その変化点に応じた音声信号上の対応する位置にマークを付すようにすることもできる。このようにした場合には、音声特徴解析処理を行う必要が無いので、CPU101にかかる負荷を軽減することができる。   Then, based on the collected sound of the two microphones 131 (1) and 131 (2), the change point of the speaker is detected based only on the discrimination result of the microphone that is mainly used, and according to the change point. It is also possible to add a mark to the corresponding position on the audio signal. In this case, since it is not necessary to perform the voice feature analysis process, the load on the CPU 101 can be reduced.

なお、上述した実施の形態においては、処理対象の音声信号の変化点にマークを付すようにしたが、変化点であっても、話音声への変化点のみにマークを付すようにすることによって、より効率的に検索を行うようにすることができる。例えば、処理対象の音声信号の信号レベルや声紋データなどに基づいて、話音声とそれ以外の雑音などの不要部分とを明確に認識するようにし、話音声の開始点のみにマークを付すようにすることもできる。   In the above-described embodiment, a mark is attached to the change point of the processing target audio signal. However, even if it is a change point, the mark is attached only to the change point to the spoken voice. , You can make the search more efficient. For example, based on the signal level or voiceprint data of the processing target speech signal, the speech and other unnecessary parts such as noise are clearly recognized, and only the start point of the speech is marked. You can also

また、声紋データや音声信号の周波数の特徴データなどに基づいて、話者が男性か女性かを判別して、変化点における話者の性別を通知するようにすることも可能である。   It is also possible to determine whether the speaker is male or female based on voiceprint data, frequency characteristic data of the audio signal, etc., and to notify the gender of the speaker at the changing point.

また、上述したように付されるマーク情報に基づいて、検索だけを行う用にする検索モードや、付されたマークの位置を変更したり、削除したり、追加したりするマーク編集モードや、また、付されたマークに応じて指定可能な話者の発言部分のみ、例えば、Aさんの発言部分のみを再生するようにする特殊再生モードなどを設けるようにすることもできる。これらの各モードの実現は、CPU101で実行するプログラムに追加のみによって比較的に簡単に実現可能である。   In addition, based on the mark information attached as described above, a search mode for performing only a search, a mark edit mode for changing, deleting, or adding a position of the attached mark, It is also possible to provide a special reproduction mode for reproducing only the utterance portion of the speaker that can be specified according to the mark, for example, only the utterance portion of Mr. A. Each of these modes can be realized relatively easily only by adding to the program executed by the CPU 101.

また、図6に示した音声特徴データベースの声紋データを、変化点の検出に用いた声紋データによって更新し、精度の高い音声特徴データベースにするなど、データベースの更新機能を持たせるようにしてもよい。例えば、声紋データの比較処理において不一致であっても、実際にその発言者の音声特徴データベースが存在している場合には、その発言者のデータベースの声紋データを新たに取得した声紋データに変更するようにすることができる。   In addition, the voice print data in the voice feature database shown in FIG. 6 may be updated with the voice print data used for detecting the change point to obtain a highly accurate voice feature database. . For example, even if there is a mismatch in the voice print data comparison process, if the voice feature database of the speaker is actually present, the voice print data of the speaker database is changed to the newly acquired voice print data. Can be.

また、声紋データの比較処理において一致しても、実際には違う話者の声紋データと一致してしまうような場合には、その異なる話者の声紋データを比較処理に用いないように設定するなどのこともできる。   In addition, if the voiceprint data is matched in the voiceprint data comparison process but actually matches the voiceprint data of a different speaker, the voiceprint data of the different speaker is set not to be used in the comparison process. You can also.

また、声紋データが、複数の話者の声紋データと一致してしまうような場合には、正しい話者とだけ一致するように、用いる声紋データに優先順位を付けるようにしてももちろんよい。   In addition, when the voiceprint data matches the voiceprint data of a plurality of speakers, the voiceprint data to be used may be prioritized so as to match only the correct speaker.

また、マークを付す位置は、発言の開始点だけでなく、終了点に付すようにしてもよいし、その他、開始点から数秒後または数秒前などのユーザ個々の利便性を考慮して、変更できるようにすることも可能である。   In addition, the position where the mark is added may be added not only to the start point of the speech but also to the end point, and may be changed in consideration of the convenience of each user such as several seconds or several seconds before the start point. It is also possible to make it possible.

また、音声信号の特徴解析は、上述もしたように、声紋解析だけでなく、種々の方法の1つ以上を用いることにより、精度の高い解析データを得るようにすることができる。   In addition, as described above, the feature analysis of the audio signal can obtain highly accurate analysis data by using not only the voice print analysis but also one or more of various methods.

また、上述した第2の実施の形態においては、主に2つのマイクロホンを用いた場合を例にして説明したが、これに限るものではない。マイクロホンの数は2つ以上であれば、いくつでも良く、それら複数のマイクロホンの個々の集音音声の信号レベル、極性、また、集音までの遅延時間などの種々のパラメータを利用して、話者の位置を特定し、その位置に応じた話者自身を特定できるようにすることができる。   In the above-described second embodiment, the case where two microphones are mainly used has been described as an example, but the present invention is not limited to this. As long as the number of microphones is two or more, any number of microphones may be used. By using various parameters such as the signal level, polarity, and delay time until sound collection of each of the plurality of microphones. The position of the speaker can be specified, and the speaker himself can be specified according to the position.

また、上述した第1、第2の実施の形態においては、音声信号の記録再生装置であるICレコーダにこの発明を適用した場合を例にして説明したが、これに限るものではない。例えば、ハードディスクドライブやMDなどの光磁気ディスク、DVDなどの光ディスクなどの記録媒体を用いる記録装置、再生装置、記録再生装置にこの発明を適用することができる。すなわち、種々の記録媒体を用いる記録装置、再生装置、記録再生装置にこの発明を適用することが可能である。   In the first and second embodiments described above, the case where the present invention is applied to an IC recorder that is a recording / reproducing apparatus for audio signals has been described as an example. However, the present invention is not limited to this. For example, the present invention can be applied to a recording apparatus, a reproducing apparatus, and a recording / reproducing apparatus that use a recording medium such as a hard disk drive or a magneto-optical disk such as an MD or an optical disk such as a DVD. That is, the present invention can be applied to a recording apparatus, a reproducing apparatus, and a recording / reproducing apparatus that use various recording media.

[ソフトウェアによる実現]
また、上述した実施の形態のICレコーダの音声特徴解析部143、音声信号処理部136などの各処理部の機能を実現するようにすると共に、各機能を有機的に結びつけるようにするプログラムを作成し、このプログラムをCPU101において実行するようにすることによっても、この発明を実現することができる。すなわち、図4、図5のフローチャートに示した処理を行うプログラムを作成し、これをCPU101で実行させることにより、この発明を実現することができる。
[Realization by software]
Also, a program for realizing the functions of each processing unit such as the audio feature analysis unit 143 and the audio signal processing unit 136 of the IC recorder according to the above-described embodiment and organically linking the functions is created. However, the present invention can also be realized by causing the CPU 101 to execute this program. That is, the present invention can be realized by creating a program for performing the processing shown in the flowcharts of FIGS. 4 and 5 and causing the CPU 101 to execute the program.

また、上述した実施の形態と同様に、例えば音声特徴解析部143の機能を実現したプログラムがインストールされたパーソナルコンピュータに、録音機で録音した音声データを取り込み、話者の切り換わりを検出させることも可能である。   Similarly to the above-described embodiment, for example, the personal computer installed with the program that implements the function of the voice feature analysis unit 143 is loaded with the voice data recorded by the recorder, and the switching of the speaker is detected. Is also possible.

この発明が適用されて構成された記録再生装置の一例を説明するためのブロック図である。It is a block diagram for demonstrating an example of the recording / reproducing apparatus with which this invention was applied. 図1に示した記録再生装置において、集音して録音する音声信号の変化点にマークを付すようにする処理の概要を説明するための図である。FIG. 2 is a diagram for explaining an outline of processing for marking a change point of an audio signal to be collected and recorded in the recording / reproducing apparatus shown in FIG. 1. 録音した音声信号の再生時に行われるマークへの位置付け動作を説明するための図であり、操作に応じて変化するLCD135の表示情報の変化を示す図である。It is a figure for demonstrating the positioning operation | movement to the mark performed at the time of reproduction | regeneration of the recorded audio | voice signal, and is a figure which shows the change of the display information of LCD135 which changes according to operation. 図1に示した記録再生装置における録音処理を説明するためのフローチャートである。4 is a flowchart for explaining a recording process in the recording / reproducing apparatus shown in FIG. 1. 図1に示した記録再生装置における再生処理を説明するためのフローチャートである。3 is a flowchart for explaining a reproduction process in the recording / reproducing apparatus shown in FIG. 1. 図1に示した構成を有する記録再生装置の外部記憶装置111の記憶領域に形成される音声データベースの一例を説明するための図である。It is a figure for demonstrating an example of the audio | voice database formed in the storage area of the external storage device 111 of the recording / reproducing apparatus which has the structure shown in FIG. 図1に示した構成を有する記録再生装置において行われる集音した音声信号にマークを付す処理の概要を説明するための図である。It is a figure for demonstrating the outline | summary of the process which attaches a mark to the collected audio | voice signal performed in the recording / reproducing apparatus which has the structure shown in FIG. 録音した音声信号の再生時に行われるマークへの位置付け動作を説明するための図であり、操作に応じて変化するLCD135の表示情報の変化を示す図である。It is a figure for demonstrating the positioning operation | movement to the mark performed at the time of reproduction | regeneration of the recorded audio | voice signal, and is a figure which shows the change of the display information of LCD135 which changes according to operation. 録音処理終了後において、録音した音声信号の変化点にマークを付すようにする処理を行う場合の処理を説明するためのフローチャートである。It is a flowchart for demonstrating the process in the case of performing the process which attaches a mark to the change point of the recorded audio | voice signal after completion | finish of a recording process. 図1に示した記録再生装置からパーソナルコンピュータに転送されたデータに応じて、表示装置の表示画面への変化点情報の表示例を説明するための図である。It is a figure for demonstrating the example of a display of the change point information on the display screen of a display apparatus according to the data transferred to the personal computer from the recording / reproducing apparatus shown in FIG. 図1に示した記録再生装置からパーソナルコンピュータに転送されたデータに応じて、表示装置の表示画面への変化点情報の表示例を説明するための図である。It is a figure for demonstrating the example of a display of the change point information on the display screen of a display apparatus according to the data transferred to the personal computer from the recording / reproducing apparatus shown in FIG. この発明が適用されて構成された記録再生装置の他の例を説明するためのブロック図である。It is a block diagram for demonstrating the other example of the recording / reproducing apparatus with which this invention was applied. マイクロホン131(1)、131(2)と、音声信号処理部136との一例を説明するための図である。It is a figure for demonstrating an example of microphone 131 (1), 131 (2) and the audio | voice signal processing part 136. FIG. マイクロホン131(1)、131(2)と、音声信号処理部136との他の例を説明するための図である。FIG. 11 is a diagram for explaining another example of microphones 131 (1) and 131 (2) and an audio signal processing unit 136. 録音処理終了後において、録音した音声信号の変化点にマークを付すようにする処理を行う場合の処理を説明するための図である。It is a figure for demonstrating the process in the case of performing the process which attaches a mark to the change point of the recorded audio | voice signal after completion | finish of a recording process. 話者位置データベースの一例を説明するための図である。It is a figure for demonstrating an example of a speaker position database. マイクロホンからの出力信号に応じて、発言者の位置を特定することにより、発言者自身を特定する方式の他の例を説明するための図である。It is a figure for demonstrating the other example of the system which specifies a speaker himself / herself by specifying the position of a speaker according to the output signal from a microphone. この発明が適用されて構成された記録再生装置の他の例を説明するためのブロック図である。It is a block diagram for demonstrating the other example of the recording / reproducing apparatus with which this invention was applied.

符号の説明Explanation of symbols

101…CPU、102…ROM、103…RAM、104…CPUバス、110…ファイル処理部、111…データ記憶装置、120…入力処理部、121…キー操作部、132…A/Dコンバータ、131…マイクロホン、134…D/Aコンバータ、133…スピーカ、135…LCD、141…データ圧縮処理部、142…データ伸張処理部、143…音声特徴解析部、144…通信I/F、145…接続端子、131(1)、131(2)…マイクロホン、136…音声信号処理部   DESCRIPTION OF SYMBOLS 101 ... CPU, 102 ... ROM, 103 ... RAM, 104 ... CPU bus, 110 ... File processing unit, 111 ... Data storage device, 120 ... Input processing unit, 121 ... Key operation unit, 132 ... A / D converter, 131 ... Microphone, 134 ... D / A converter, 133 ... Speaker, 135 ... LCD, 141 ... Data compression processing unit, 142 ... Data expansion processing unit, 143 ... Audio feature analysis unit, 144 ... Communication I / F, 145 ... Connection terminal, 131 (1), 131 (2) ... microphone, 136 ... audio signal processing unit

Claims (11)

複数のマイクと、
上記マイクから入力される信号をデジタル信号へ変換するデジタル変換手段と、
上記デジタル信号に変換された信号から音声信号部分を検出する音声信号検出手段と、
上記音声信号検出手段によって検出された複数のマイクによって集音された音声信号部分に基づいて話者の位置を特定するとともに話者の変化点を検出するための話者検出手段と、
話者を特定するデータと話者に関する話者関連表示情報とを関連づけて話者毎に記憶する話者情報記憶手段と、
記憶媒体に上記デジタル信号と上記話者の変化点の情報を記憶させる記憶制御手段と、
情報表示がされる表示手段と、
上記記憶媒体に記憶されたデジタル信号と上記話者の変化点の情報を再生する再生手段と、
話者の変化点の情報に基づいて、上記デジタル信号の再生に同期して話者関連表示情報を上記表示手段に表示する制御手段と
を備える記憶再生装置。
Multiple microphones,
Digital conversion means for converting a signal input from the microphone into a digital signal;
Audio signal detection means for detecting an audio signal portion from the signal converted into the digital signal;
Speaker detection means for specifying the position of the speaker based on the audio signal parts collected by the plurality of microphones detected by the audio signal detection means and detecting a change point of the speaker;
Speaker information storage means for associating data for identifying a speaker and speaker-related display information related to the speaker for each speaker;
Storage control means for storing information on the digital signal and the change point of the speaker in a storage medium;
Display means for displaying information;
Reproducing means for reproducing the digital signal stored in the storage medium and the information of the change point of the speaker;
A storage / reproducing apparatus comprising: control means for displaying speaker-related display information on the display means in synchronism with reproduction of the digital signal based on information on a change point of the speaker.
上記特定された話者の位置の話者を特定するための話者位置情報が入力される話者位置入力手段を更に備え、入力された話者位置が上記話者情報記憶手段に記憶される第1項記載の記憶再生装置。   Speaker position input means for inputting speaker position information for specifying a speaker at the specified speaker position is further provided, and the input speaker position is stored in the speaker information storage means. The storage / reproducing apparatus according to claim 1. 上記デジタル信号に変換された信号を情報圧縮する情報圧縮手段と、
上記記憶手段に記憶された圧縮されたデジタル信号を伸張する圧縮情報伸張手段と
を更に備え、
上記記憶媒体には情報圧縮されたデジタル信号が記憶される第2項記載の記憶再生装置。
Information compression means for compressing information on the signal converted into the digital signal;
Compression information expansion means for expanding the compressed digital signal stored in the storage means,
The storage / reproducing apparatus according to claim 2, wherein the storage medium stores a digital signal compressed with information.
上記話者関連表示情報が入力される入力手段を更に備える第3項記載の記憶再生装置。   4. The storage / reproducing apparatus according to claim 3, further comprising input means for inputting the speaker-related display information. 上記話者関連表示情報は顔写真である第4項記載の記憶再生装置。   5. The storage / reproducing apparatus according to claim 4, wherein the speaker-related display information is a face photograph. 上記デジタル信号に変換された信号を情報圧縮する情報圧縮手段と、
上記記憶手段に記憶された圧縮されたデジタル信号を伸張する圧縮情報伸張手段と
を更に備え、
上記記憶媒体には情報圧縮されたデジタル信号が記憶される第1項記載の記憶再生装置。
Information compression means for compressing information on the signal converted into the digital signal;
Compression information expansion means for expanding the compressed digital signal stored in the storage means,
The storage / reproducing apparatus according to claim 1, wherein the storage medium stores a digital signal compressed with information.
上記話者関連表示情報が入力される入力手段を更に備える第1項記載の記憶再生装置。   The storage / reproducing apparatus according to claim 1, further comprising an input means for inputting the speaker-related display information. 上記話者関連表示情報は顔写真である第1項記載の記憶再生装置。   The storage / reproducing apparatus according to claim 1, wherein the speaker-related display information is a face photograph. 複数のマイクから入力される信号を記録媒体に記録可能で、記録媒体に記憶された信号を再生する記憶再生装置の制御方法において、
上記マイクから入力される信号を記録媒体に記憶する制御は、
マイクから入力される信号をデジタル信号へ変換するステップと、
上記デジタル信号に変換された信号から音声信号部分を検出するステップと、
検出された複数のマイクによって集音された音声信号部分に基づいて話者の位置を特定するとともに話者の変化点を検出するステップと、
記録媒体に上記デジタル信号と上記話者の変化点の情報を記憶するステップと、
を備え、
上記記録媒体に記録された信号を再生する制御は、
上記記憶媒体に記憶されたデジタル信号と上記話者の変化点の情報を再生するステップと、
話者を特定するデータと話者に関する話者関連表示情報とを関連づけて話者毎に記憶する話者情報記憶手段から上記話者の変化点の情報に基づいて話者関連表示情報を読み出すステップと、
上記デジタル信号の再生に同期して上記話者の変化点の情報と上記話者情報記憶手段から読み出した上記話者関連表示情報を表示手段に表示するように制御するステップと
を備える記憶再生装置の制御方法。
In a control method of a storage / reproduction device that can record signals input from a plurality of microphones on a recording medium and reproduce a signal stored in the recording medium,
Control for storing the signal input from the microphone in the recording medium is as follows.
Converting a signal input from a microphone into a digital signal;
Detecting an audio signal portion from the signal converted into the digital signal;
Identifying the position of the speaker based on the audio signal portions collected by the detected plurality of microphones and detecting a change point of the speaker;
Storing the digital signal and information on the change point of the speaker in a recording medium;
With
The control for reproducing the signal recorded on the recording medium is as follows:
Reproducing the digital signal stored in the storage medium and the information of the change point of the speaker;
Reading speaker related display information from speaker information storage means for storing speaker-specific data and speaker-related display information related to the speaker for each speaker and storing them for each speaker. When,
And a step of controlling to display the speaker-related display information read from the speaker information storage means on the display means in synchronism with the reproduction of the digital signal. Control method.
上記特定された話者の位置の話者を特定するための話者位置情報の入力を受け付けるステップと、
受け付けた上記話者位置情報を上記話者情報記憶手段に記憶するステップと
を備える第9項記載の記憶再生装置の制御方法。
Accepting input of speaker location information for identifying a speaker at the specified speaker location;
The storage / reproducing apparatus control method according to claim 9, further comprising: storing the received speaker position information in the speaker information storage unit.
上記話者関連表示情報の入力を受け付けるステップをさらに備える第10項記載の記憶再生装置の制御方法。   The control method for a storage / reproducing apparatus according to claim 10, further comprising a step of receiving input of the speaker-related display information.
JP2007291765A 2007-11-09 2007-11-09 Storage/reproduction device and control method of storing/reproducing device Pending JP2008102538A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007291765A JP2008102538A (en) 2007-11-09 2007-11-09 Storage/reproduction device and control method of storing/reproducing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007291765A JP2008102538A (en) 2007-11-09 2007-11-09 Storage/reproduction device and control method of storing/reproducing device

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004006456A Division JP2005202014A (en) 2004-01-14 2004-01-14 Audio signal processor, audio signal processing method, and audio signal processing program

Publications (1)

Publication Number Publication Date
JP2008102538A true JP2008102538A (en) 2008-05-01

Family

ID=39436848

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007291765A Pending JP2008102538A (en) 2007-11-09 2007-11-09 Storage/reproduction device and control method of storing/reproducing device

Country Status (1)

Country Link
JP (1) JP2008102538A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014022818A (en) * 2012-07-13 2014-02-03 Iwatsu Electric Co Ltd Voice recording/reproduction device and method
WO2021161834A1 (en) * 2020-02-10 2021-08-19 株式会社時空テクノロジーズ Recorder, information processing device, information processing system, and information processing method
JP2021128323A (en) * 2020-02-10 2021-09-02 株式会社時空テクノロジーズ Information processing apparatus, information processing system, and program
CN113571101A (en) * 2021-09-10 2021-10-29 深圳市升迈电子有限公司 Intelligent recording method, device, equipment and storage medium

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792988A (en) * 1993-09-27 1995-04-07 Matsushita Electric Ind Co Ltd Speech detecting device and video switching device
JP2000148189A (en) * 1998-11-17 2000-05-26 Olympus Optical Co Ltd Speech processing device
JP2001056700A (en) * 1999-08-20 2001-02-27 Olympus Optical Co Ltd Voice recording/reproducing device
JP2003099094A (en) * 2001-09-25 2003-04-04 Electronic Navigation Research Institute Voice processing device
JP2005202014A (en) * 2004-01-14 2005-07-28 Sony Corp Audio signal processor, audio signal processing method, and audio signal processing program
JP2006194959A (en) * 2005-01-11 2006-07-27 Sony Corp Voice detector, automatic imaging device and voice detecting method
JP2007108518A (en) * 2005-10-14 2007-04-26 Sharp Corp Voice recording and reproducing apparatus

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792988A (en) * 1993-09-27 1995-04-07 Matsushita Electric Ind Co Ltd Speech detecting device and video switching device
JP2000148189A (en) * 1998-11-17 2000-05-26 Olympus Optical Co Ltd Speech processing device
JP2001056700A (en) * 1999-08-20 2001-02-27 Olympus Optical Co Ltd Voice recording/reproducing device
JP2003099094A (en) * 2001-09-25 2003-04-04 Electronic Navigation Research Institute Voice processing device
JP2005202014A (en) * 2004-01-14 2005-07-28 Sony Corp Audio signal processor, audio signal processing method, and audio signal processing program
JP2006194959A (en) * 2005-01-11 2006-07-27 Sony Corp Voice detector, automatic imaging device and voice detecting method
JP2007108518A (en) * 2005-10-14 2007-04-26 Sharp Corp Voice recording and reproducing apparatus

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014022818A (en) * 2012-07-13 2014-02-03 Iwatsu Electric Co Ltd Voice recording/reproduction device and method
WO2021161834A1 (en) * 2020-02-10 2021-08-19 株式会社時空テクノロジーズ Recorder, information processing device, information processing system, and information processing method
JP2021128323A (en) * 2020-02-10 2021-09-02 株式会社時空テクノロジーズ Information processing apparatus, information processing system, and program
CN113571101A (en) * 2021-09-10 2021-10-29 深圳市升迈电子有限公司 Intelligent recording method, device, equipment and storage medium

Similar Documents

Publication Publication Date Title
JP2005202014A (en) Audio signal processor, audio signal processing method, and audio signal processing program
US7848493B2 (en) System and method for capturing media
EP1865426B1 (en) Information processing apparatus, information processing method, and computer program
JP5145937B2 (en) Content playback method and apparatus with playback start position control
US8270587B2 (en) Method and arrangement for capturing of voice during a telephone conference
US20090232471A1 (en) Information Recording Apparatus
CN104123115A (en) Audio information processing method and electronic device
JP6314837B2 (en) Storage control device, reproduction control device, and recording medium
WO2016197708A1 (en) Recording method and terminal
CN105845124A (en) Audio processing method and device
EP3522570A2 (en) Spatial audio signal filtering
TWM594323U (en) Intelligent meeting record system
CN108320761B (en) Audio recording method, intelligent recording device and computer readable storage medium
JP2008102538A (en) Storage/reproduction device and control method of storing/reproducing device
JP2018151533A (en) Communication terminal, communication program and communication method
Maloney et al. What can digital audio data do for you?
JP4015018B2 (en) Recording apparatus, recording method, and recording program
JP4531546B2 (en) Indexing system using control signals
JP2005107617A (en) Voice data retrieval apparatus
JP2005107617A5 (en)
JP7172299B2 (en) Information processing device, information processing method, program and information processing system
JP2004080486A (en) Minutes creating system, minutes data creating method, minutes data creating program
JP2023120068A (en) Speech processing system, device and speech processing method
JP2023061165A (en) Information processing device and control method
KR20090023978A (en) Speaker annotation system and method for recorded data

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090824

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110628