JP2006208483A - Device, method, and program for assisting survey of interesting matter of listener, and recording medium - Google Patents

Device, method, and program for assisting survey of interesting matter of listener, and recording medium Download PDF

Info

Publication number
JP2006208483A
JP2006208483A JP2005017276A JP2005017276A JP2006208483A JP 2006208483 A JP2006208483 A JP 2006208483A JP 2005017276 A JP2005017276 A JP 2005017276A JP 2005017276 A JP2005017276 A JP 2005017276A JP 2006208483 A JP2006208483 A JP 2006208483A
Authority
JP
Japan
Prior art keywords
keyword
listener
data
audio data
graphic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005017276A
Other languages
Japanese (ja)
Inventor
Masafumi Nagai
雅文 永易
Hideharu Fujiyama
英春 藤山
Akira Masuda
彰 増田
Ryuichi Tanaka
竜一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005017276A priority Critical patent/JP2006208483A/en
Publication of JP2006208483A publication Critical patent/JP2006208483A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To easily make a survey of how much a listener is actually interested in matters that an explainer side wants the listener to be interested in by applying speech recognition and voiceprint authentication after a new article or new system is somewhat explained to the listener. <P>SOLUTION: An inputted keyword is registered. The registered keyword is extracted through speech recognition from voice data generated by recording utterances of the listener. A GUI picture including a figure 41 representing relative time positions from the start of sound recording of the voice data and marks 42 to 44 for identifying keyword-extracted parts of the voice data by keywords in time series on the figure 41 is displayed by a display means. The voice data are reproduced through operation to specify a production position on the GUI picture. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、例えば新商品の説明のようななんらかの説明を聴取者の前で行った後に、聴取者の関心の度合いを調査する作業を支援するための装置,方法等に関する。   The present invention relates to an apparatus, a method, and the like for supporting an operation of investigating the degree of interest of a listener after giving some explanation such as explanation of a new product in front of the listener.

企業等が新商品や新システムを開発した際には、一般消費者や報道関係者等を招いて発表会を開催することが少なくない。そうした発表会では、新商品や新システム自体の説明を十分に行うことが重要であるだけでなく、聴取者の質疑や反応からマーケティングを行うこと(その新商品や新システムのコンセプトについての実際の聴取者の関心の度合いを調査し、当該新商品や新システムの販売戦略に役立てたり、次の商品やシステムの開発に役立てること)が重要である。   When companies develop new products and new systems, it is often the case that general consumers and the media are invited to hold presentations. In such a presentation, it is important not only to fully explain the new product and the new system itself, but also to conduct marketing based on the questions and reactions of the listener (the actual concept of the new product and the new system). It is important to investigate the degree of interest of the listener and use it for the sales strategy of the new product or new system, or for the development of the next product or system).

しかし現実には、主催者側のスタッフの人数が限られていることなどから、発表会場では、説明のみに集中してしまい、聴取者の反応に細かく注意を払えない状況に置かれることが多い。そうした状況では、声の大きい聴取者やアクションの大きい聴取者の発言のみが印象に残ってしまい、集約するときわめて偏った調査結果しか得られないことが多い。   However, in reality, due to the limited number of staff on the organizer's side, the presentation venues often concentrate on explanations and are often placed in a situation where they cannot pay close attention to the listener's reaction. . In such a situation, only the voices of loud listeners and listeners with high actions remain in the impression, and when collected, only extremely biased survey results are often obtained.

また、発表会場での聴取者の発言を録音し、あとでその録音内容に基いてマーケティングを行うようにした場合にも、テープ起こしの作業や、文書化したデータから情報を整理する作業には、非常に時間と労力を要する。   Also, if you record the audience's remarks at the presentation venue and later conduct marketing based on the recorded content, you will also need to create a tape or organize information from documented data. It takes a lot of time and effort.

ここで、発表会場で説明者が利用することが可能なシステムとしては、特定の招待者(重要な得意先)の関心事の情報をセンターからイベント会場に送信し、説明員がこの情報を活用して(重要な得意先の購買意欲を刺激するように)説明を行なえるようにしたものが従来から提案されている(例えば、特許文献1参照)。   Here, as a system that can be used by the presenter at the presentation venue, information on the interests of a specific inviter (important customer) is sent from the center to the event venue, and this information is utilized by the presenter. In the past, there has been proposed a system that can explain (so as to stimulate purchase intentions of important customers) (for example, see Patent Document 1).

しかし、このシステムは、聴取者の関心事項が調査済みであり、それに合せて説明内容を決定するためのもの(すなわち、関心事の調査が先で、説明が後)である。したがって、説明時の反応から聴取者の関心事を調査するためには役立たない。   However, in this system, the listener's interests have been investigated, and the explanation content is determined accordingly (that is, the interests are investigated first and the explanation is later). Therefore, it is not useful for investigating the listener's interest from the response at the time of explanation.

他方、音声データを処理する技術としては、音声認識や声紋認証が存在している。音声認識は、音声から特定の語を認識する技術であり、主に音声によるコマンド入力(特定の機器の操作等)に利用されている(本特許出願の出願時には未公開であるが、例えば出願番号特願2003−286255号の特許出願)。   On the other hand, voice recognition and voiceprint authentication exist as techniques for processing voice data. Speech recognition is a technology for recognizing a specific word from speech, and is mainly used for command input by voice (operation of a specific device, etc.) (unpublished at the time of filing this patent application, Patent application No. 2003-286255).

また、声紋認証は、音声から発話者を特定する技術であり、主にバイオメトリック認証(人体の特徴に基づく個人の認証)の一種として利用されている(本特許出願の出願時には未公開であるが、例えば、出願番号特願2004−143952号の特許出願)。   Voiceprint authentication is a technique for identifying a speaker from voice, and is mainly used as a kind of biometric authentication (personal authentication based on characteristics of a human body) (not disclosed at the time of filing this patent application). However, for example, the patent application of Japanese Patent Application No. 2004-143952).

特開2002−109200号公報(段落番号0006〜9、図1、2)JP 2002-109200 A (paragraph numbers 0006 to 9, FIGS. 1 and 2)

しかし、こうした音声認識や声紋認証をマーケティングのような調査に応用する技術は、いまだ提案されるに至っていない。   However, no technology has yet been proposed for applying such speech recognition and voiceprint authentication to research such as marketing.

本発明は、上述の点に鑑み、例えば新商品の説明のようななんらかの説明を聴取者の前で行った後に、音声認識や声紋認証を応用して、説明者側が聴取者に関心を持ってほしい事項についての実際の聴取者の関心の度合いを容易に調査できるようにすることを課題としてなされたものである。   In view of the above-mentioned points, the present invention applies voice recognition and voiceprint authentication, after the explanation is given in front of the listener, such as explanation of a new product, and the presenter is interested in the listener. The task was to make it easier to investigate the actual level of interest of the listener about the desired matter.

この課題を解決するために、本発明に係る聴取者の関心事項の調査支援装置は、入力されたキーワードを登録する登録手段と、聴取者の発言を録音した音声データから、音声認識により、この登録手段によって登録されたキーワードを抽出する抽出手段と、この音声データの録音開始時からの相対時間位置を表現した図形と、この音声データのうちこの抽出手段によってキーワードを抽出された部分をキーワード別にこの図形上で時系列に識別するマークとが設けられるGUI画面を表示手段に表示させる表示処理手段段と、このGUI画面のこの図形上で再生位置を指定する操作が行われたことに基づき、その指定された再生位置からこの音声データの再生を開始させる再生処理手段とを備えたことを特徴とする。   In order to solve this problem, the investigation support device for the interests of the listener according to the present invention uses the registration means for registering the input keyword and the speech data from which the listener's remarks are recorded. Extraction means for extracting a keyword registered by the registration means, a figure expressing a relative time position from the start of recording of the voice data, and a portion of the voice data from which the keyword has been extracted by the extraction means is classified by keyword. Based on the display processing means stage for displaying on the display means a GUI screen provided with marks to be identified in time series on the figure, and the operation of specifying the playback position on the figure on the GUI screen, And a reproduction processing means for starting reproduction of the audio data from the designated reproduction position.

また、本発明に係る聴取者の関心事項の調査支援方法は、入力されたキーワードを登録する第1のステップと、聴取者の発言を録音した音声データから、音声認識により、この第1のステップで登録したキーワードを抽出する第2のステップと、この音声データの録音開始時からの相対時間位置を表現した図形と、この音声データのうちこの第2のステップでキーワードを抽出した部分をキーワード別にこの図形上で時系列に識別するマークとが設けられるGUI画面を表示手段に表示させる第3のステップと、このGUI画面のこの図形上で再生位置を指定する操作が行われたことに基づき、その指定された再生位置からこの音声データの再生を開始させる第4のステップとを有することを特徴とする。   In addition, the method for supporting the investigation of the interests of the listener according to the present invention includes a first step of registering the input keyword, and the first step by voice recognition from the voice data recording the listener's speech. The second step of extracting the keyword registered in step 1, the figure representing the relative time position from the start of recording of the voice data, and the portion of the voice data from which the keyword was extracted in the second step are classified by keyword. Based on the third step of displaying on the display means a GUI screen provided with marks for time-series identification on this graphic, and the operation of specifying the playback position on this graphic on this GUI screen, And a fourth step of starting reproduction of the audio data from the designated reproduction position.

また、本発明に係るプログラムは、コンピュータを、入力されたキーワードを登録する登録手段、聴取者の発言を録音した音声データから、音声認識により、この登録手段によって登録されたキーワードを抽出する抽出手段、この音声データの録音開始時からの相対時間位置を表現した図形と、この音声データのうちこの抽出手段によってキーワードを抽出された部分をキーワード別にこの図形上で時系列に識別するマークとが設けられるGUI画面を表示手段に表示させる表示処理手段、このGUI画面のこの図形上で再生位置を指定する操作が行われたことに基づき、その指定された再生位置からこの音声データの再生を開始させる再生処理手段、として機能させることを特徴とする。   Also, the program according to the present invention includes a computer for registering an input keyword, and an extraction unit for extracting a keyword registered by the registration unit from voice data recording a listener's speech by voice recognition. , A graphic representing the relative time position from the start of recording of the voice data, and a mark for identifying the part of the voice data from which the keyword has been extracted by the extracting means in time series on the graphic for each keyword. Display processing means for displaying a GUI screen to be displayed on the display means, and on the basis of the operation of designating the reproduction position on the graphic on the GUI screen, reproduction of the audio data is started from the designated reproduction position. It functions as a reproduction processing means.

また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータを、入力されたキーワードを登録する登録手段、聴取者の発言を録音した音声データから、音声認識により、この登録手段によって登録されたキーワードを抽出する抽出手段、この音声データの録音開始時からの相対時間位置を表現した図形と、この音声データのうちこの抽出手段によってキーワードを抽出された部分をキーワード別にこの図形上で時系列に識別するマークとが設けられるGUI画面を表示手段に表示させる表示処理手段、このGUI画面のこの図形上で再生位置を指定する操作が行われたことに基づき、その指定された再生位置からこの音声データの再生を開始させる再生処理手段、として機能させるためのプログラムを記録したことを特徴とする。   Further, the computer-readable recording medium according to the present invention includes a registration means for registering an input keyword to a computer, a keyword registered by the registration means by voice recognition from voice data recording a listener's speech. Extraction means for extracting the voice data, a figure expressing the relative time position from the start of recording of the voice data, and a part of the voice data in which the keyword is extracted by the extraction means is identified in time series on the figure for each keyword. Display processing means for displaying a GUI screen provided with a mark to be displayed on the display means, and the audio data from the designated reproduction position based on the operation of designating the reproduction position on the graphic on the GUI screen. It is characterized by recording a program for functioning as a playback processing means for starting playback of .

これらの発明では、なんらかの説明を聴取者の前で行ったときにその聴取者の質疑等の発言を録音しておき、且つ、その説明内容のうち説明者側が聴取者に関心を持ってほしい1または複数の事項をキーワードとして入力しておくと、聴取者の発言を録音した音声データから、そのキーワードが音声認識によって抽出される。   In these inventions, when any explanation is given in front of the listener, the listener's questions and so forth are recorded, and the explanation side of the explanation contents wants the listener to be interested. Alternatively, if a plurality of items are input as keywords, the keywords are extracted by voice recognition from voice data in which the listener's speech is recorded.

そして、この音声データの録音開始時からの相対時間位置を表現した図形と、この音声データのうちこの抽出手段によってキーワードを抽出された部分をキーワード別にこの図形上で時系列に識別するマークとが設けられたGUI画面が、表示手段に表示される。   Then, there is a graphic representing the relative time position from the start of recording of the audio data, and a mark for identifying the part of the audio data from which the keyword has been extracted by the extracting means in time series on the graphic for each keyword. The provided GUI screen is displayed on the display means.

ユーザ(例えば説明者自身または別の調査担当者)は、このGUI画面の図形上に設けられるこのキーワード別のマークの数から、説明者側が聴取者に関心を持ってほしい事項についての聴取者の発言の回数を、直感的に把握することができる。   The user (for example, the presenter himself / herself or another investigator) determines whether the presenter wants the listener to be interested from the number of marks for each keyword provided on the GUI screen graphic. The number of utterances can be grasped intuitively.

また、この図形上の各マークの位置から、聴取者の発言を録音した音声データのうち聴取者がキーワードを発話した部分を、直感的に確認することができる。そして、このマークの位置を目安にして(例えばこのマークよりも少し手前の位置を)再生位置として指定する操作を行うと、聴取者の発言を録音した音声データが、説明者側が聴取者に関心を持ってほしい事項についての発言内容の部分から再生され始める。   Further, from the position of each mark on the figure, it is possible to intuitively confirm the portion of the voice data in which the listener's speech is recorded, where the listener has spoken the keyword. When the operation of specifying the position of this mark as a guide (for example, a position slightly before this mark) is performed as the playback position, the audio data recording the listener's speech is expressed by the explainer's interest to the listener. It starts to play from the part of the remarks about the matter you want to have.

したがって、ユーザは、説明者側が聴取者に関心を持ってほしい事項についての聴取者の発言内容を、容易且つ迅速に聴き直すことができる。   Therefore, the user can listen easily and quickly to the content of the listener's remarks on the matter that the explainer wants the listener to be interested in.

これにより、なんらかの説明を聴取者の前で行った後に、説明者側が聴取者に関心を持ってほしい事項についての実際の聴取者の関心の度合いを容易に調査することができる。   Thereby, after giving some explanation in front of the listener, it is possible to easily investigate the actual degree of interest of the listener about the item that the explainer wants the listener to be interested in.

なお、一例として、このGUI画面に、音声データの現在の再生位置をこの図形上で示すアイコンと、この図形上の所望の範囲を指定するための操作釦とをさらに設け、この操作釦で指定された各々の範囲の長さを、その範囲に含まれるマーク別に合計した情報を表示手段に表示させることが好適である。   As an example, this GUI screen is further provided with an icon indicating the current reproduction position of the audio data on this graphic and an operation button for designating a desired range on this graphic. It is preferable to display on the display means information obtained by summing the lengths of the respective ranges for each mark included in the range.

ユーザは、マークの位置を目安にして音声データを再生させている最中に、このアイコンから、説明者側が聴取者に関心を持ってほしい事項についての発言の開始位置及び終了位置(マークを挟んだ2つの位置)を確認することができる。   While the audio data is being played back using the mark position as a guide, the user can use this icon to start and end the utterance about the item that the explainer wants the listener to be interested in. 2 positions) can be confirmed.

そして、各マークについて、この発言の開始位置から終了位置までの範囲をそれぞれこの操作釦で指定すれば、説明者側が聴取者に関心を持ってほしい事項別に、この範囲の合計の長さ(この合計の長さは、その事項についての聴取者の合計の発言時間の長さに対応する)の情報が表示される。   For each mark, if the range from the start position to the end position of this statement is specified with this operation button, the total length of this range (this The total length corresponds to the listener's total speaking time length for that matter).

これにより、ユーザは、説明者側が聴取者に関心を持ってほしい事項毎に、その事項についての聴取者の発言時間の長さを直感的に把握することができる。したがって、聴取者の関心の度合いをより一層詳しく調査することができるようになる。   Thereby, the user can grasp | ascertain intuitively the length of the listener's speech time about the matter for every matter which the instructor wants a listener to be interested in. Therefore, it becomes possible to investigate the degree of interest of the listener in more detail.

また、一例として、この音声データのうちキーワードを抽出した部分について、予め登録した聴取者の声紋データを用いて発話者を特定し、且つ、聴取者を属性毎に分類した属性情報を用いて、その特定した発話者の属性とキーワードとを関連付けて、この関連付けの結果を表示手段に表示させることが好適である。   Further, as an example, for the portion of the voice data from which the keyword is extracted, the speaker is specified using the voiceprint data of the listener registered in advance, and the attribute information that classifies the listener for each attribute is used. It is preferable to associate the identified speaker attribute with the keyword and display the result of the association on the display means.

それにより、ユーザは、説明者側が聴取者に関心を持ってほしい事項毎に、どんな属性の聴取者がその事項への関心度が高いのかを直感的に把握することができる。したがって、聴取者の関心の度合いをより一層詳しく調査することができるようになる。   Accordingly, the user can intuitively understand what attribute the listener has a high degree of interest in the matter for each matter that the explainer wants the listener to be interested in. Therefore, it becomes possible to investigate the degree of interest of the listener in more detail.

また、一例として、聴取者の発言を録音した音声データからのキーワードの抽出処理は、この音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込み、この取り込んだ各々の所定量の音声データと、登録されたキーワードの音声データとの音響的特徴をそれぞれ比較照合し、この比較照合の結果このキーワードの音声データと一致していたこの所定量の音声データをキーワードとして抽出することによって行うことが好適である。   Further, as an example, the keyword extraction processing from the voice data recording the listener's speech is performed by shifting a predetermined predetermined amount of voice data while shifting the position of the voice data to be captured from the recording means recording the voice data. Are sequentially compared and the acoustic characteristics of each of the acquired predetermined amount of voice data and the voice data of the registered keyword are compared and collated. As a result of this comparison and collation, the voice data of this keyword is matched. It is preferable to carry out by extracting a predetermined amount of voice data as a keyword.

それにより、聴取者の発言を録音した音声データ(キーワード抽出対象の音声データ)から位置をずらしながら順次取り込む所定量ずつの音声データと、登録されたキーワードの音声データという音声データ同士の音響的特徴を比較照合した結果によってキーワードが抽出される。すなわち、音声データをテキストデータ化することなく、音声データ同士の比較照合の結果のみによってキーワードが抽出される。   As a result, a predetermined amount of audio data sequentially captured while shifting the position from the audio data (keyword extraction target audio data) recorded from the listener's speech, and the acoustic characteristics of the audio data of the registered keyword audio data Keywords are extracted based on the result of comparing and collating. That is, the keywords are extracted only by the result of comparison and collation between the voice data without converting the voice data into text data.

したがって、例えば聴取者の発言を録音した音声データとキーワードの音声データとを共に音声認識処理によってテキストデータ化する工程と、そのテキストデータ同士を比較照合する工程との2つの工程を経る場合よりも、高精度にキーワードを抽出することができる。また、このように聴取者の発言を録音した音声データの全体をテキストデータ化する場合と異なり、長時間に亘る音声データの場合にもキーワード抽出処理の負担が軽減される。   Therefore, for example, compared to the case where the voice data in which the listener's speech is recorded and the voice data of the keyword are both converted into text data by voice recognition processing and the text data are compared and collated. Keyword can be extracted with high accuracy. Further, unlike the case where the entire voice data in which the listener's speech is recorded is converted to text data, the burden of the keyword extraction process is reduced even in the case of voice data over a long period of time.

本発明によれば、なんらかの説明を聴取者の前で行った後に、説明者側が聴取者に関心を持ってほしい事項についての聴取者の発言の回数を直感的に把握することができ、且つ、説明者側が聴取者に関心を持ってほしい事項についての聴取者の発言内容を容易且つ迅速に聴き直すことができる。   According to the present invention, after giving some explanation in front of the listener, the explainer side can intuitively grasp the number of times the listener speaks about matters that the listener wants to be interested in, and The presenter can easily and quickly re-listen to the listener's remarks about matters that the listener wants to be interested in.

したがって、なんらかの説明を聴取者の前で行った後に、説明者側が聴取者に関心を持ってほしい事項についての実際の聴取者の関心の度合いを容易に調査することができるという効果が得られる。   Therefore, after giving some explanation in front of the listener, it is possible to easily investigate the degree of interest of the actual listener on the matter that the explainer wants the listener to be interested in.

また、説明者側が聴取者に関心を持ってほしい事項毎に、その事項についての聴取者の発言時間の長さを直感的に把握することができるので、聴取者の関心の度合いをより一層詳しく調査することができるという効果が得られる。   In addition, for each item that the explainer wants the listener to be interested in, the length of the listener's speaking time for that item can be intuitively grasped, so the degree of interest of the listener can be further detailed. The effect that it can be investigated is acquired.

また、説明者側が聴取者に関心を持ってほしい事項毎に、どんな属性の聴取者がその事項への関心度が高いのかを直感的に把握することができるので、聴取者の関心の度合いをより一層詳しく調査することができるという効果が得られる。   In addition, for each item that the explainer wants the listener to be interested in, it is possible to intuitively understand what kind of attribute the listener is highly interested in that item. The effect of being able to investigate in more detail is obtained.

また、聴取者の発言を録音した音声データから高精度にキーワードを抽出することができるとともに、長時間に亘る音声データの場合にもキーワード抽出処理の負担が軽減されるという効果が得られる。   Further, it is possible to extract a keyword with high accuracy from voice data in which a listener's speech is recorded, and to reduce the burden of keyword extraction processing even in the case of long-time voice data.

以下、新商品の発表会場での聴取者の発言を録音し、あとでその録音内容に基いてマーケティングを行う場合に本発明を適用した例について、図面を用いて具体的に説明する。   Hereinafter, an example in which the present invention is applied to a case where a listener's remarks at a new product announcement venue is recorded and marketing is performed based on the recorded contents will be specifically described with reference to the drawings.

図1は、本発明を実施するためのシステム構成例を示す。新商品の発表会場で、主催者側の説明スタッフAが、商品の説明の開始時から終了時まで、聴取者B1〜Bn(招待した一般消費者や報道関係者等)の質疑等の発言を集音装置1を介してパーソナルコンピュータ2に録音する。   FIG. 1 shows a system configuration example for carrying out the present invention. From the start to the end of the explanation of the product, the explanation staff A on the organizer's side, at the new product announcement site, will give questions such as questions from the listeners B1 to Bn (invited general consumers, media representatives, etc.) Recording is performed on the personal computer 2 via the sound collector 1.

極力聴取者B1〜Bnの発言のみを録音できるようにする(スタッフAの音声等が録音されないようにする)ために、例えば指向性の強いマイクロフォンを集音装置1として用い、そのマイクロフォンを聴取者B1〜Bnの側に向けるとともに、質疑を行う聴取者はそのマイクロフォンの近くで発話するようにする。あるいは別の例として、集音装置1として、個々の聴取者B1〜Bn毎にヘッドセットまたはピンマイクを用意してもよい。   In order to record only the statements of the listeners B1 to Bn as much as possible (so that the voice of the staff A etc. is not recorded), for example, a microphone having a strong directivity is used as the sound collector 1, and the microphone is used as a listener. The listener who asks questions is directed near the microphone while facing the B1 to Bn side. As another example, a headset or a pin microphone may be prepared for each listener B1 to Bn as the sound collecting device 1.

また、この説明時と前後して、スタッフAが、聴取者B1〜Bnの了承を得て、声紋認証用に各聴取者B1〜Bnの音声を集音装置1を介してパーソナルコンピュータ2に録音するとともに、各聴取者B1〜Bnのプロファイル(氏・性別・年齢層といった属性)を確認する。   Before and after the explanation, the staff A obtains the consent of the listeners B1 to Bn and records the voices of the listeners B1 to Bn to the personal computer 2 via the sound collector 1 for voiceprint authentication. At the same time, the profiles (attributes such as name, sex, and age group) of each listener B1 to Bn are confirmed.

図2は、パーソナルコンピュータ2の構成を、本発明の説明上必要な範囲で示すブロック図である。CPU11と、表示装置(例えば液晶ディスプレイ)12と、外部記憶装置(HDD)13と、メモリ14と、サウンドインタフェース(サウンドカード)15と、ポインティングデバイス(例えばマウス)16と、キーボード17とが、バス18に接続されている。   FIG. 2 is a block diagram showing the configuration of the personal computer 2 in a range necessary for explaining the present invention. A CPU 11, a display device (for example, a liquid crystal display) 12, an external storage device (HDD) 13, a memory 14, a sound interface (sound card) 15, a pointing device (for example, a mouse) 16, and a keyboard 17 are connected to a bus. 18 is connected.

外部記憶装置13には、通常のパーソナルコンピュータと同様の周辺機器用の各種デバイスドライバ(サウンドドライバ,ポインティングデバイス用のドライバ等)や、録音用ソフト(マイクロフォンからの音声データをコンピュータのハードディスクに録音するためのソフトウェア)がインストールされている。   The external storage device 13 records various device drivers for peripheral devices (sound drivers, drivers for pointing devices, etc.) and recording software (sound data from a microphone) on the hard disk of the computer, similar to a normal personal computer. Software) is installed.

各種デバイスドライバは、パーソナルコンピュータ2の電源投入時にメモリ14上にロードされる。集音装置1からの音声データは、サウンドドライバによってサウンドインタフェース15からパーソナルコンピュータ2内に入力する。   Various device drivers are loaded onto the memory 14 when the personal computer 2 is powered on. Audio data from the sound collecting device 1 is input into the personal computer 2 from the sound interface 15 by a sound driver.

録音用ソフトは、ユーザの操作により起動されてメモリ14上にロードされる。説明者Aは、聴取者B1〜Bnの発言や声紋認証用音声を録音するときには、この録音用ソフトにより、サウンドインタフェース15からパーソナルコンピュータ2内に入力した音声データを、WAVEファイルの形式で外部記憶装置13に記録させる。   The recording software is activated by a user operation and loaded onto the memory 14. When the explainer A records the voices of the listeners B1 to Bn and the voiceprint authentication voice, the voice data input from the sound interface 15 into the personal computer 2 is externally stored in the WAVE file format by the recording software. It is recorded in the device 13.

外部記憶装置13には、さらに、キーワード抽出アプリケーションと、声紋認証エンジンと、マーケティング情報抽出アプリケーションとがインストールされている。これらのプログラムは、例えばCD−ROM等の記録媒体として提供してもよいし、あるいはWebサイトからダウンロードさせるようにしてもよい。   The external storage device 13 is further installed with a keyword extraction application, a voiceprint authentication engine, and a marketing information extraction application. These programs may be provided as a recording medium such as a CD-ROM, or may be downloaded from a website.

キーワード抽出アプリケーションは、WAVEファイルからキーワードを抽出するためのアプリケーションソフトウェアである。キーワード抽出アプリケーションは、マーケティング情報抽出アプリケーションによって起動されてメモリ14上にロードされる。キーワード抽出対象とするWAVEファイルの指定や、キーワードの登録も、マーケティング情報抽出アプリケーションの処理によって行われる。   The keyword extraction application is application software for extracting keywords from a WAVE file. The keyword extraction application is activated by the marketing information extraction application and loaded onto the memory 14. Designation of a WAVE file as a keyword extraction target and registration of a keyword are also performed by processing of a marketing information extraction application.

図3は、このキーワード抽出アプリケーションの処理内容を示すフローチャートである。最初に、登録された各キーワードの文字データを音声データに変換し、その音声データからそれぞれ音響分析(スペクトル分析)によって特徴を抽出したデータ(音声モデル)を生成する。この音響分析は、一般的な音声認識エンジンにおける処理の一過程として行われているのと同じものである(ステップS1)。   FIG. 3 is a flowchart showing the processing contents of the keyword extraction application. First, character data of each registered keyword is converted into voice data, and data (voice model) in which features are extracted from the voice data by acoustic analysis (spectrum analysis) is generated. This acoustic analysis is the same as that performed as a process in a general speech recognition engine (step S1).

続いて、それらの音声モデルの元となっているキーワードを発話するのに通常必要な時間長である所定の時間長(例えば1秒間)の認識窓を設定する(ステップS2)。   Subsequently, a recognition window having a predetermined time length (for example, 1 second), which is a time length usually required for speaking a keyword that is the basis of the voice model, is set (step S2).

続いて、キーワード抽出対象のWAVEファイルのデータ領域の先頭部分から、この認識窓分の量の連続する音声データを取り込む(ステップS3)。   Subsequently, continuous audio data of the amount corresponding to the recognition window is taken from the head portion of the data area of the keyword-extracted WAVE file (step S3).

図4(a)は、このステップS3での音声データの取り込みの様子を概念的に示す図である。WAVEファイルのデータ領域内の音声データの先頭部分に認識窓Wが設けられて、時間長N分の連続する音声データが取り込まれている。   FIG. 4A is a diagram conceptually showing the state of taking in the audio data in step S3. A recognition window W is provided at the beginning of the audio data in the data area of the WAVE file, and continuous audio data for a time length N is captured.

図3に示すように、ステップS3に続いて、その取り込んだ音声データから音響分析(前述のように音声認識エンジンで行われている音響分析)によって特徴を抽出する(ステップS4)。そして、抽出した特徴を各検索用キーワードの音声モデルと比較照合して(ステップS5)、いずれかの検索用キーワードの音声データと一致しているか否かを判断する(ステップS6)。   As shown in FIG. 3, following step S3, features are extracted from the captured voice data by acoustic analysis (acoustic analysis performed by the voice recognition engine as described above) (step S4). Then, the extracted feature is compared with the voice model of each search keyword (step S5), and it is determined whether or not it matches the voice data of any search keyword (step S6).

イエスであれば、その取り込んだ音声データを、キーワードとして抽出する(ステップS7)。そして、そのキーワードとして抽出した音声データのWAVEファイル内での位置(何サンプリング目から何サンプリング目までの音声データであるかというアドレス)を示す情報を登録する(ステップS8)。そしてステップS9に進む。他方、ステップS6でノーであった場合には、そのままステップS9に進む。   If yes, the acquired voice data is extracted as a keyword (step S7). Then, information indicating the position of the voice data extracted as the keyword in the WAVE file (address from which sampling to what sampling is the voice data) is registered (step S8). Then, the process proceeds to step S9. On the other hand, if no in step S6, the process proceeds directly to step S9.

ステップS9では、認識窓がWAVEファイルのデータ領域の末尾の音声データまで取り込みを終えたか否かを判断する。ノーであれば、直前に取り込みを行ったときよりも所定の時間長(認識窓よりも短い時間長であり、例えば0.2秒間)分だけ取込み位置をデータ領域の末尾寄りにずらして、認識窓分の量の音声データを取り込む(ステップS10)。そして、ステップS4に戻ってステップS4以下を繰り返す。ステップS9でイエスになると、処理を終了する。   In step S9, it is determined whether or not the recognition window has finished capturing the last audio data in the data area of the WAVE file. If no, the capture position is shifted toward the end of the data area by a predetermined time length (which is shorter than the recognition window, for example 0.2 seconds) than when the capture was performed immediately before. Audio data corresponding to the amount of the window is captured (step S10). And it returns to step S4 and repeats step S4 and subsequent steps. If the answer is yes in step S9, the process is terminated.

図4(b)〜(d)は、このステップS10の繰返しによる音声データの取り込みの様子を概念的に示す図である。図4(a)に示したようにWAVEファイルのデータ領域内の音声データの先頭部分から時間長N分の連続する音声データが取り込まれた後、認識窓Wの位置を時間長P(時間長Nよりも短い時間長)分ずつずらしながら、データ領域の末尾に到達するまで、時間長N分ずつの連続する音声データが順次取り込まれる。   FIGS. 4B to 4D are diagrams conceptually showing how audio data is captured by repeating step S10. As shown in FIG. 4A, after continuous audio data for a time length N is taken from the head portion of the audio data in the data area of the WAVE file, the position of the recognition window W is set to the time length P (time length). (Sequential time length shorter than N), continuous audio data of time length N minutes are sequentially captured until the end of the data area is reached.

また、図5は、このキーワード抽出アプリケーションよるキーワードの抽出結果の例を概念的に示す図である。WAVEファイルのデータ領域の音声データのうち、或る位置の時間長N分の連続する音声データD1が例えば“小型軽量”というキーワードとして抽出されており、別の位置の時間長N分の連続する音声データD2が例えば“スタイリッシュ”というキーワードとして抽出されている。   FIG. 5 is a diagram conceptually illustrating an example of a keyword extraction result by the keyword extraction application. Of the audio data in the data area of the WAVE file, continuous audio data D1 for a time length N at a certain position is extracted as a keyword “small and light”, for example, and is continuous for a time length N at another position. The audio data D2 is extracted as a keyword “stylish”, for example.

このように、このキーワード抽出アプリケーションでは、予め記録された音声データから位置をずらしながら順次取り込む所定量(認識窓分)ずつの音声データと、検索用キーワードの音声データという音声データ同士の音響的特徴を比較照合した結果により、キーワードを抽出する。すなわち、音声データをテキストデータ化することなく、音声データ同士の比較照合の結果のみによってこれらの語をキーワードとして抽出する。   As described above, in this keyword extraction application, the acoustic characteristics between the audio data of the predetermined amount (recognition window) each sequentially fetched while shifting the position from the pre-recorded audio data and the audio data of the search keyword audio data. A keyword is extracted based on the result of comparing and collating. That is, these words are extracted as keywords based only on the result of comparison and collation between voice data without converting the voice data into text data.

これにより、例えば予め記録された音声データと検索用キーワードの音声データとを共に音声認識処理によってテキストデータ化する工程と、そのテキストデータ同士を比較照合する工程との2つの工程を経てキーワードを抽出する場合よりも、キーワードを高精度に抽出することができる。また、予め記録された音声データの全体をテキストデータ化する場合と異なり、長時間に亘って録音された音声データの場合にも処理の負担が軽減される。   As a result, for example, keywords are extracted through two steps: a step of converting previously recorded voice data and search keyword voice data into text data by voice recognition processing, and a step of comparing and collating the text data. The keywords can be extracted with higher accuracy than in the case of doing so. Further, unlike the case where the entire voice data recorded in advance is converted into text data, the processing load is reduced even in the case of voice data recorded over a long period of time.

図2の外部記憶装置13内の声紋認証エンジンは、声紋認証による発話者の特定(声紋認証処理)と、その前段階としての認証対象の発話者の声紋の登録(声紋登録処理)とを行うためのアプリケーションソフトウェアである。   The voiceprint authentication engine in the external storage device 13 of FIG. 2 performs speaker identification (voiceprint authentication processing) by voiceprint authentication and registration of the voiceprint of the speaker to be authenticated (voiceprint registration processing) as a previous stage. Application software.

声紋登録処理は、以下の(1)及び(2)の処理から成っている。
(1)声紋データの生成
声紋認証対象の各発話者の音声データを、所定の声紋認証単位時間(例えば3秒間とする)分の音声データ毎に順次スペクトル分析し、声紋の特徴を抽出することで、声紋データを生成する。すなわち、声紋データは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。
The voiceprint registration process includes the following processes (1) and (2).
(1) Generation of voiceprint data The voice data of each utterance target subject to voiceprint authentication is sequentially subjected to spectrum analysis for each voice data for a predetermined voiceprint authentication unit time (for example, 3 seconds) to extract the characteristics of the voiceprint. Then, voice print data is generated. That is, the voiceprint data expresses a collection of various sounds included in the voice in a three-dimensional pattern of time, frequency, and sound intensity.

(2)声紋データの登録
各発話者のIDをキーボード17で入力させるための画面(図示略)を、表示装置14に表示させる。そして、この画面で入力された各発話者のIDと、上記(1)の処理で生成した当該発話者の声紋データとを、対応付けて登録(外部記憶装置13に記憶)する。
(2) Registration of voiceprint data A screen (not shown) for inputting the ID of each speaker with the keyboard 17 is displayed on the display device 14. Then, the ID of each speaker input on this screen and the voiceprint data of the speaker generated in the process (1) are registered in association with each other (stored in the external storage device 13).

声紋認証処理は、以下の(1)乃至(3)の処理から成っている。
(1)声紋データの生成
供給される発話者の音声データから、声紋登録処理時と同様にして声紋データを生成する。
The voiceprint authentication process includes the following processes (1) to (3).
(1) Generation of voiceprint data Voiceprint data is generated from the supplied voice data of the speaker in the same manner as in the voiceprint registration process.

(2)声紋データの照合
生成した声紋データと、声紋登録処理によって予め登録された声紋データとを比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアSCR(特徴量が近似するほど大きい)を算出する。その結果、登録された声紋データの中で、入力した音声の声紋データに最も近似する声紋データに対応するIDを特定する。
(2) Voiceprint data collation The generated voiceprint data and voiceprint data registered in advance by the voiceprint registration process are compared and collated, and a matching score SCR corresponding to the degree to which the model feature amount approximates ( Large). As a result, the ID corresponding to the voiceprint data that most closely approximates the voiceprint data of the input voice is specified from the registered voiceprint data.

(3)照合スコアと閾値との比較
上記(2)の処理で算出した照合スコアSCRを、閾値THDと比較し、照合スコアSCRが閾値THDを越える場合には、上記(2)の処理で特定したIDを有効なものと判断する。
(3) Comparison between collation score and threshold value The collation score SCR calculated in the above process (2) is compared with the threshold value THD, and if the collation score SCR exceeds the threshold value THD, it is specified in the above process (2). The determined ID is determined to be valid.

この声紋認証エンジンでは、声紋登録処理のルーチンはユーザの処理によって起動されてメモリ14上にロードされ、他方、声紋認証処理のルーチンはマーケティング情報抽出アプリケーションによって起動されてメモリ14上にロードされる。声紋認証技術としては、すでに公知の技術をこの声紋認証エンジンに適用してよい。   In this voiceprint authentication engine, a routine for voiceprint registration processing is started by a user process and loaded onto the memory 14, while a routine for voiceprint authentication processing is started by a marketing information extraction application and loaded onto the memory 14. As the voiceprint authentication technique, a known technique may be applied to this voiceprint authentication engine.

図2の外部記憶装置13内のマーケティング情報抽出アプリケーションは、図1の聴取者B1〜Bnのような聴取者の発言を録音した音声データから、マーケティング情報を抽出・生成するためのアプリケーションソフトウェアである。このマーケティング情報抽出アプリケーションは、ユーザの処理によって起動されてメモリ14上にロードされ、最初に、メニュー画面を表示装置12に表示させる。図6は、このメニュー画面を示す。キーワード登録釦21と、プロファイル登録釦22と、マーケティング情報生成釦23と、終了釦24とが設けられている。   The marketing information extraction application in the external storage device 13 in FIG. 2 is application software for extracting and generating marketing information from voice data in which the utterances of listeners such as the listeners B1 to Bn in FIG. 1 are recorded. . This marketing information extraction application is activated by the user's processing and loaded onto the memory 14, and first displays the menu screen on the display device 12. FIG. 6 shows this menu screen. A keyword registration button 21, a profile registration button 22, a marketing information generation button 23, and an end button 24 are provided.

このメニュー画面で、キーワード登録釦21をポインティングデバイス16(図2)によって指定すると、ユーザが所望のキーワードを登録するためのキーワード登録画面が表示される。図7は、このキーワード登録画面を示す。Keyword1,Keyword2,Keyword3としてそれぞれ所望のキーワードをキーボード17(図2)によって入力するための入力欄31〜33と、入力欄31〜33に入力したキーワードを登録するための登録釦34とが設けられている。   When the keyword registration button 21 is designated on the menu screen by the pointing device 16 (FIG. 2), a keyword registration screen for the user to register a desired keyword is displayed. FIG. 7 shows this keyword registration screen. As keywords 1, keywords 2, and keywords 3, there are provided input fields 31 to 33 for inputting desired keywords using the keyboard 17 (FIG. 2) and a registration button 34 for registering the keywords input to the input fields 31 to 33. ing.

このキーワード登録画面で、入力欄31,32,33にキーワードを入力した後登録釦34をポインティングデバイス16によって指定すると、その入力したキーワードがそれぞれKeyword1,Keyword2,Keyword3として登録(図2の外部記憶装置13に記憶)される。   When the registration button 34 is designated by the pointing device 16 after inputting the keywords in the input fields 31, 32, and 33 on the keyword registration screen, the input keywords are registered as keywords 1, keywords 2, and keywords 3, respectively (the external storage device in FIG. 2). 13).

図6のメニュー画面で、プロファイル登録釦22をポインティングデバイス16によって指定すると、聴取者のプロファイルを登録するためのプロファイル登録画面が表示される。図示は省略するが、このプロファイル登録画面には、一人一人の聴取者毎にプロファイル(氏・性別・年齢層といった属性)とIDとを入力するための入力欄と、その入力欄の入力結果を確定するための確定釦とが設けられている。このプロファイル登録画面で、入力欄にプロファイル及びIDを入力した後確定釦を指定すると、各聴取者のプロファイル情報がその聴取者のIDと対応付けて外部記憶装置13に記憶される。   When the profile registration button 22 is designated by the pointing device 16 on the menu screen of FIG. 6, a profile registration screen for registering the listener's profile is displayed. Although illustration is omitted, on this profile registration screen, an input field for inputting a profile (attribute such as name, gender, age group) and ID for each listener and an input result of the input field are displayed. A confirmation button for confirmation is provided. When a confirmation button is designated after inputting a profile and ID in the input field on this profile registration screen, the profile information of each listener is stored in the external storage device 13 in association with the ID of the listener.

図6のメニュー画面で、マーケティング情報生成釦23をポインティングデバイス16によって指定すると、マーケティング情報生成処理が実行される。図8は、このマーケティング情報生成処理の処理内容を示すフローチャートである。最初に、外部記憶装置13に記録されているWAVEファイルをリスト表示するとともに、キーワード抽出対象とするWAVEファイルを選択するためのファイル選択画面(図示略)を表示装置12(図2)に表示させる(ステップS11)。   When the marketing information generation button 23 is designated by the pointing device 16 on the menu screen of FIG. 6, a marketing information generation process is executed. FIG. 8 is a flowchart showing the contents of the marketing information generation process. First, a list of WAVE files recorded in the external storage device 13 is displayed, and a file selection screen (not shown) for selecting a WAVE file as a keyword extraction target is displayed on the display device 12 (FIG. 2). (Step S11).

続いて、前述のキーワード抽出アプリケーション(図3)を起動させる。そして、ステップS11のファイル選択画面で選択されたキーワード抽出対象のWAVEファイルから、図7のキーワード登録画面で登録されたキーワードを抽出させる(ステップS12)。   Subsequently, the keyword extraction application (FIG. 3) described above is activated. Then, keywords registered on the keyword registration screen in FIG. 7 are extracted from the keyword extraction target WAVE file selected on the file selection screen in step S11 (step S12).

続いて、キーワード抽出アプリケーションによって登録(図3のステップS8)された各キーワードの位置情報を取得する(ステップS13)。そして、キーワード抽出対象のWAVEファイルの音声データの録音開始時からの相対時間位置を表現した図形と、この音声データのうちキーワード抽出アプリケーションによってキーワードを抽出された部分をキーワード別にこの図形上で時系列に識別するマークとが設けられるGUI画面を、表示装置12に表示させる(ステップS14)。   Subsequently, position information of each keyword registered by the keyword extraction application (step S8 in FIG. 3) is acquired (step S13). Then, a graphic representing the relative time position from the start of recording of the voice data of the WAVE file to be extracted as a keyword, and a portion of the voice data from which the keyword is extracted by the keyword extraction application are time-sequentially displayed on this graphic by keyword. A GUI screen provided with a mark to be identified is displayed on the display device 12 (step S14).

図9は、このGUI画面の表示例を示す。キーワード抽出対象のWAVEファイルの音声データの録音開始時から録音終了時までの相対時間位置が、録音開始時(データ先頭)を左端,録音終了時(データ末尾)を右端とした直線状の線分41によって表現されている。そして、この線分41上で、この音声データのうちキーワードを抽出された部分が、図7のキーワード登録画面でKeyword1,Keyword2,Keyword3として登録したキーワード毎に、それぞれ異なる形状のマークであるマーク42(黒塗りの丸),43(黒塗りの三角),44(黒塗りの四角)によって時系列に識別表示されている。   FIG. 9 shows a display example of this GUI screen. The relative time position from the beginning of recording to the end of recording of the audio data of the WAVE file that is the keyword extraction target is a straight line segment with the start of recording (the beginning of data) as the left end and the end of recording (the end of data) as the right end. 41. Then, on this line segment 41, the portion of the voice data from which the keyword is extracted is a mark 42 that is a mark having a different shape for each keyword registered as Keyword1, Keyword2, Keyword3 on the keyword registration screen of FIG. (Black circles), 43 (black triangles), and 44 (black squares) are identified and displayed in time series.

なお、図9では「Keyword1」,「Keyword2」,「Keyword3」という文字を用いているが、実際には登録されたキーワードそのもの(例えば「小型軽量」,「スタイリッシュ」等)の文字が表示される。(後出の図12,図14,図15でも同様である。)   In FIG. 9, the characters “Keyword 1”, “Keyword 2”, and “Keyword 3” are used, but actually the registered keywords themselves (for example, “small and light”, “stylish”, etc.) are displayed. . (The same applies to FIGS. 12, 14, and 15 below.)

このGUI画面には、Start釦45と、Stop釦46と、Remove釦47と、プロファイル関連付け釦48と、終了釦49が設けられている。   The GUI screen is provided with a Start button 45, a Stop button 46, a Remove button 47, a profile association button 48, and an end button 49.

図8に示すように、ステップS14に続き、このGUI画面上での操作(プロファイル関連付け釦48,終了釦49の指定を除く)に基づき、WAVEファイルの再生やマーケティング情報の生成を行う(ステップS15)。   As shown in FIG. 8, following step S14, WAVE file playback and marketing information generation are performed based on operations on the GUI screen (except for specifying the profile association button 48 and end button 49) (step S15). ).

このステップS15では、図9の線分41上のいずれかの位置がポインティングデバイス16(図2)で指定されると、その指定された位置に対応するデータ位置(例えば、図9の左端のマーク42の少し左寄りの位置が指定された場合には、Keyword1として登録されたキーワードが最初に抽出されたデータ位置よりも少し手前のデータ位置)の音声データからキーワード抽出対象のWAVEファイルの再生を開始して、パーソナルコンピュータ2の内蔵スピーカ(またはパーソナルコンピュータ2に接続された外部のスピーカ)から音声出力させる。それと同時に、図10に例示するように再生位置表示用の矢印50を線分41の近傍に表示させ、再生位置の変化に従ってこの矢印50を線分41に沿って右方向に移動させる。   In this step S15, when any position on the line segment 41 in FIG. 9 is designated by the pointing device 16 (FIG. 2), the data position corresponding to the designated position (for example, the mark at the left end in FIG. 9). When a position slightly to the left of 42 is specified, playback of the WAVE file to be extracted from the keyword is started from the sound data of the keyword registered as Keyword 1 (a data position slightly before the data position first extracted). Then, audio is output from the built-in speaker of the personal computer 2 (or an external speaker connected to the personal computer 2). At the same time, the reproduction position display arrow 50 is displayed in the vicinity of the line segment 41 as illustrated in FIG. 10, and the arrow 50 is moved to the right along the line segment 41 according to the change in the reproduction position.

WAVEファイルの再生中にこの矢印50がポインティングデバイス16で指定されると、再生を停止するとともに矢印50の移動を停止する。また、この矢印50は線分41に沿ってドラッグ&ドロップすることが可能であり、ドロップ先で矢印50がポインティングデバイス16によって再度指定されると、そのドロップ先に対応するデータ位置の音声データからWAVEファイルの再生を開始するとともに矢印50をそのドロップ先から右方向に移動させる。   When the arrow 50 is designated by the pointing device 16 during the reproduction of the WAVE file, the reproduction is stopped and the movement of the arrow 50 is stopped. The arrow 50 can be dragged and dropped along the line segment 41. When the arrow 50 is designated again by the pointing device 16 at the drop destination, the voice data at the data position corresponding to the drop destination is used. The reproduction of the WAVE file is started and the arrow 50 is moved rightward from the drop destination.

図11に例示するように、矢印50がいずれかのマーク42〜44の左側の地点P1で停止している状態でStart釦45がポインティングデバイス16によって指定され、続いて、矢印50が当該マークの右側の地点P2で停止している状態でStop釦46がポインティングデバイス16によって指定されると、線分41上で地点P1から地点P2までの範囲(当該マークを含む範囲)を枠51で識別表示する。そして、この枠51に対応するデータ範囲の音声データを、別のWAVEファイルとして保存する。   As illustrated in FIG. 11, the start button 45 is designated by the pointing device 16 with the arrow 50 stopped at the point P1 on the left side of any of the marks 42 to 44, and then the arrow 50 When the Stop button 46 is designated by the pointing device 16 while stopped at the right point P2, the range from the point P1 to the point P2 on the line segment 41 (the range including the mark) is identified and displayed in the frame 51. To do. Then, the audio data in the data range corresponding to the frame 51 is saved as another WAVE file.

また、矢印50がいずれかのマーク42〜44の位置で停止している状態でRemove釦47がポインティングデバイス16によって指定されると、そのマークを消去する(そのマークを含む範囲に枠51が表示されている場合にはその枠51も消去する)。図11は、図9に示したマーク42〜44のうち、左端から2番目のマーク43と、右端から2番目のマーク44と、右端のマーク44とが消去された後の状態を例示している。このRemove釦47は、キーワードが抽出されたデータ位置の前後の音声データを再生してみたが、そのキーワードについての発言がされていなかったような場合に操作するための釦である。   Further, when the remove button 47 is designated by the pointing device 16 while the arrow 50 is stopped at any of the marks 42 to 44, the mark is deleted (a frame 51 is displayed in a range including the mark). If it is, the frame 51 is also deleted). FIG. 11 illustrates the state after the second mark 43 from the left end, the second mark 44 from the right end, and the right end mark 44 among the marks 42 to 44 shown in FIG. 9 are erased. Yes. The Remove button 47 is a button to be operated when the voice data before and after the data position from which the keyword is extracted is reproduced but the keyword is not spoken.

また、Start釦45及びStop釦46の操作が行われて新たな枠51が増える毎に、線分41上での各枠51の長さを、枠51内に含まれているマーク42〜44の形状別に(すなわちキーワード別に)合計する。そして、このキーワード別の枠51の長さの合計値を、図12に例示するように、GUI画面上のKeyword1,Keyword2,Keyword3の文字の隣に、線分41の全長に対する%として表示する。   Further, each time the Start button 45 and the Stop button 46 are operated to increase the number of new frames 51, the length of each frame 51 on the line segment 41 is indicated by marks 42 to 44 included in the frame 51. Total by shape (ie by keyword). Then, the total value of the length of the frame 51 for each keyword is displayed as a percentage of the total length of the line segment 41 next to the characters of Keyword 1, Keyword 2, and Keyword 3 on the GUI screen as illustrated in FIG.

プロファイル関連付け釦48がポインティングデバイス16によって指定されると、図8にステップS16,S17として示すように、前述の声紋認証エンジンの声紋認証処理のルーチンを起動させる。そして、図9のGUI画面上の各枠51に対応するデータ範囲の音声データを再生させて、それらの音声データをそれぞれ声紋認証させる。   When the profile association button 48 is designated by the pointing device 16, as shown in steps S16 and S17 in FIG. 8, the voice print authentication routine of the voice print authentication engine described above is activated. Then, the audio data in the data range corresponding to each frame 51 on the GUI screen of FIG. 9 is reproduced, and the audio data is subjected to voiceprint authentication.

続いて、声紋認証によって特定された発話者のID(有効なIDが特定されなかった場合には不明である旨の情報)を取得する(ステップS18)。そして、前述のプロファイル登録画面で登録された当該IDの発話者のプロファイル情報(氏・性別・年齢層)を参照して、キーワードとプロファイルとの関連付けを行い、その関連付けの結果を保存(外部記憶装置13に記憶)する(ステップS19)。   Subsequently, the ID of the speaker identified by voiceprint authentication (information indicating that it is unknown if a valid ID is not identified) is acquired (step S18). Then, referring to the profile information (male / gender / age) of the speaker with the ID registered on the profile registration screen described above, the keyword is associated with the profile, and the result of the association is saved (external storage). (Stored in the device 13) (step S19).

図13は、このキーワードとプロファイルとの関連付けの様子を概念的に示す図である。各枠51のデータ範囲の音声データには、Keyword1,Keyword2またはKeyword3として登録されたキーワードが含まれている。これらの枠51のデータ範囲の音声データから、声紋認証処理により、声紋データが生成されて発話者のIDが特定される。   FIG. 13 is a diagram conceptually showing how the keyword and the profile are associated with each other. The voice data in the data range of each frame 51 includes keywords registered as Keyword1, Keyword2, or Keyword3. From the voice data in the data range of these frames 51, voiceprint data is generated by voiceprint authentication processing, and the ID of the speaker is specified.

プロファイル登録画面では発話者のプロファイルがIDと対応付けて登録されるので、声紋認証処理によって特定された発話者のIDから、当該発話者のプロファイルが導き出される。これにより、キーワードとプロファイルとを関連付けることができる。   Since the profile of the speaker is registered in association with the ID on the profile registration screen, the profile of the speaker is derived from the ID of the speaker identified by the voiceprint authentication process. Thereby, a keyword and a profile can be associated.

図8に示すように、ステップS19に続き、保存した関連付けの結果を、表示装置12に表示させる(ステップS20)。   As shown in FIG. 8, following step S19, the stored association result is displayed on the display device 12 (step S20).

図14は、この関連付けの結果の表示画面の一例を示す。例えば、Keyword1として登録されたキーワードを発言したのは、聴取者全体(図1の聴取者B1〜Bn)のうち、鈴木さん(25歳女性),佐藤さん(41歳男性)等であった(但し、1件は声紋認証の結果不明であったこと)ことを示している。また、この表示画面には、キーワード選択釦61と、年齢層釦62と、性別釦63と、終了釦64とが設けられている。   FIG. 14 shows an example of a display screen of the result of this association. For example, among the listeners (listeners B1 to Bn in FIG. 1), Suzuki (25-year-old woman), Sato-san (41-year-old man), etc., who spoke the keyword registered as Keyword1 ( However, one case indicates that the result of voiceprint authentication was unknown). The display screen also includes a keyword selection button 61, an age group button 62, a sex button 63, and an end button 64.

この表示画面上で、キーワード選択釦61でいずれかのキーワードが選択されるとともに年齢層釦62または性別釦63が指定されると、選択されたキーワードを発言した聴取者の年齢層別または男女別の割合を示すグラフを表示する。図15は、キーワード選択釦61でKeyword1が選択されるとともに年齢層釦62が指定された場合に表示されるグラフ(Keyword1を発言した聴取者の年齢層別の割合を示すグラフ)を例示している。   On this display screen, when any keyword is selected with the keyword selection button 61 and the age group button 62 or the gender button 63 is designated, the age group or gender of the listener who has spoken the selected keyword. A graph showing the percentage of. FIG. 15 exemplifies a graph displayed when keyword 1 is selected by keyword selection button 61 and age group button 62 is specified (a graph showing the ratio of listeners who have made keyword 1 by age group). Yes.

このグラフの表示画面で戻る釦(図15では釦71)が指定されると、図14の画面に戻る。図14の画面で終了釦64が指定されるか、図9のGUI画面で終了釦49が指定されると、図8にステップS21,S22として示すように、マーケティング情報生成処理を終了して、図6のメニュー画面に戻る。メニュー画面で終了釦24が指定されると、マーケティング情報抽出アプリケーションを終了する。   When the return button (button 71 in FIG. 15) is designated on this graph display screen, the screen returns to the screen of FIG. When the end button 64 is designated on the screen of FIG. 14 or the end button 49 is designated on the GUI screen of FIG. 9, the marketing information generation process is terminated as shown in steps S21 and S22 in FIG. Return to the menu screen of FIG. When the end button 24 is designated on the menu screen, the marketing information extraction application is ended.

次に、図1に示したシステムにおいて、新商品の発表会の終了後に主催者側がマーケティングを行う様子について説明する。   Next, in the system shown in FIG. 1, how the organizer performs marketing after the end of the new product presentation will be described.

既に述べたように、主催者側のスタッフAは、発表会場で下記の(1)及び(2)の作業を行っておく。
(1)商品の説明時に、聴取者B1〜Bnの発言を集音装置1を介してパーソナルコンピュータ2に録音する。
As described above, the staff A on the organizer side performs the following operations (1) and (2) at the presentation site.
(1) During the explanation of the product, the utterances of the listeners B1 to Bn are recorded in the personal computer 2 via the sound collecting device 1.

(2)説明時と前後して、声紋認証用に各聴取者B1〜Bnの音声を集音装置1を介してパーソナルコンピュータ2に録音するとともに、各聴取者B1〜Bnのプロファイルを確認する。   (2) Before and after the description, the voices of the listeners B1 to Bn are recorded in the personal computer 2 via the sound collecting device 1 for voiceprint authentication, and the profiles of the listeners B1 to Bn are confirmed.

また、これに加えて、スタッフAまたは別のスタッフ(以下、単にスタッフと呼ぶ)は、下記の(3)〜(5)の作業を行っておく。
(3)上記(2)の作業の終了後に、声紋認証エンジンの声紋登録処理のルーチンを起動して、パーソナルコンピュータ2に録音した各聴取者B1〜Bnの声紋認証用の音声データに対して、前述の声紋登録処理を実行させる。(但し、上記(2)の作業時にこの声紋登録処理のルーチンを起動し、集音装置1からの各聴取者B1〜Bnの声紋認証用の音声データに対してリアルタイムに声紋登録処理を実行させてもよい。)
In addition to this, the staff A or another staff (hereinafter simply referred to as a staff) performs the following operations (3) to (5).
(3) After completion of the operation (2), the voice print registration routine of the voice print authentication engine is started, and the voice print authentication voice data of each of the listeners B1 to Bn recorded in the personal computer 2 is obtained. The voice print registration process described above is executed. (However, at the time of the operation (2), this voice print registration process routine is started, and the voice print registration process is executed in real time for the voice print authentication data of the listeners B1 to Bn from the sound collecting device 1. May be.)

(4)上記(2)の作業の終了後(またはこの作業と同時)に、マーケティング情報抽出アプリケーションを起動し、図6のメニュー画面でプロファイル登録釦22を指定して、プロファイル登録画面で各聴取者B1〜Bnのプロファイル及びIDを登録する。(各聴取者のIDとしては、声紋登録処理時に入力したIDと同じものを用いる。)   (4) After completion of the above operation (2) (or simultaneously with this operation), the marketing information extraction application is started, the profile registration button 22 is designated on the menu screen of FIG. The profiles and IDs of the users B1 to Bn are registered. (The ID of each listener is the same as the ID input during the voiceprint registration process.)

(5)説明時と前後して、マーケティング情報抽出アプリケーションを起動し、図6のメニュー画面でキーワード登録釦21を指定して、図7のキーワード登録画面で、新商品について聴取者に関心を持ってほしい事項(ここでは、新商品のコンセプトである「小型軽量」,「スタイリッシュ」,(操作が)「簡単」とする)をそれぞれKeyword1,Keyword2,Keyword3として登録する。   (5) Before and after the explanation, the marketing information extraction application is started, the keyword registration button 21 is designated on the menu screen of FIG. 6, and the listener is interested in the new product on the keyword registration screen of FIG. The items (here, “small and light”, “stylish”, and (easy to operate) “easy”), which are the concepts of the new product, are registered as keywords 1, keywords 2, keywords 3, respectively.

以上の各作業を終了すると、スタッフは、マーケティング情報抽出アプリケーションを起動し、図6のメニュー画面でマーケティング情報生成釦23を指定して、ファイル選択画面(図8のステップS11)で、商品の説明時に聴取者B1〜Bnの発言を録音したWAVEファイルを選択する。すると、このWAVEファイルの音声データから、キーワード抽出アプリケーションによって「小型軽量」,「スタイリッシュ」,「簡単」というキーワードが抽出される(図8のステップS12,図3〜図5)。   When the above operations are completed, the staff activates the marketing information extraction application, designates the marketing information generation button 23 on the menu screen of FIG. 6, and explains the product on the file selection screen (step S11 of FIG. 8). Sometimes a WAVE file that records the statements of the listeners B1-Bn is selected. Then, keywords “small and light”, “stylish”, and “simple” are extracted from the audio data of the WAVE file by the keyword extraction application (step S12 in FIG. 8, FIGS. 3 to 5).

そして、キーワード抽出アプリケーションによって登録されたWAVEファイル内の各キーワードの位置情報がマーケティング情報抽出アプリケーションに取得されて(図8のステップS13)、図9に示したようなGUI画面が表示される(ここでは「Keyword1」,「Keyword2」,「Keyword3」の部分にそれぞれ「小型軽量」,「スタイリッシュ」,「簡単」の文字が現れる)(図8のステップS14)。   Then, the location information of each keyword in the WAVE file registered by the keyword extraction application is acquired by the marketing information extraction application (step S13 in FIG. 8), and a GUI screen as shown in FIG. 9 is displayed (here) Then, the characters “Small and Light”, “Stylish”, and “Easy” appear in the “Keyword 1”, “Keyword 2”, and “Keyword 3” portions, respectively (step S14 in FIG. 8).

スタッフは、このGUI画面の線分41上の各マーク42〜44の数から、新商品のコンセプトである「小型軽量」,「スタイリッシュ」,「簡単」に対して実際に聴取者B1〜Bnがどの程度関心を持ったかを、直感的に把握することができる。すなわち、例えば、マーク42の数が少なければ「小型軽量」であることにあまり関心を持たれなかったことがわかり、マーク43の数が多ければ「スタイリッシュ」であることにかなり関心を持たれたことがわかる。   From the number of marks 42 to 44 on the line segment 41 of the GUI screen, the staff actually determines the listeners B1 to Bn for the new product concepts of “small and light”, “stylish”, and “easy”. You can intuitively understand how much you are interested. That is, for example, if the number of the marks 42 is small, it is understood that the “small and light” is not so much interested, and if the number of the marks 43 is large, the “stylish” is quite interested. I understand that.

また、この線分41上のマーク42〜44の位置から、聴取者B1〜Bnの発言を録音した音声データのうち聴取者B1〜Bnがキーワードを発話した部分を、直感的に確認することができる。そして、マーク42〜44の位置を目安にして(例えばマーク42〜44よりも少し手前の位置を)再生位置として指定する操作を行うと、聴取者の発言を録音した音声データが、聴取者に関心を持ってほしい事項(新商品のコンセプト)についての発言内容の部分から再生され始める。   In addition, from the positions of the marks 42 to 44 on the line segment 41, it is possible to intuitively confirm the portion where the listeners B1 to Bn uttered the keyword in the voice data recording the utterances of the listeners B1 to Bn. it can. Then, when an operation for designating the position of the marks 42 to 44 as a guide (for example, a position slightly before the marks 42 to 44) as a playback position is performed, audio data recording the listener's speech is given to the listener. It begins to be reproduced from the part of the remarks about the item you want to be interested in (concept of new product).

したがって、スタッフは、新商品のコンセプトについての聴取者B1〜Bnの発言内容を、容易且つ迅速に聴き直すことができる。すなわち、マーク44の少し手前の位置から再生を開始すれば、例えば「この商品はいままでになく操作が簡単で、年輩者にも使いやすい」というような発言内容を聴き直すことができる。   Therefore, the staff can easily and quickly listen to the contents of the comments of the listeners B1 to Bn about the concept of the new product. That is, if the reproduction is started from a position slightly before the mark 44, it is possible to listen to a remark such as “This product is easier to operate and easier to use for the elderly”.

これにより、新商品の発表会の終了後に、新商品のコンセプトについての実際の聴取者B1〜Bnの関心の度合いを容易に調査することができる。   Thereby, after the end of the presentation of the new product, it is possible to easily investigate the degree of interest of the actual listeners B1 to Bn about the concept of the new product.

さらに、図10に示したように、音声データの再生中及び再生停止時には、現在の再生位置が矢印50によって表示される。そこで、スタッフは、新商品のコンセプトについての聴取者B1〜Bnの発言内容を聴き直した際に、マークを挟んだその発言内容の開始位置及び終了位置(例えば「この商品はいままでのものよりも小型軽量で、持ち運びにも便利である」という発言内容であれば、「この商品」の直前の位置及び「便利である」の直後の位置)をそれぞれこの矢印50から確認しておく。そして、矢印50をこの開始位置に停止させてStart釦45を指定し、続いて、矢印50をこの終了位置に停止させてStop釦46を指定する。   Further, as shown in FIG. 10, the current playback position is displayed by an arrow 50 during playback of audio data and when playback is stopped. Therefore, when the staff listens to the remarks of the listeners B1 to Bn about the concept of the new product, the staff starts and ends the remarks with the mark in between (for example, “This product is more than the previous one. If the content of the remark is “it is compact and lightweight and convenient to carry”, the position immediately before “this product” and the position immediately after “convenient”) are respectively confirmed from the arrows 50. Then, the arrow 50 is stopped at the start position and the Start button 45 is designated, and then the arrow 50 is stopped at the end position and the Stop button 46 is designated.

こうした発言内容の開始・終了位置の確認及びStart釦45・Stop釦46の操作を、線分41上の各マーク42〜44毎に行っていく。   The confirmation of the start / end positions of the content of the message and the operation of the Start button 45 and the Stop button 46 are performed for each of the marks 42 to 44 on the line segment 41.

すると、図11及び図12に例示したように、商品の説明時に聴取者B1〜Bnの発言を録音した音声データのうち、新商品のコンセプトについての発言内容の範囲が、枠51で識別表示される。そして、図12(ここでは「Keyword1」,「Keyword2」,「Keyword3」の部分にそれぞれ「小型軽量」,「スタイリッシュ」,「簡単」の文字が現れる)に示したように、線分41の全長に対するキーワード別の枠51の長さの%の値(この値は、そのキーワードについての聴取者の合計の発言時間の長さに比例する)が表示される。   Then, as illustrated in FIG. 11 and FIG. 12, among the voice data in which the comments of the listeners B1 to Bn are recorded at the time of the description of the product, the range of the content of the speech about the concept of the new product is identified and displayed in the frame 51. The As shown in FIG. 12 (here, “Keyword 1”, “Keyword 2”, “Keyword 3” characters “small and light”, “stylish”, and “easy” appear), the total length of the line segment 41 is shown. The value of% of the length of the frame 51 for each keyword is displayed (this value is proportional to the total speech time length of the listener for the keyword).

これにより、スタッフは、「小型軽量」,「スタイリッシュ」,「簡単」という新商品のコンセプト毎に、そのコンセプトについての聴取者B1〜Bnの発言時間の長さを直感的に把握することができる。すなわち、図12の例では、「Keyword1」(ここでは「小型軽量」というコンセプト)については聴取者B1〜Bnの合計の発言時間が長いのでかなり関心を持たれたことがわかり、「Keyword2」(ここでは「スタイリッシュ」というコンセプト)については聴取者B1〜Bnの合計の発言時間が短いのでそれほど関心を持たれなかったことがわかり、「Keyword3」(ここでは(操作が)「簡単」というコンセプト)については聴取者B1〜Bnの発言時間がゼロなので全く関心を持たれなかったことがわかる。   As a result, the staff can intuitively grasp the length of the speaking time of the listeners B1 to Bn for each new product concept of “small and light”, “stylish”, and “easy”. . That is, in the example of FIG. 12, it can be seen that “Keyword 1” (here, the concept of “compact and lightweight”) has been considerably interested because the total speech time of the listeners B1 to Bn is long, and “Keyword 2” ( Here, “Stylish” (concept) is not very interested because the total speaking time of the listeners B1 to Bn is short, “Keyword3” (here (operation) “easy” concept) It can be seen that the listener B1 to Bn had no interest because the talk time of the listeners B1 to Bn was zero.

次に、スタッフは、このGUI画面でプロファイル関連付け釦48を指定する。すると、図14及び図15(ここでは「Keyword1」,「Keyword2」,「Keyword3」の部分にそれぞれ「小型軽量」,「スタイリッシュ」,「簡単」の文字が現れる)に例示したように、新商品の各コンセプトと、聴取者B1〜Bnのうちそのコンセプトについて発言した聴取者のプロファイルとを関連付けた結果が表示される。   Next, the staff designates the profile association button 48 on this GUI screen. Then, as illustrated in FIG. 14 and FIG. 15 (here, the characters “Small and Light”, “Stylish”, and “Easy” appear in the “Keyword 1”, “Keyword 2”, and “Keyword 3” parts, respectively) A result of associating each concept with the profile of the listener who has spoken about the concept among the listeners B1 to Bn is displayed.

これにより、スタッフは、「小型軽量」,「スタイリッシュ」,「簡単」という新商品のコンセプト毎に、どんな属性の聴取者がそのコンセプトへの関心度が高いのかを直感的に把握することができる。すなわち、図15の例では、「Keyword1」(ここでは「小型軽量」というコンセプト)については、40歳代の聴取者に特に関心を持たれたことがわかる。   As a result, the staff can intuitively understand what attributes the listener is highly interested in for each new product concept of “small and light”, “stylish”, and “easy”. . That is, in the example of FIG. 15, it can be seen that “Keyword 1” (here, the concept of “compact and lightweight”) was particularly interested in listeners in their 40s.

以上のように、スタッフは、新商品の説明を聴取者B1〜Bnの前で行った後に、新商品の各コンセプトについての聴取者B1〜Bnの発言の回数を直感的に把握することができ、且つ、新商品のコンセプトについての聴取者B1〜Bnの発言内容を容易且つ迅速に聴き直すことができる。   As described above, the staff can intuitively grasp the number of remarks of the listeners B1 to Bn about each concept of the new product after explaining the new product in front of the listeners B1 to Bn. In addition, it is possible to easily and quickly listen to the contents of the comments of the listeners B1 to Bn about the concept of the new product.

したがって、新商品の説明を聴取者B1〜Bnの前で行った後に、新商品のコンセプトについての実際の聴取者B1〜Bnの関心の度合いを容易に調査することができる。   Accordingly, after explaining the new product in front of the listeners B1 to Bn, it is possible to easily investigate the degree of interest of the actual listeners B1 to Bn about the concept of the new product.

また、新商品のコンセプト毎に、そのコンセプトについての聴取者B1〜Bnの発言時間の長さを直感的に把握することもできる。したがって、新商品のコンセプトについての聴取者B1〜Bnの関心の度合いをより一層詳しく調査することができる。   In addition, for each new product concept, it is possible to intuitively grasp the length of the speaking time of the listeners B1 to Bn regarding the concept. Therefore, the degree of interest of the listeners B1 to Bn regarding the concept of the new product can be investigated in more detail.

また、新商品のコンセプト毎に、聴取者B1〜Bnのうちどんな属性(年齢層や性別)の聴取者がそのコンセプトへの関心度が高いのかを直感的に把握することもできる。したがって、新商品のコンセプトについての聴取者B1〜Bnの関心の度合いをより一層詳しく調査することができる。   In addition, for each concept of a new product, it is possible to intuitively understand what kind of attribute (age group or gender) of listeners B1 to Bn is highly interested in the concept. Therefore, the degree of interest of the listeners B1 to Bn regarding the concept of the new product can be investigated in more detail.

なお、以上の例では、図9に示したように、聴取者の発言を録音した音声データの録音開始時からの相対時間位置を、直線状の線分41によって表現している。しかし、この相対時間位置を、直線状の線分以外の形状の図形(例えばアナログ時計の文字盤のような円形の図形)によって表現してもよい。   In the above example, as shown in FIG. 9, the relative time position from the start of recording of the voice data in which the listener's speech is recorded is expressed by a straight line segment 41. However, this relative time position may be expressed by a figure having a shape other than a straight line segment (for example, a circular figure like a dial of an analog clock).

また、以上の例では、新商品の説明を行った後にマーケティングを行うために本発明を適用している。しかし、別の例として、教師が生徒の前で授業を行った後に、教師側が生徒に関心を持ってほしい事項についての実際の生徒の関心の度合いを調査するために本発明を適用してもよい。より一般には、なんらかの説明を聴取者の前で行った後に、説明者側が聴取者に関心を持ってほしい事項についての実際の聴取者の関心の度合いを調査する必要のあるあらゆるケースに本発明を適用してよい。   In the above example, the present invention is applied to conduct marketing after explaining a new product. However, as another example, the present invention may be applied to investigate the degree of actual student interest in matters that the teacher wants the student to be interested in after the teacher conducts a class in front of the student. Good. More generally, after giving some explanation in front of the listener, the present invention should be applied to any case where the presenter needs to investigate the actual degree of interest of the listener about what the listener wants to be interested in. May apply.

また、以上の例では、録音用ソフト,キーワード抽出アプリケーション,声紋認証エンジン,マーケティング情報抽出アプリケーションをそれぞれ別々のソフトウェアとしているが、これらのソフトウェアの機能を全て有する一つのソフトウェアを作成して、パーソナルコンピュータにインストールしてもよい。   In the above example, the recording software, the keyword extraction application, the voiceprint authentication engine, and the marketing information extraction application are separate software, but one piece of software having all these software functions is created to create a personal computer. You may install it on

また、以上の例では、録音用ソフト,キーワード抽出アプリケーションと、声紋認証エンジンと、マーケティング情報抽出アプリケーションとをインストールしたパーソナルコンピュータを設けている。しかし、別の例として、録音用ソフト,キーワード抽出アプリケーション,声紋認証エンジン及びマーケティング情報抽出アプリケーションと同一の処理内容のファームウェアを実行する専用プロセッサを有する装置を、パーソナルコンピュータに代えて設けるようにしてもよい。   In the above example, a personal computer in which recording software, a keyword extraction application, a voice print authentication engine, and a marketing information extraction application are installed is provided. However, as another example, a device having a dedicated processor for executing firmware having the same processing contents as the recording software, the keyword extraction application, the voiceprint authentication engine, and the marketing information extraction application may be provided instead of the personal computer. Good.

本発明を実施するためのシステム構成例を示す図である。It is a figure which shows the example of a system configuration for implementing this invention. 図1のパーソナルコンピュータの構成を示すブロック図である。It is a block diagram which shows the structure of the personal computer of FIG. キーワード抽出アプリケーションの処理内容を示すフローチャートである。It is a flowchart which shows the processing content of a keyword extraction application. 図3の処理での音声データの取り込みの様子を概念的に示す図である。It is a figure which shows notionally the mode of taking in audio | voice data in the process of FIG. 図3の処理でのキーワードの抽出結果を例示する図である。It is a figure which illustrates the extraction result of the keyword in the process of FIG. マーケティング情報抽出アプリケーションのメニュー画面を示す図である。It is a figure which shows the menu screen of a marketing information extraction application. キーワード登録画面を示す図である。It is a figure which shows a keyword registration screen. マーケティング情報生成処理の処理内容を示すフローチャートである。It is a flowchart which shows the processing content of a marketing information generation process. マーケティング情報生成処理で表示されるGUI画面を示す図である。It is a figure which shows the GUI screen displayed by a marketing information generation process. 図9のGUI画面の一表示状態を示す図である。FIG. 10 is a diagram showing one display state of the GUI screen of FIG. 9. 図9のGUI画面の一表示状態を示す図である。FIG. 10 is a diagram showing one display state of the GUI screen of FIG. 9. 図9のGUI画面の一表示状態を示す図である。FIG. 10 is a diagram showing one display state of the GUI screen of FIG. 9. キーワードとプロファイルとの関連付けの様子を概念的に示す図である。It is a figure which shows notionally the mode of the correlation of a keyword and a profile. キーワードとプロファイルとの関連付けの結果の表示画面を例示する図である。It is a figure which illustrates the display screen of the result of correlation with a keyword and a profile. キーワードとプロファイルとの関連付けの結果の表示画面を例示する図である。It is a figure which illustrates the display screen of the result of correlation with a keyword and a profile.

符号の説明Explanation of symbols

1 集音装置、 2 パーソナルコンピュータ、 11 CPU、 12 表示装置、 13 外部記憶装置、 14 メモリ、 15 サウンドインタフェース、 16 ポインティングデバイス、 17 キーボード、 18 バス   1 sound collecting device, 2 personal computer, 11 CPU, 12 display device, 13 external storage device, 14 memory, 15 sound interface, 16 pointing device, 17 keyboard, 18 bus

Claims (7)

入力されたキーワードを登録する登録手段と、
聴取者の発言を録音した音声データから、音声認識により、前記登録手段によって登録されたキーワードを抽出する抽出手段と、
前記音声データの録音開始時からの相対時間位置を表現した図形と、前記音声データのうち前記抽出手段によってキーワードを抽出された部分をキーワード別に前記図形上で時系列に識別するマークとが設けられるGUI画面を表示手段に表示させる表示処理手段と、
前記GUI画面の前記図形上で再生位置を指定する操作が行われたことに基づき、前記指定された再生位置から前記音声データの再生を開始させる再生処理手段と
を備えたことを特徴とする聴取者の関心事項の調査支援装置。
A registration means for registering the input keyword;
An extraction means for extracting a keyword registered by the registration means by voice recognition from voice data recording a listener's speech;
A graphic representing a relative time position from the start of recording of the audio data and a mark for identifying a portion of the audio data, from which the keyword has been extracted by the extracting means, on the graphic in time series are provided for each keyword. Display processing means for displaying a GUI screen on the display means;
Reproduction processing means for starting reproduction of the audio data from the designated reproduction position based on an operation of designating a reproduction position on the graphic on the GUI screen. Survey support device for interested parties.
請求項1に記載の聴取者の関心事項の調査支援装置において、
前記表示処理手段は、前記音声データの現在の再生位置を前記図形上で示すアイコンと、前記図形上の所望の範囲を指定するための操作釦とを前記GUI画面にさらに設け、前記操作釦で指定された各々の範囲の長さを、該範囲に含まれる前記マーク別に合計した情報を前記表示手段に表示させる
ことを特徴とする聴取者の関心事項の調査支援装置。
In the investigation support device for the interests of the listener according to claim 1,
The display processing means further includes an icon indicating the current reproduction position of the audio data on the graphic and an operation button for designating a desired range on the graphic on the GUI screen. An apparatus for assisting investigation of a matter of interest of a listener, characterized in that information indicating the total length of each designated range for each mark included in the range is displayed on the display means.
請求項1に記載の聴取者の関心事項の調査支援装置において、
前記音声データのうち前記抽出手段によって前記キーワードを抽出された部分について、予め登録した前記聴取者の声紋データを用いて発話者を特定する声紋認証手段と、
前記聴取者を属性毎に分類した属性情報を用いて、前記声紋認証手段で特定された発話者の属性と前記キーワードとを関連付ける処理手段と
をさらに備え、
前記表示処理手段は、前記処理手段による前記属性と前記キーワードとの関連付けの結果を前記表示手段に表示させることを特徴とする聴取者の関心事項の調査支援装置。
In the investigation support device for the interests of the listener according to claim 1,
Voiceprint authentication means for identifying a speaker using the voiceprint data of the listener registered in advance for a portion of the voice data from which the keyword has been extracted by the extraction means;
Using attribute information that classifies the listener for each attribute, and further comprising processing means for associating the attributes of the speaker identified by the voiceprint authentication means with the keywords,
The display processing means causes the display means to display a result of associating the attribute with the keyword by the processing means.
請求項1に記載の聴取者の関心事項の調査支援装置において、
前記抽出手段は、
前記音声データを記録した記録手段から、取り込み対象の音声データの位置をずらしながら、連続する所定量の音声データを順次取り込む取り込み手段と、
前記取り込み手段で取り込まれた各々の前記所定量の音声データと、前記登録手段によって登録されたキーワードの音声データとの音響的特徴をそれぞれ比較照合する比較照合手段と
を含み、前記比較照合手段による比較照合の結果前記キーワードの音声データと一致していた前記所定量の音声データをキーワードとして抽出する
ことを特徴とする聴取者の関心事項の調査支援装置。
In the investigation support device for the interests of the listener according to claim 1,
The extraction means includes
Capture means for sequentially capturing a predetermined amount of sound data while shifting the position of the sound data to be captured from the recording means for recording the sound data;
A comparison / collation unit that compares and collates acoustic features of each of the predetermined amount of voice data captured by the capture unit and the keyword voice data registered by the registration unit; An investigation supporting apparatus for a matter of interest of a listener, wherein the predetermined amount of voice data that matches the voice data of the keyword as a result of comparison and collation is extracted as a keyword.
入力されたキーワードを登録する第1のステップと、
聴取者の発言を録音した音声データから、音声認識により、前記第1のステップで登録したキーワードを抽出する第2のステップと、
前記音声データの録音開始時からの相対時間位置を表現した図形と、前記音声データのうち前記第2のステップでキーワードを抽出した部分をキーワード別に前記図形上で時系列に識別するマークとが設けられるGUI画面を表示手段に表示させる第3のステップと、
前記GUI画面の前記図形上で再生位置を指定する操作が行われたことに基づき、前記指定された再生位置から前記音声データの再生を開始させる第4のステップと
を有することを特徴とする聴取者の関心事項の調査支援方法。
A first step of registering the entered keyword;
A second step of extracting the keyword registered in the first step by voice recognition from voice data recording a listener's speech;
A graphic representing a relative time position from the start of recording of the audio data and a mark for identifying a portion of the audio data from which the keyword has been extracted in the second step in time series on the graphic for each keyword are provided. A third step of causing the display means to display a GUI screen to be displayed;
And a fourth step of starting reproduction of the audio data from the designated reproduction position based on an operation of designating a reproduction position on the graphic on the GUI screen. Support method for investigating the interests of employees.
コンピュータを、
入力されたキーワードを登録する登録手段、
聴取者の発言を録音した音声データから、音声認識により、前記登録手段によって登録されたキーワードを抽出する抽出手段、
前記音声データの録音開始時からの相対時間位置を表現した図形と、前記音声データのうち前記抽出手段によってキーワードを抽出された部分をキーワード別に前記図形上で時系列に識別するマークとが設けられるGUI画面を表示手段に表示させる表示処理手段、
前記GUI画面の前記図形上で再生位置を指定する操作が行われたことに基づき、前記指定された再生位置から前記音声データの再生を開始させる再生処理手段、
として機能させるためのプログラム。
Computer
Registration means for registering the entered keywords,
Extraction means for extracting a keyword registered by the registration means by voice recognition from voice data recording a listener's speech;
A graphic representing a relative time position from the start of recording of the audio data and a mark for identifying a portion of the audio data, from which the keyword has been extracted by the extracting means, on the graphic in time series are provided for each keyword. Display processing means for displaying a GUI screen on the display means;
A reproduction processing means for starting reproduction of the audio data from the designated reproduction position based on an operation of designating a reproduction position on the graphic on the GUI screen;
Program to function as.
コンピュータを、
入力されたキーワードを登録する登録手段、
聴取者の発言を録音した音声データから、音声認識により、前記登録手段によって登録されたキーワードを抽出する抽出手段、
前記音声データの録音開始時からの相対時間位置を表現した図形と、前記音声データのうち前記抽出手段によってキーワードを抽出された部分をキーワード別に前記図形上で時系列に識別するマークとが設けられるGUI画面を表示手段に表示させる表示処理手段、
前記GUI画面の前記図形上で再生位置を指定する操作が行われたことに基づき、前記指定された再生位置から前記音声データの再生を開始させる再生処理手段、
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Computer
Registration means for registering the entered keywords,
Extraction means for extracting a keyword registered by the registration means by voice recognition from voice data recording a listener's speech;
A graphic representing a relative time position from the start of recording of the audio data and a mark for identifying a portion of the audio data, from which the keyword has been extracted by the extracting means, on the graphic in time series are provided for each keyword. Display processing means for displaying a GUI screen on the display means;
A reproduction processing means for starting reproduction of the audio data from the designated reproduction position based on an operation of designating a reproduction position on the graphic on the GUI screen;
A computer-readable recording medium in which a program for functioning as a computer is recorded.
JP2005017276A 2005-01-25 2005-01-25 Device, method, and program for assisting survey of interesting matter of listener, and recording medium Pending JP2006208483A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005017276A JP2006208483A (en) 2005-01-25 2005-01-25 Device, method, and program for assisting survey of interesting matter of listener, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005017276A JP2006208483A (en) 2005-01-25 2005-01-25 Device, method, and program for assisting survey of interesting matter of listener, and recording medium

Publications (1)

Publication Number Publication Date
JP2006208483A true JP2006208483A (en) 2006-08-10

Family

ID=36965450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005017276A Pending JP2006208483A (en) 2005-01-25 2005-01-25 Device, method, and program for assisting survey of interesting matter of listener, and recording medium

Country Status (1)

Country Link
JP (1) JP2006208483A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157050A (en) * 2007-12-26 2009-07-16 Hitachi Omron Terminal Solutions Corp Uttering verification device and uttering verification method
CN103714817A (en) * 2013-12-31 2014-04-09 厦门天聪智能软件有限公司 Satisfaction survey cheating screening method based on voiceprint recognition technology
CN105304082A (en) * 2015-09-08 2016-02-03 北京云知声信息技术有限公司 Voice output method and voice output device
CN105721913A (en) * 2015-12-18 2016-06-29 中科创达软件科技(深圳)有限公司 Multimedia file resume method and apparatus
WO2018216511A1 (en) * 2017-05-25 2018-11-29 日本電信電話株式会社 Attribute identification device, attribute identification method, and program

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157050A (en) * 2007-12-26 2009-07-16 Hitachi Omron Terminal Solutions Corp Uttering verification device and uttering verification method
CN103714817A (en) * 2013-12-31 2014-04-09 厦门天聪智能软件有限公司 Satisfaction survey cheating screening method based on voiceprint recognition technology
CN103714817B (en) * 2013-12-31 2016-03-23 厦门天聪智能软件有限公司 Based on the satisfaction investigation cheating arrange distinguish method of sound groove recognition technology in e
CN105304082A (en) * 2015-09-08 2016-02-03 北京云知声信息技术有限公司 Voice output method and voice output device
CN105304082B (en) * 2015-09-08 2018-12-28 北京云知声信息技术有限公司 A kind of speech output method and device
CN105721913A (en) * 2015-12-18 2016-06-29 中科创达软件科技(深圳)有限公司 Multimedia file resume method and apparatus
WO2018216511A1 (en) * 2017-05-25 2018-11-29 日本電信電話株式会社 Attribute identification device, attribute identification method, and program
JPWO2018216511A1 (en) * 2017-05-25 2020-02-27 日本電信電話株式会社 Attribute identification device, attribute identification method, and program
US11133012B2 (en) * 2017-05-25 2021-09-28 Nippon Telegraph And Telephone Corporation Attribute identification device, attribute identification method, and program
US20210383812A1 (en) * 2017-05-25 2021-12-09 Nippon Telegraph And Telephone Corporation Attribute identification method, and program
US11756554B2 (en) 2017-05-25 2023-09-12 Nippon Telegraph And Telephone Corporation Attribute identification method, and program

Similar Documents

Publication Publication Date Title
US10381016B2 (en) Methods and apparatus for altering audio output signals
JP6463825B2 (en) Multi-speaker speech recognition correction system
JP4710331B2 (en) Apparatus, method, program and recording medium for remote control of presentation application
US8847884B2 (en) Electronic device and method for offering services according to user facial expressions
US9697871B2 (en) Synchronizing recorded audio content and companion content
US6728680B1 (en) Method and apparatus for providing visual feedback of speed production
CN107274916B (en) Method and device for operating audio/video file based on voiceprint information
WO2018187234A1 (en) Hands-free annotations of audio text
JP2013222347A (en) Minute book generation device and minute book generation method
US20200058288A1 (en) Timbre-selectable human voice playback system, playback method thereof and computer-readable recording medium
CN108648750A (en) Mixed model speech recognition
JP2006208482A (en) Device, method, and program for assisting activation of conference, and recording medium
US20170300291A1 (en) Apparatus for recording audio information and method for controlling same
KR101164379B1 (en) Learning device available for user customized contents production and learning method thereof
WO2016197708A1 (en) Recording method and terminal
WO2018043112A1 (en) Information presentation apparatus and information presentation method
JP2006208483A (en) Device, method, and program for assisting survey of interesting matter of listener, and recording medium
TW201417093A (en) Electronic device with video/audio files processing function and video/audio files processing method
JP2006251898A (en) Information processor, information processing method, and program
JP2008032825A (en) Speaker display system, speaker display method and speaker display program
JP2017064853A (en) Robot, content deciding device, content deciding method, and program
Vestman et al. Who do I sound like? showcasing speaker recognition technology by YouTube voice search
JP2011248444A (en) Display controller and presentation method used therewith
JP2016126436A (en) Image recognition evaluation system and image recognition evaluation apparatus
TWI377559B (en) Singing system with situation sound effect and method thereof