JP2005345508A - Listening support program, listening support device, and listening support method - Google Patents
Listening support program, listening support device, and listening support method Download PDFInfo
- Publication number
- JP2005345508A JP2005345508A JP2004161622A JP2004161622A JP2005345508A JP 2005345508 A JP2005345508 A JP 2005345508A JP 2004161622 A JP2004161622 A JP 2004161622A JP 2004161622 A JP2004161622 A JP 2004161622A JP 2005345508 A JP2005345508 A JP 2005345508A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- data
- speaker
- voice
- registrant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、聴取支援プログラム、聴取支援装置及び聴取支援方法に関し、例えば遠隔会議において該会議の内容に参加者の興味ある部分があった場合に、該会議参加者に通知する技術に関する。 The present invention relates to a listening support program, a listening support device, and a listening support method. For example, the present invention relates to a technique for notifying a participant of a conference when there is a part of interest in the content of the conference in a remote conference.
従来、ネットワークを介して会議を行う遠隔会議においては、話者と聞き手が遠隔地にいるため、特に多地点会議である場合に、メイン業務を行いつつ、副次的な業務として会議に参加する人が多く見受けられる。 Conventionally, in a remote conference where a conference is performed via a network, since a speaker and a listener are in a remote place, particularly in a multipoint conference, the main task is performed and the conference is performed as a subsidiary task. Many people can be seen.
しかしながら、副次的な業務として遠隔会議に参加していると、遠隔会議の模様を流し続けるのみとなりがちであり、興味ある部分を聞き逃したり、発言の機会を逸したりすることがある。 However, if you participate in a teleconference as a secondary task, you will tend to continue to circulate the teleconference pattern, and you may miss the interesting part or miss the opportunity to speak.
本発明は上記課題に鑑みてなされたものであって、その目的の一つは、会議の内容に参加者の興味ある部分があった場合に、該会議参加者に通知することを可能とする聴取支援プログラム、聴取支援装置及び聴取支援方法を提供することにある。 The present invention has been made in view of the above problems, and one of its purposes is to make it possible to notify a conference participant when there is an interesting part of the conference in the content of the conference. To provide a listening support program, a listening support device, and a listening support method.
上記課題を解決するための本発明に係る聴取支援プログラムは、キーワードを示すキーワードデータと、該キーワードデータを登録した登録者を特定する登録者データと、を対応付けて記憶するキーワード記憶手段、処理対象として音声データを取得する処理対象取得手段、前記処理対象取得手段により取得される前記音声データにより表される音声を文字列として認識する音声認識手段、及び前記文字列に前記キーワード記憶手段により記憶されるキーワードデータにより示されるキーワードが含まれる場合に、該キーワードデータと対応付けて前記キーワード記憶手段により記憶される登録者データが示す登録者に対する所定の通知処理を行う通知手段、としてコンピュータを機能させることを特徴とする。 A listening support program according to the present invention for solving the above-described problem is a keyword storage means for storing keyword data indicating a keyword and registrant data for specifying a registrant who has registered the keyword data in association with each other. Processing target acquisition means for acquiring voice data as a target, voice recognition means for recognizing a voice represented by the voice data acquired by the processing target acquisition means as a character string, and storing the character string in the keyword storage means When a keyword indicated by the keyword data is included, the computer functions as a notification means for performing a predetermined notification process for the registrant indicated by the registrant data stored in the keyword storage means in association with the keyword data. It is characterized by making it.
このようにすることにより、会議の内容に参加者の興味ある部分があった場合に、該会議参加者に通知することが可能となる。 By doing in this way, when there is a part in which the participant is interested in the content of the conference, the conference participant can be notified.
また、上記聴取支援プログラムにおいて、話者を示す話者データと、該話者データを登録した登録者を示す登録者データと、を対応付けて記憶する話者記憶手段、及び前記処理対象取得手段により取得される前記音声データが表す音声の話者を特定する話者特定手段、として前記コンピュータをさらに機能させ、前記通知手段は、前記キーワードである文字列として前記音声認識手段により認識される音声の話者として特定される話者を示す話者データが、前記話者記憶手段により記憶される話者データに含まれる場合に、該話者データと対応付けて前記話者記憶手段により記憶される登録者データが示す登録者に対する前記所定の通知処理を行う、こととしてもよい。 Further, in the listening support program, speaker storage means for storing speaker data indicating a speaker and registrant data indicating a registrant who has registered the speaker data in association with each other, and the processing target acquisition means The computer further functions as speaker specifying means for specifying a speaker of the voice represented by the voice data acquired by the voice, and the notification means recognizes the voice recognized by the voice recognition means as the character string that is the keyword. When the speaker data indicating the speaker specified as the speaker is included in the speaker data stored by the speaker storage unit, the speaker data is stored in association with the speaker data by the speaker storage unit. The predetermined notification process for the registrant indicated by the registrant data may be performed.
このようにすれば、キーワードとともに、話者についても特定して通知処理をおこなうことができる。 In this way, it is possible to specify the speaker as well as the keyword and perform the notification process.
また、上記聴取支援プログラムにおいて、前記処理対象取得手段により取得される前記音声データが表す音声の話者を特定する話者特定手段、として前記コンピュータをさらに機能させ、前記キーワード記憶手段は、前記キーワードデータと、話者を示す話者データと、前記登録者データと、を対応付けて記憶し、前記通知手段は、前記特定される話者を示す話者データが前記話者記憶手段により記憶される話者データに含まれる場合であって、前記文字列に前記キーワード記憶手段により該話者データと対応付けて記憶されるキーワードデータにより示されるキーワードが含まれる場合に、前記所定の通知処理を行う、こととしてもよい。 In the listening support program, the computer further functions as a speaker specifying unit that specifies a speaker of a voice represented by the voice data acquired by the processing target acquisition unit, and the keyword storage unit includes the keyword storage unit. Data, speaker data indicating a speaker, and the registrant data are stored in association with each other, and the notification unit stores speaker data indicating the specified speaker by the speaker storage unit. The predetermined notification process is performed when the character string includes a keyword indicated by the keyword data stored in association with the speaker data by the keyword storage means. It may be done.
このようにしても、キーワードとともに、話者についても特定して通知処理をおこなうことができる。 Even in this way, it is possible to specify the speaker together with the keyword and perform the notification process.
また、上記聴取支援プログラムにおいて、前記音声データは、該音声データが表す音声の話者の映像を含む映像を伴って、前記処理対象取得手段により取得され、前記話者特定手段は、前記映像に含まれる前記話者の映像をパターン認識することにより、前記音声の話者を特定する、こととしてもよい。 In the listening support program, the audio data is acquired by the processing target acquisition unit along with an image including an image of a speaker of the voice represented by the audio data, and the speaker specifying unit The voice speaker may be specified by pattern recognition of the included video of the speaker.
また、上記聴取支援プログラムにおいて、前記話者特定手段は、前記音声の声紋をパターン認識することにより、該音声の話者を特定する、こととしてもよい。 In the listening support program, the speaker specifying means may specify the speaker of the voice by pattern recognition of the voice print of the voice.
また、上記聴取支援プログラムにおいて、前記処理対象取得手段により取得される音声を記憶する音声信号記憶手段、前記文字列に前記キーワード記憶手段により記憶されるキーワードデータにより示されるキーワードが含まれる場合に、該キーワードである文字列として前記音声認識手段により認識される音声の、前記音声内における発生タイミングを示す情報を記憶するタイミング情報記憶手段、前記音声信号記憶手段により記憶される音声を、前記発生タイミングを示す情報に応じて、再生する音声信号再生手段、として前記コンピュータをさらに機能させることとしてもよい。 Further, in the listening support program, when the voice signal storage means for storing the voice acquired by the processing target acquisition means, the character string includes a keyword indicated by the keyword data stored by the keyword storage means, Timing information storage means for storing information indicating the generation timing in the voice of the voice recognized by the voice recognition means as the character string as the keyword, and the voice stored by the voice signal storage means as the generation timing The computer may be caused to further function as audio signal reproduction means for reproduction according to information indicating the above.
このようにすれば、過去の処理対象データを再生することができる。 In this way, past processing target data can be reproduced.
また、本発明に係る聴取支援装置は、キーワードを示すキーワードデータと、該キーワードデータを登録した登録者を特定する登録者データと、を対応付けて記憶するキーワード記憶手段と、処理対象として音声を表す音声データを取得する処理対象取得手段と、前記処理対象取得手段により取得される前記音声データにより表される音声を文字列として認識する音声認識手段と、前記文字列に前記キーワード記憶手段により記憶されるキーワードデータにより示されるキーワードが含まれる場合に、該キーワードデータと対応付けて前記キーワード記憶手段により記憶される登録者データが示す登録者に対する所定の通知処理を行う通知手段と、を含むことを特徴とする。 The listening support device according to the present invention includes keyword storage means for storing keyword data indicating a keyword and registrant data for specifying a registrant who has registered the keyword data in association with each other, and voice as a processing target. Processing target acquisition means for acquiring voice data to be represented, voice recognition means for recognizing a voice represented by the voice data acquired by the processing target acquisition means as a character string, and storing the character string in the keyword storage means Notification means for performing a predetermined notification process for the registrant indicated by the registrant data stored in the keyword storage means in association with the keyword data when the keyword indicated by the keyword data is included. It is characterized by.
また、本発明に係る聴取支援方法は、キーワードを示すキーワードデータと、該キーワードデータを登録した登録者を特定する登録者データと、を対応付けて記憶するキーワード記憶ステップと、処理対象として音声を表す音声データを取得する処理対象取得ステップと、前記処理対象取得ステップにおいて取得される前記音声データにより表される音声を文字列として認識する音声認識ステップと、前記文字列に前記キーワード記憶ステップにおいて記憶されるキーワードデータにより示されるキーワードが含まれる場合に、該キーワードデータと対応付けて前記キーワード記憶ステップにおいて記憶される登録者データが示す登録者に対する所定の通知処理を行う通知ステップと、を含むことを特徴とする。 Further, the listening support method according to the present invention includes a keyword storage step for storing keyword data indicating a keyword and registrant data for specifying a registrant who has registered the keyword data in association with each other, and voice as a processing target. A processing target acquisition step of acquiring voice data to be represented, a voice recognition step of recognizing a voice represented by the voice data acquired in the processing target acquisition step as a character string, and storing the character string in the keyword storage step A notification step for performing a predetermined notification process for the registrant indicated by the registrant data stored in the keyword storage step in association with the keyword data when the keyword indicated by the keyword data is included. It is characterized by.
本発明の実施の形態について、図面を参照しながら説明する。 Embodiments of the present invention will be described with reference to the drawings.
本実施の形態に係る聴取支援システム1は、図1に示すように、通信ネットワーク2を介して相互に接続される複数の通信装置3、サーバコンピュータ4、録画装置5、ディスプレイ6、クライアントコンピュータ7、カメラ8及びマイクロフォン9を含んで構成されている。
As shown in FIG. 1, the listening support system 1 according to the present embodiment includes a plurality of
通信ネットワーク2は、例えば聴取支援システム1をテレビ電話会議システムの一部として使用する場合には、多地点のテレビ電話網であってもよいし、IP電話網すなわちインターネットであってもよい。また、聴取支援システム1をテレビ電話システムの一部として使用する場合には、電話網であってもよいし、IP電話網すなわちインターネットであってもよい。さらに、聴取支援システム1を電話システムの一部として使用する場合にも、電話網であってもよいし、IP電話網すなわちインターネットであってもよい。
For example, when the listening support system 1 is used as a part of a videophone conference system, the
通信装置3は、通信ネットワーク2とのインターフェイスとなる装置である。各通信装置3は以下に説明する他の装置の一部であってもよいし、独立した装置であってもよい。通信ネットワーク2が電話網である場合には、通信装置3はダイヤル機能を備えていてもよい。また、通信ネットワーク2がインターネットである場合には、通信装置3は例えばLANカードであったり、ダイヤルアップのためのモデムであったりする。
The
サーバコンピュータ4は、図2に示すように、バス40、制御部41、主記憶部42、入出力制御部43、通信部44、データベース45及び副記憶部46を含んで構成されている。制御部41、主記憶部42、入出力制御部43はバス40を介して相互に接続され、データの入出力を行っている。通信部44、データベース45及び副記憶部46は入出力制御部43に接続され、同じくデータの入出力を行っている。なお、サーバコンピュータ4は、多地点テレビ会議サーバとして使用することもできる。
As illustrated in FIG. 2, the
制御部41は、サーバコンピュータ4の各部を制御する。主記憶部42は、制御部41のワークメモリとして動作するとともに、制御部41によって行われる各種処理に関わるプログラムやパラメータを保持している。入出力制御部43は、制御部41からの指示に従い、該入出力制御部43に接続される各部を制御するとともに、該各部から入力されるデータを制御部41に出力したり、制御部41から入力されるデータを該各部に出力したり、といった処理を行う。通信部44は、通信ネットワーク2との間でデータの送受信を行う。そして、受信したデータを入出力制御部43に対して出力したり、入出力制御部43から入力されるデータを通信ネットワーク2に送信したり、といった処理を行う。データベース45は、例えば従来公知のリレーショナルデータベースを使用することができる。副記憶部46は、ハードディスクや外部記憶媒体であり、サーバコンピュータ4で利用する各種データを記憶したり、制御部41を動作させるための本実施の形態に係るプログラムを記憶したりする。そして、制御部41は該プログラムを主記憶部42に展開し、実行する。
The
なお、サーバコンピュータ4を多地点テレビ会議サーバとして使用する場合には、制御部41は、通信部44が受信する複数のカメラ8及びマイクロフォン9からの映像データ及び音声データである処理対象データを合成し、複数のディスプレイ6に対して送信する。
When the
録画装置5はビデオデッキやDVDレコーダー等の従来公知の録画手段を使用することができる。また、後述するクライアントコンピュータ7の副記憶部77に録画することとしてもよい。そして、該録画装置5は通信装置3に接続され、通信装置3が受信する音声データや映像データを録画することができるとともに、録画したデータをディスプレイ6に対して出力することができる。
The
ディスプレイ6はテレビやCRT等の従来公知の画像表示手段を利用することができ、一般的にはスピーカを含んで構成される。そして、該ディスプレイ6は通信装置3に接続され、通信装置3が受信する音声データや映像データを出力するとともに、録画装置5から入力される録画データを出力することができる。
The
クライアントコンピュータ7は、図3に示すように、バス70、制御部71、主記憶部72、入出力制御部73、通信部74、操作部75、表示部76及び副記憶部77を含んで構成されている。制御部71、主記憶部72、入出力制御部73はバス70を介して相互に接続され、データの入出力を行っている。通信部74、操作部75、表示部76及び副記憶部77は入出力制御部73に接続され、同じくデータの入出力を行っている。
As shown in FIG. 3, the
制御部71は、クライアントコンピュータ7の各部を制御する。主記憶部72は、制御部71のワークメモリとして動作するとともに、制御部71によって行われる各種処理に関わるプログラムやパラメータを保持している。また、ディスプレイ6に対する表示や、音量の変更といった処理も行う。入出力制御部73は、制御部71からの指示に従い、該入出力制御部73に接続される各部を制御するとともに、該各部から入力されるデータを制御部71に出力したり、制御部71から入力されるデータを該各部に出力したり、といった処理を行う。通信部74は、通信ネットワーク2との間でデータの送受信を行う。そして、受信したデータを入出力制御部73に対して出力したり、入出力制御部73から入力されるデータを通信ネットワーク2に送信したり、といった処理を行う。操作部75は、例えばマウスやキーボードを含んで構成されており、クライアントコンピュータ7の利用者からの入力を受け付けて入出力制御部73に出力している。表示部76は、例えば液晶表示装置を含んで構成されており、入出力制御部73から入力される信号に従って情報を表示出力する。なお、ディスプレイ6は該表示部76であってもよい。副記憶部77は、ハードディスクや外部記憶媒体であり、クライアントコンピュータ7で利用する各種データを記憶したり、制御部71を動作させるための例えば本実施の形態に係るプログラムを記憶したりする。そして、制御部71は該プログラムを主記憶部72に展開し、実行する。
The
次に、図4は聴取支援システム1をテレビ会議システムとして使用する場合の機能ブロック図である。図4に示すように、該聴取支援システム1は、通信開始部80、再生指示部81、通知部82、話者設定部83、キーワード設定部84、再生動作設定部85、通知設定部86、再生部87、照合部88、音声認識部89、記録媒体90、データ取得部91、カメラ8及びマイクロフォン9を含んで構成されている。これらの各部は全て1のクライアントコンピュータ7にあってもよいし、一部がサーバコンピュータ4にあってもよい。ここではまず全て1のクライアントコンピュータ7に存在するとして説明し、後にサーバコンピュータ4に移した場合の処理について述べる。
Next, FIG. 4 is a functional block diagram when the listening support system 1 is used as a video conference system. As shown in FIG. 4, the listening support system 1 includes a
通信開始部80は、クライアントコンピュータ7と通信ネットワーク2との間での通信を開始するとともに、テレビ会議の相手となる通信装置3との間での通信を開始する。そして、通信を開始した場合には、データ取得部91において、通信相手となる通信装置に接続されているカメラ8及びマイクロフォン9からの映像データ及び音声データである処理対象データの取得を開始する。なお、この場合の映像データの例を図5に示す。該映像データには、テレビ会議の相手の上半身画像20が含まれている。
The
記録媒体90は、録画装置5において使用される記録媒体であり、データ取得部が取得した処理対象データを逐次記録する。
The
音声認識部89は、データ取得部91が取得する音声データを音声認識し、文字列として取得する。音声認識手段には、従来から各種販売されている音声認識ソフトを使用することができる。そして、映像データと、文字列として取得された音声データと、を照合部88に出力する。
The
照合部88は、後述するキーワード設定部84において設定されるキーワードデータにより示されるキーワードが、音声認識部89から入力される文字列に含まれるか否かを判定する。具体的には、該文字列を所定時間ごとに単語に区切り、単語集合として取得し、該単語集合にキーワードが含まれるか否かを判定することとしてもよい。また、順次取得される音声データから順次単語を抽出し、該単語がキーワードに含まれるか否かを判定することとしてもよい。さらに、該キーワードである文字列が音声データに含まれるタイミングを記憶することとしてもよい。具体的には、例えばテレビ会議が開始してからの秒数で記憶してもよいし、時刻で記憶することもできる。
The matching
さらに照合部88は、後述する話者設定部83において設定される話者データにより示される話者が、音声認識部89から入力される映像データ又は音声データに含まれるか否かを判定することとしてもよい。すなわち、話者データにより示される話者が、キーワードを喋ったのか否かを判定する。具体的には、映像データをパターン認識することにより、話者の映像を抽出し、該話者の映像がニューラルネットによって記憶される話者データが示す話者と判定できるか否かを判断することとしてもよいし、音声データをパターン認識することにより、話者の声紋を抽出し、該話者の声紋がニューラルネットによって記憶される話者データが示す話者と判定できるか否かを判断することとしてもよい。
Further, the
以上のようにして、照合部88は処理対象データに含まれる話者とキーワードを取得することができる。なお、話者とキーワードを取得する処理は、どちらを先に行ってもよい。例えば話者が話者データにより示される話者として判定される場合に、キーワードが文字列に含まれるか否かを判定することとしてもよいし、キーワードが文字列に含まれる場合に、話者が話者データにより示される話者として判定されるか否かを判断してもよい。
As described above, the matching
ここで、話者設定部83、キーワード設定部84、再生動作設定部85及び通知設定部86における処理について詳述する。
Here, processing in the
話者設定部83、キーワード設定部84、再生動作設定部85及び通知設定部86は、操作部75において、クライアントコンピュータ7のユーザが後述する各データを設定するための機能部である。具体的には、例えば表示部76において図6に示すようなメニュー画面を表示することにより、GUIによりユーザが各データを設定することとしてもよい。図6を例に取り、話者設定部83、キーワード設定部84、再生動作設定部85及び通知設定部86について説明する。
The
話者設定部83は、話者データを登録するために話者データを設定するための機能部であり、図6においてはメンバーを入力する入力欄22において話者データを入力することにより設定することができる。話者データとしては、ここでは話者の名前を用いている。なお、複数の話者データを設定できることとしてもよい。
The
キーワード設定部84は、キーワードデータを登録するためにキーワードデータを設定するための機能部であり、図6においては発言キーワードを入力する入力欄23においてキーワードデータを入力することにより設定することができる。キーワードデータとしてはここではキーワードとして使用される文字列そのものを用いている。また、複数のキーワードデータを設定することができることとしてもよい。
The
通知設定部86は、後述する通知部82において通知処理を行う際の処理方法について入力することにより設定する。ここでは、「アイコン点滅」としており、例えば図5のアイコン21が点滅することによりユーザに対する通知処理を行うことを設定する。なお、他にも例えば音量を増大することによって通知することとしてもよいし、ページャを鳴らすことにより通知することとしてもよい。これらのうち、複数の通知処理を行うように設定することとしてもよい。
The
再生動作設定部85は、後述する再生部87において記録媒体90に逐次記録される処理対象データを再生する際の方法を入力することにより設定する。再生方法は、例えば「キーワードがあったタイミング(発言時)の1分前から再生する」というように、いつから再生するのかを設定することもできるし、例えば「会議の模様をリアルタイムでディスプレイ6に流し続けながら、ディスプレイ6において子画面表示により再生する」というように、表示の方法を設定することとしてもよい。もちろん、「再生しない」というように表示方法を設定することもできる。
The reproduction
なお、話者設定部83、キーワード設定部84、再生動作設定部85及び通知設定部86は、図6におけるアイコン26が押下された場合に、各部ともに設定処理を行うこととすることができる。設定処理とは、設定された各データを、主記憶部72に記憶することにより、照合部88でキーワードデータや話者データを参照できるようにしたり、再生部87で再生する際に、再生指示部81が再生方法を参照できるようにしたり、通知部82で通知処理を行う際に、通知方法を参照できるようにしたり、といった処理である。この場合、例えばキーワードと話者を対応付けて記憶することとしてもよい。すなわち、複数の話者を設定する場合に、各話者について、それぞれ異なるキーワードを記憶することとしてもよい。こうすれば、照合部88において、話者が複数の話者のうちいずれの話者であるか否かに応じて、キーワードが文字列に含まれるか否かを判定することができる。すなわち、話者ごとに通知されるキーワードを設定することができる。
Note that the
次に、再生指示部81及び再生部87の処理について説明する。再生指示部81は、照合部88においてキーワードが含まれると判断され、かつ話者が話者データとして設定された話者であると判断される場合に、再生動作設定部85において設定された再生方法に従って記録媒体90に記録された処理対象データを再生することを、再生部87に対して指示する。この再生の際の具体例を図7に示す。図7は図5と同様にテレビ会議の相手の上半身画像27が映像として写っている。そしてさらにアイコン28が表示される。ユーザが該アイコン28をクリックした場合には、再生を終了し通常のテレビ会議の映像に戻す処理を行う。この場合において、再生中も引き続きデータ取得部91において取得される処理対象データを記録し続けることとしてもよいし、再生中は一旦電話を切断し、アイコン28がクリックした段階で再度接続することとしてもよい。
Next, processing of the
通知部82は、照合部88においてキーワードが含まれると判断され、かつ話者が話者データとして設定された話者であると判断される場合に、所定の通知処理を行う。所定の通知処理は上述の通り、通知設定部86において設定された通知方法にて、通知処理を行う。該通知処理により、ユーザはテレビ電話の相手がキーワードを発言したことを知ることができる。さらには、そのキーワードを発言した相手が設定した人間であることを知ることができる。
The
以上の説明においては、各部がクライアントコンピュータ7に存在するとして説明したが、次にサーバコンピュータ4において一部の処理を行った場合の処理について述べる。
In the above description, it has been described that each unit is present in the
サーバコンピュータ4において処理を行う場合には、複数のクライアントコンピュータ7の話者設定部83、キーワード設定部84、再生動作設定部85及び通知設定部86でそれぞれ設定された各データを、データベース45に記憶する。記憶する際には、各データを各クライアントコンピュータ7のユーザである各データの登録者を特定する登録者データと対応付けて記憶する。登録者データとしては、通知部82における通知処理に応じた登録者データを記憶する。例えば通知処理がアイコンの点滅や音量の増大である場合には、クライアントコンピュータ7のIPアドレスであるとすることができる。また、通知処理がページャの鳴動である場合には、ページャのアドレスとることもできる。さらに、サーバコンピュータ4を多地点テレビ会議サーバとして使用する場合には、各ディスプレイ6に対する映像に通知のための映像を合成するためのデータとすることもできる。データベース45に記憶されるテーブルの具体的な例を図9に示す。図9に示すように、登録者データ、キーワードデータ、話者データ、通知方法及び再生方法は、対応付けて記憶することができる。そしてこのようにこれらを対応付けて記憶した場合には、特定の話者が特定のキーワードを喋った場合に、特定の通知方法で通知し、特定の再生方法で再生する、ということが可能になる。ただし、これら全てのデータを対応付けなくても、個別にそれぞれ対応付けて記憶するだけでもよい。
When processing is performed in the
サーバコンピュータ4にもデータ取得部91を設け処理対象データを取得するとともに、該処理対象データについて、同じくサーバコンピュータ4に設置される音声認識部89、照合部88において上記処理を行うこととしてもよい。また、記録媒体90としてサーバコンピュータ4の副記憶部46を使用することとしてもよい。さらに、再生指示部81、再生部87及び通知部82をサーバコンピュータ4に設置することとしてもよい。以下では、音声認識部89、照合部88、記録媒体90、再生指示部81、再生部87及び通知部82はサーバコンピュータ4に設置されるものとして説明する。さらに、サーバコンピュータ4を多地点テレビ会議サーバとして使用するものとして説明する。
The
音声認識部89は、データ取得部91において取得された処理対象データについて、上述の文字列として取得する処理を行う。そして照合部88は、データベース45に記憶されるキーワードが該文字列に含まれるか否かを判定する。含まれる場合には、上述の処理により、該キーワードと対応付けて記憶される登録者データと対応付けてデータベース45に記憶される話者データにより示される話者が、音声認識部89から入力される映像データ又は音声データに含まれるか否かを判定することとしてもよい。
The
このようにすると、登録者データごとに、キーワードを検出し、該キーワードの話者を取得することができる。そして、通知部82は、登録者データに対して、該登録者データと対応付けて記憶される通知方法にて通知処理を行う。また、再生指示部81も同様に、登録者データが特定する登録者の指示(例えばアイコン21のクリック)を該登録者が使用するクライアントコンピュータ7から受信した場合に、該クライアントコンピュータと対応するディスプレイ6に対して送信する映像に、該登録者データと対応付けて記憶される再生方法に従って、再生部87が再生する記録媒体90に記録される映像を合成して送信する。
If it does in this way, a keyword can be detected for every registrant data, and the speaker of the keyword can be acquired. And the
以上のようにすることにより、サーバコンピュータ4を利用して登録者データごとにキーワードを検出し、該キーワードの話者を取得し、通知処理を実行し、再生映像を送信する、といった処理を行うことができる。
As described above, the
以上の処理を、1のクライアントコンピュータ7で処理を行う場合についてフロー図を参照しながら説明する。
The case where the above processing is performed by one
図8は、クライアントコンピュータ7で行われる処理の一例を示すフロー図である。
FIG. 8 is a flowchart showing an example of processing performed in the
まず、音声データ及び映像データである処理対象データを取得する(S100)。ここでは、処理対象データは時間毎に区切って取得するものとして説明する。そして、その中に含まれる話者を特定する(S102)とともに、音声認識処理により音声データを文字列化して取得する(S104)。そして、該文字列を単語に分割し、単語と、話者と、発話時刻と、を対応付けて記憶する(S106)。なお、時間毎に区切られた処理対象データを、その開始時刻と対応付けて記憶してもよい。ただしこの場合にも話者は単語と対応付けられることが望ましい。なお記憶するのは、単語でなくても文節を使用することもできる。文節の場合にはそれ自身でひとまとまりの音声上の特徴を有するので、より音声認識には適していると考えられる。 First, processing target data that is audio data and video data is acquired (S100). Here, the description will be made assuming that the processing target data is acquired by dividing every time. Then, a speaker included therein is specified (S102), and voice data is converted into a character string by voice recognition processing (S104). Then, the character string is divided into words, and the words, speakers, and utterance times are stored in association with each other (S106). In addition, you may memorize | store the process target data divided | segmented for every time in correlation with the start time. In this case, however, it is desirable that the speaker is associated with a word. Note that phrases can be used even if they are not words. In the case of a phrase, it has a group of voice characteristics by itself, so it is considered more suitable for voice recognition.
そして、上記各単語が、記憶されるキーワードに含まれるか否かを判定する(S108)。なお、上述のように単語に変えて文節を記憶する場合には、単語として入力されるキーワードは文節の一部となるので、該文節の一部にキーワードが含まれるか否かについても判定する必要がある。そして、該文節の一部にキーワードが含まれる場合には、該文節が、記憶されるキーワードに含まれると判定する。そして、含まれると判定される場合には次のS110の処理に進み、含まれないと判定される場合には、S100に戻り、次の処理対象データを取得する。 Then, it is determined whether or not each of the above words is included in the stored keyword (S108). When a phrase is stored in place of a word as described above, the keyword input as a word becomes a part of the phrase, so it is also determined whether or not the keyword is included in a part of the phrase. There is a need. If a keyword is included in a part of the phrase, it is determined that the phrase is included in the stored keyword. If it is determined that it is included, the process proceeds to the next process of S110, and if it is determined that it is not included, the process returns to S100 to acquire the next process target data.
S110の処理では、キーワードを含む単語について対応付けて記憶される話者が、記憶されている話者に含まれるか否かを判定する。すなわち、キーワードを喋った人間が登録者の登録した話者か否かを判定する。そして、記憶される話者である場合には、次のS112の処理に進み、含まれないと判定される場合には、S100に戻り、次の処理対象データを取得する。もちろん、キーワードは複数含まれる場合があるので、各キーワードについて処理を行い、1つでも記憶される話者が喋ったキーワードである場合には次のS112の処理に進む。 In the process of S110, it is determined whether or not the speaker stored in association with the word including the keyword is included in the stored speaker. That is, it is determined whether or not the person who spoke the keyword is a speaker registered by the registrant. If the speaker is stored, the process proceeds to the next process of S112. If it is determined that the speaker is not included, the process returns to S100 to acquire the next process target data. Of course, since there may be a plurality of keywords, processing is performed for each keyword, and if even one of the stored keywords is a spoken keyword, the process proceeds to the next step S112.
S112では、登録者に対する所定の通知処理を行う。上述のように、アイコンを点滅させたり、音量を増大させたり、といった処理である。 In S112, a predetermined notification process for the registrant is performed. As described above, this is a process of blinking the icon or increasing the volume.
そして、登録者によって繰り返し再生することを要求されたか否かを監視することにより判定する(S114)。すなわち、予め登録者によって設定された再生方法にて再生することを要求されたか否かを判定する。要求されたと判定する場合には、次のS116の処理に進み、要求されないと判定される場合(タイムアウトする場合)には、S100に戻り、次の処理対象データを取得する。 Then, it is determined by monitoring whether or not replaying is requested by the registrant (S114). That is, it is determined whether or not reproduction is requested by a reproduction method set in advance by a registrant. When it is determined that the request has been made, the process proceeds to the next process of S116. When it is determined that the request has not been made (when time-out occurs), the process returns to S100 to acquire the next process target data.
S116では、上記話者が話すキーワードを含んでいた単語と対応付けられて記憶される発話時刻から計算し、1分前の時刻から、再生処理を行う。このとき、記録媒体90によって新たな処理対象データが逐次記録されていく場合には、それを逐次読み出すことにより、次の処理によって登録者が再生停止を要求するまでの間、常に一分遅れの処理対象データを再生し続けることも可能である。
In S116, the calculation is performed from the utterance time stored in association with the word including the keyword spoken by the speaker, and the reproduction process is performed from the time one minute before. At this time, when new data to be processed is sequentially recorded by the
次に、再生終了が要求されたか、又は再生が最後まで終了したか、を監視し、判定する(S118)。そして、肯定判定された場合には、再生を終了し、通常のテレビ会議に戻す(S120)。そして、S100に戻り、次の処理対象データを取得する。否定判定された場合には、肯定判定またはタイムアウトまで繰り返し該判定処理を行う。 Next, it is monitored and judged whether the end of reproduction is requested or whether the reproduction is completed to the end (S118). If an affirmative determination is made, the reproduction ends and the normal video conference is resumed (S120). Then, the process returns to S100 to acquire the next processing target data. If a negative determination is made, the determination process is repeated until an affirmative determination or timeout occurs.
以上のようにすることにより、会議の内容に参加者の興味ある部分があった場合に、該会議参加者に通知することが可能とする。そして、興味ある部分を、話者の発言に含まれるキーワードにより特定することができる。また、キーワードを話した話者によって処理を変更することも可能である。 By doing as described above, when there is a part in which the participant is interested in the content of the conference, the conference participant can be notified. Then, an interesting part can be specified by a keyword included in the speaker's speech. It is also possible to change the process depending on the speaker who spoke the keyword.
なお、本発明は上記実施の形態に限定されるものではない。 The present invention is not limited to the above embodiment.
例えば、本発明はテレビ会議以外にも適用できる。すなわち、音声からキーワードをリアルタイムで抽出する必要があるような場合に本発明を適用することができる。また、キーワードを抽出せずに、話者のみを特定して、所定の通知処理を行うとすることもできる。このようにすれば、例えばテレビ会議で特定の話者が話し始めた時に所定の通知処理を行うことができる。 For example, the present invention can be applied to other than video conference. That is, the present invention can be applied to cases where it is necessary to extract keywords from voice in real time. In addition, it is possible to specify only a speaker and perform a predetermined notification process without extracting a keyword. In this way, for example, when a specific speaker starts speaking in a video conference, a predetermined notification process can be performed.
1 聴取支援システム、2 通信ネットワーク、3 通信装置、4 サーバコンピュータ、5 録画装置、6 ディスプレイ、7 クライアントコンピュータ、8 カメラ、9 マイクロフォン、40 バス、41,71 制御部、42,72 主記憶部、43,73 入出力記憶部、44,74 通信部、45 データベース、46,77 副記憶部、75 操作部、76 表示部、80 通信開始部、81 再生指示部、82 通知部、83 話者設定部、84 キーワード設定部、85 再生動作設定部、86 通知設定部、87 再生部、88 照合部、89 音声認識部、90 記録媒体、91 データ取得部。
1 listening support system, 2 communication network, 3 communication device, 4 server computer, 5 recording device, 6 display, 7 client computer, 8 camera, 9 microphone, 40 bus, 41, 71 control unit, 42, 72 main storage unit, 43, 73 I / O storage unit, 44, 74 communication unit, 45 database, 46, 77 secondary storage unit, 75 operation unit, 76 display unit, 80 communication start unit, 81 playback instruction unit, 82 notification unit, 83 speaker setting Unit, 84 keyword setting unit, 85 reproduction operation setting unit, 86 notification setting unit, 87 reproduction unit, 88 collation unit, 89 voice recognition unit, 90 recording medium, 91 data acquisition unit.
Claims (8)
処理対象として音声データを取得する処理対象取得手段、
前記処理対象取得手段により取得される前記音声データにより表される音声を文字列として認識する音声認識手段、及び
前記文字列に前記キーワード記憶手段により記憶されるキーワードデータにより示されるキーワードが含まれる場合に、該キーワードデータと対応付けて前記キーワード記憶手段により記憶される登録者データが示す登録者に対する所定の通知処理を行う通知手段、
としてコンピュータを機能させることを特徴とする聴取支援プログラム。 Keyword storage means for storing keyword data indicating a keyword and registrant data specifying a registrant who registered the keyword data in association with each other,
Processing target acquisition means for acquiring audio data as a processing target;
A voice recognition unit for recognizing a voice represented by the voice data acquired by the processing target acquisition unit as a character string, and a keyword indicated by the keyword data stored by the keyword storage unit in the character string Notification means for performing a predetermined notification process for the registrant indicated by the registrant data stored in the keyword storage means in association with the keyword data;
Listening support program characterized by causing a computer to function as
話者を示す話者データと、該話者データを登録した登録者を示す登録者データと、を対応付けて記憶する話者記憶手段、及び
前記処理対象取得手段により取得される前記音声データが表す音声の話者を特定する話者特定手段、
として前記コンピュータをさらに機能させ、
前記通知手段は、前記キーワードである文字列として前記音声認識手段により認識される音声の話者として特定される話者を示す話者データが、前記話者記憶手段により記憶される話者データに含まれる場合に、該話者データと対応付けて前記話者記憶手段により記憶される登録者データが示す登録者に対する前記所定の通知処理を行う、
ことを特徴とする聴取支援プログラム。 In the listening support program according to claim 1,
Speaker data indicating a speaker and registrant data indicating a registrant who registered the speaker data are stored in association with each other, and the voice data acquired by the processing target acquisition unit is stored. Speaker identification means for identifying the speaker of the voice to be represented,
Further functioning the computer as
The notification means includes speaker data indicating a speaker identified as a voice speaker recognized by the voice recognition means as a character string that is the keyword, in speaker data stored by the speaker storage means. If included, the predetermined notification process for the registrant indicated by the registrant data stored in the speaker storage means in association with the speaker data is performed.
Listening support program characterized by this.
前記処理対象取得手段により取得される前記音声データが表す音声の話者を特定する話者特定手段、
として前記コンピュータをさらに機能させ、
前記キーワード記憶手段は、前記キーワードデータと、話者を示す話者データと、前記登録者データと、を対応付けて記憶し、
前記通知手段は、前記特定される話者を示す話者データが前記話者記憶手段により記憶される話者データに含まれる場合であって、前記文字列に前記キーワード記憶手段により該話者データと対応付けて記憶されるキーワードデータにより示されるキーワードが含まれる場合に、前記所定の通知処理を行う、
ことを特徴とする聴取支援プログラム。 In the listening support program according to claim 1,
A speaker identification unit that identifies a speaker of the voice represented by the voice data acquired by the processing target acquisition unit;
Further functioning the computer as
The keyword storage means stores the keyword data, speaker data indicating a speaker, and the registrant data in association with each other,
The notification means is a case in which speaker data indicating the specified speaker is included in speaker data stored by the speaker storage means, and the character string is stored in the character string by the speaker storage means. When the keyword indicated by the keyword data stored in association with is included, the predetermined notification process is performed.
Listening support program characterized by this.
前記音声データは、該音声データが表す音声の話者の映像を含む映像を伴って、前記処理対象取得手段により取得され、
前記話者特定手段は、前記映像に含まれる前記話者の映像をパターン認識することにより、前記音声の話者を特定する、
ことを特徴とする聴取支援プログラム。 In the listening support program according to claim 2 or 3,
The audio data is acquired by the processing target acquisition unit along with an image including an image of an audio speaker represented by the audio data,
The speaker specifying means specifies the speaker of the voice by pattern recognition of the video of the speaker included in the video.
Listening support program characterized by this.
前記話者特定手段は、前記音声の声紋をパターン認識することにより、該音声の話者を特定する、
ことを特徴とする聴取支援プログラム。 In the listening support program according to claim 2 or 3,
The speaker specifying means specifies the speaker of the voice by pattern recognition of the voice print of the voice;
Listening support program characterized by this.
前記処理対象取得手段により取得される音声を記憶する音声信号記憶手段、
前記文字列に前記キーワード記憶手段により記憶されるキーワードデータにより示されるキーワードが含まれる場合に、該キーワードである文字列として前記音声認識手段により認識される音声の、前記音声内における発生タイミングを示す情報を記憶するタイミング情報記憶手段、
前記音声信号記憶手段により記憶される音声を、前記発生タイミングを示す情報に応じて、再生する音声信号再生手段、
として前記コンピュータをさらに機能させることを特徴とする聴取支援プログラム。 The listening support program according to any one of claims 1 to 5,
Audio signal storage means for storing the sound acquired by the processing object acquisition means;
When the character string includes the keyword indicated by the keyword data stored by the keyword storage unit, the generation timing in the voice of the voice recognized by the voice recognition unit as the character string that is the keyword is indicated. Timing information storage means for storing information,
Audio signal reproduction means for reproducing the audio stored by the audio signal storage means in accordance with the information indicating the generation timing;
As a listening support program, the computer further functions as:
処理対象として音声を表す音声データを取得する処理対象取得手段と、
前記処理対象取得手段により取得される前記音声データにより表される音声を文字列として認識する音声認識手段と、
前記文字列に前記キーワード記憶手段により記憶されるキーワードデータにより示されるキーワードが含まれる場合に、該キーワードデータと対応付けて前記キーワード記憶手段により記憶される登録者データが示す登録者に対する所定の通知処理を行う通知手段と、
を含むことを特徴とする聴取支援装置。 Keyword storage means for storing keyword data indicating a keyword and registrant data for specifying a registrant who registered the keyword data in association with each other;
Processing target acquisition means for acquiring voice data representing voice as a processing target;
Voice recognition means for recognizing a voice represented by the voice data acquired by the processing target acquisition means as a character string;
When the character string includes a keyword indicated by the keyword data stored by the keyword storage means, a predetermined notification to the registrant indicated by the registrant data stored by the keyword storage means in association with the keyword data Notification means for processing;
A listening support apparatus comprising:
処理対象として音声を表す音声データを取得する処理対象取得ステップと、
前記処理対象取得ステップにおいて取得される前記音声データにより表される音声を文字列として認識する音声認識ステップと、
前記文字列に前記キーワード記憶ステップにおいて記憶されるキーワードデータにより示されるキーワードが含まれる場合に、該キーワードデータと対応付けて前記キーワード記憶ステップにおいて記憶される登録者データが示す登録者に対する所定の通知処理を行う通知ステップと、
を含むことを特徴とする聴取支援方法。
A keyword storage step for storing keyword data indicating a keyword and registrant data for identifying a registrant who has registered the keyword data in association with each other;
A processing target acquisition step for acquiring voice data representing a voice as a processing target;
A voice recognition step for recognizing the voice represented by the voice data acquired in the processing target acquisition step as a character string;
When the character string includes a keyword indicated by the keyword data stored in the keyword storage step, a predetermined notification to the registrant indicated by the registrant data stored in the keyword storage step in association with the keyword data A notification step for processing;
Listening support method characterized by including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004161622A JP2005345508A (en) | 2004-05-31 | 2004-05-31 | Listening support program, listening support device, and listening support method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004161622A JP2005345508A (en) | 2004-05-31 | 2004-05-31 | Listening support program, listening support device, and listening support method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005345508A true JP2005345508A (en) | 2005-12-15 |
Family
ID=35497991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004161622A Pending JP2005345508A (en) | 2004-05-31 | 2004-05-31 | Listening support program, listening support device, and listening support method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005345508A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018155779A (en) * | 2017-03-15 | 2018-10-04 | ヤマハ株式会社 | Information providing method and information providing system |
WO2022024371A1 (en) * | 2020-07-31 | 2022-02-03 | マクセル株式会社 | Web meeting system and web meeting program |
JP2022061932A (en) * | 2020-10-07 | 2022-04-19 | ネイバー コーポレーション | Method, system and computer-readable recording medium for creating memorandum for voice file by linkage between application and website |
-
2004
- 2004-05-31 JP JP2004161622A patent/JP2005345508A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018155779A (en) * | 2017-03-15 | 2018-10-04 | ヤマハ株式会社 | Information providing method and information providing system |
WO2022024371A1 (en) * | 2020-07-31 | 2022-02-03 | マクセル株式会社 | Web meeting system and web meeting program |
JP2022061932A (en) * | 2020-10-07 | 2022-04-19 | ネイバー コーポレーション | Method, system and computer-readable recording medium for creating memorandum for voice file by linkage between application and website |
US11636253B2 (en) | 2020-10-07 | 2023-04-25 | Naver Corporation | Method, system, and non-transitory computer readable recording medium for writing memo for audio file through linkage between app and web |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5201050B2 (en) | Conference support device, conference support method, conference system, conference support program | |
JP5533854B2 (en) | Speech recognition processing system and speech recognition processing method | |
JP4175390B2 (en) | Information processing apparatus, information processing method, and computer program | |
US8972262B1 (en) | Indexing and search of content in recorded group communications | |
EP3309783A1 (en) | Communication method, and electronic device therefor | |
JP7427408B2 (en) | Information processing device, information processing method, and information processing program | |
CN109560941A (en) | Minutes method, apparatus, intelligent terminal and storage medium | |
JP2006251898A (en) | Information processor, information processing method, and program | |
CN108763475B (en) | Recording method, recording device and terminal equipment | |
JP2009301125A (en) | Conference voice recording system | |
JP2002099530A (en) | Minutes production device, method and storage medium using it | |
JP3437617B2 (en) | Time-series data recording / reproducing device | |
JP2006279111A (en) | Information processor, information processing method and program | |
JPH07234694A (en) | Automatic reception device | |
CN111341301B (en) | Recording processing method | |
CN113707183A (en) | Audio processing method and device in video | |
JPH11259501A (en) | Speech structure detector/display | |
JP2005345508A (en) | Listening support program, listening support device, and listening support method | |
JP2005332404A (en) | Content providing system | |
CN115376517A (en) | Method and device for displaying speaking content in conference scene | |
JP2009053342A (en) | Minutes preparation apparatus | |
JP4015018B2 (en) | Recording apparatus, recording method, and recording program | |
JPH08249343A (en) | Device and method for speech information acquisition | |
WO2017149848A1 (en) | Information processing device, information processing method and program | |
JP3638591B2 (en) | Content provision system |