JP2009053342A - Minutes preparation apparatus - Google Patents
Minutes preparation apparatus Download PDFInfo
- Publication number
- JP2009053342A JP2009053342A JP2007218441A JP2007218441A JP2009053342A JP 2009053342 A JP2009053342 A JP 2009053342A JP 2007218441 A JP2007218441 A JP 2007218441A JP 2007218441 A JP2007218441 A JP 2007218441A JP 2009053342 A JP2009053342 A JP 2009053342A
- Authority
- JP
- Japan
- Prior art keywords
- participant
- audio data
- data
- unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、議事録を作成する議事録作成装置に関する。 The present invention relates to a minutes creation device for creating minutes.
従来、会議の議事録は、会議の参加者の発言内容を議事録作成者がメモし、会議後にそのメモに基づいた清書あるいはワードプロセッサを用いてタイプするなどして、議事録の体裁を整えた形で作成されていた。このようなメモに頼った議事録の作成においては、通常、参加者が自由に発言するため、発言内容のメモをとるには多大な労力を要し、議事録作成者が会議に参加できなくなる恐れがある。議事録作成者が会議の全ての発言内容を録音することにより、会議後、録音した発言内容を聴きながら議事録を作成する場合も、議事録作成者には多くの負担が生じるという問題があった。 Conventionally, minutes of meeting minutes were recorded by the meeting creator, who wrote down the contents of the meeting participants, and typed them using a clean copy or word processor based on the notes after the meeting. It was created in the form. In making minutes based on such memos, participants usually speak freely, so it takes a lot of labor to take notes of the contents of the utterances, and the minutes maker cannot participate in the meeting. There is a fear. When the minutes maker records all the contents of the meeting, the minutes writer will be burdened even if the minutes are created while listening to the recorded contents after the meeting. It was.
そこで、音声認識技術を用いて、コンピュータが参加者の発言内容を認識し、認識した発言内容をテキストに変換し、電子的な議事録を作成する技術が示されている(例えば、特許文献1、2参照)。 Therefore, a technique is shown in which a computer recognizes the content of a participant's speech using voice recognition technology, converts the recognized content of the speech into text, and creates an electronic minutes (for example, Patent Document 1). 2).
また、従来の電子会議システムとしては、電子会議に参加する各参加者のためのクライアント装置、および、電子会議を管理する会議サーバ装置がネットワークを介して接続され、参加者はクライアント装置を用いて自らの会議中の発言のデータを会議サーバ装置に送信し、会議サーバ装置が、発言データを議事進行中に記録するものが知られている(例えば、特許文献3参照)。なお、発言データは、ネットワークを介して送受信される音声データである。 In addition, as a conventional electronic conference system, a client device for each participant who participates in an electronic conference and a conference server device that manages the electronic conference are connected via a network, and the participant uses the client device. It is known that the data of a speech during its own meeting is transmitted to the conference server device, and the conference server device records the speech data while proceeding with the proceedings (for example, see Patent Document 3). Note that the utterance data is audio data transmitted / received via a network.
会議サーバ装置は、記録した参加者の発言データから音声認識技術でテキストデータに変換することで、発言履歴による議事録を作成するようになっている。ここで、複数の参加者が、同時に発言した場合、複数の発言を1つの音声データとして記録してしまうと、人が正しく認識できる程度のテキストデータに変換することが困難になるため、会議サーバ装置が参加者毎に発言内容を記録するのが一般的である。
しかしながら、上述した会議サーバ装置などの議事録作成装置は、参加者毎に発言内容を記録しているが、会議中に議題に関係のない発言ばかりする参加者や特に興味のない参加者がいることがしばしばあるため、従来の議事録作成装置がそのような参加者の発言内容までも記録に残して議事録を作成してしまうと、議事録に必要なデータ量が膨大なものとなってしまい、議事録を作成するときの処理効率が低下してしまうという問題があった。 However, although the minutes creation device such as the conference server device described above records the content of the remarks for each participant, there are participants who make only remarks that are not related to the agenda during the conference and participants who are not particularly interested. Therefore, if a conventional minutes creation device creates a minutes by recording even the contents of such participants' remarks, the amount of data required for the minutes becomes enormous. Therefore, there has been a problem that the processing efficiency when creating the minutes is reduced.
そこで、本発明は、議事録に必要なデータ量を節約することができ、議事録を作成するときの処理効率を高めることができる議事録作成装置を提供することを目的としたものである。 Therefore, an object of the present invention is to provide a minutes creation apparatus that can save the amount of data required for minutes and can improve the processing efficiency when the minutes are created.
本発明の議事録作成装置は、電子会議の各参加者のうち発言が記録される対象参加者の情報および発言が記録されない参加者の情報を指定させる参加者指定部と、前記参加者が発言したときの音声データを受信する音声データ受信部と、前記音声データ受信部によって受信された音声データのうち、前記参加者指定部で指定された対象参加者に対応する音声データを検出する音声データ検出部と、前記音声データ検出部によって検出された音声データを保存する音声データ保存部と、前記音声データ保存部によって保存された音声データをテキストデータに変換する音声認識部と、前記音声認識部で変換されたテキストデータに基づいて議事録を作成する議事録作成部と、を備えた構成を有している。
この構成により、電子会議の各参加者のうち発言が記録される対象参加者の情報を指定させ、受信された音声データのうち指定された対象参加者に対応する音声データを保存し、保存した音声データを音声認識して議事録を作成することで、発言が記録されない参加者に対応する音声データを保存することがなくなるため、議事録に必要なデータ量を節約することができ、議事録を作成するときの処理効率を高めることができる。
The minutes creation apparatus of the present invention includes a participant designating unit for designating information on a target participant whose speech is recorded among participants of an electronic conference and information on a participant whose speech is not recorded, and the participant speaks Audio data receiving unit for receiving audio data when the audio data is received, and audio data for detecting audio data corresponding to the target participant specified by the participant specifying unit among the audio data received by the audio data receiving unit A detection unit; a voice data storage unit that stores voice data detected by the voice data detection unit; a voice recognition unit that converts voice data stored by the voice data storage unit into text data; and the voice recognition unit And a minutes creation unit for creating minutes based on the text data converted in step (b).
With this configuration, the information of the target participant to which the remark is recorded among each participant of the electronic conference is designated, and the voice data corresponding to the designated target participant among the received voice data is saved and saved. By creating the minutes by recognizing the voice data, it is not necessary to save the voice data corresponding to the participants who are not recorded, so the amount of data required for the minutes can be saved and the minutes can be saved. Can improve the processing efficiency when creating.
また、本発明の議事録作成装置は、前記参加者指定部が、前記対象参加者の情報を指定させる際に前記対象参加者に対応する登録音声データを指定させ、前記音声認識部が、前記参加者指定部で指定された対象参加者の登録音声データに従って前記音声データをテキストデータに変換する構成を有している。
この構成により、対象参加者の登録音声データに従って音声データをテキストデータに変換するため、音声認識の精度を向上させることができる。
Also, the minutes creation device of the present invention, when the participant designation unit designates the information of the target participant, the registered voice data corresponding to the target participant is designated, the voice recognition unit, The voice data is converted into text data in accordance with the registered voice data of the target participant designated by the participant designation unit.
With this configuration, since the voice data is converted into text data in accordance with the registered voice data of the target participant, the accuracy of voice recognition can be improved.
また、本発明の議事録作成装置は、前記参加者指定部が、前記対象参加者の情報を指定させる際に前記対象参加者の音声データを保存するときの最大保存容量を指定させ、前記音声データ保存部が、前記音声データ検出部によって検出された音声データを、前記参加者指定部で指定された最大保存容量以内になるように保存する構成を有している。
この構成により、検出された音声データに対応する最大保存容量以内になるように検出された音声データを保存するため、議事録に必要なデータ量を有効に使用することができる。
Also, the minutes creation device of the present invention allows the participant designation unit to designate a maximum storage capacity for saving the target participant's voice data when the target participant's information is designated, and the voice The data storage unit stores the audio data detected by the audio data detection unit so as to be within the maximum storage capacity specified by the participant specifying unit.
With this configuration, since the detected voice data is stored so as to be within the maximum storage capacity corresponding to the detected voice data, the amount of data necessary for the minutes can be used effectively.
また、本発明の議事録作成装置は、前記参加者指定部が、前記対象参加者の情報を指定させる際に前記対象参加者に対応する音声データの音量を指定させ、前記音声データ検出部が、前記音声データ検出部によって検出された音声データの音量を、前記参加者指定部で指定された音量になるように調整する構成を有している。
この構成により、検出された音声データの音量を、指定された音量になるように調整することで、適正な音声データが保存されることになるため、議事録を正確に作成することができる。
In the minutes creation device of the present invention, the participant designating unit designates the volume of audio data corresponding to the target participant when the information on the target participant is designated, and the audio data detecting unit The sound data detected by the sound data detecting unit is adjusted so as to be the sound volume specified by the participant specifying unit.
With this configuration, by adjusting the volume of the detected audio data so as to become the designated volume, appropriate audio data is saved, so that the minutes can be created accurately.
また、本発明の議事録作成装置は、音声データを再生する音声データ再生部を備え、前記音声データ検出部が、前記音声データ受信部によって受信された音声データのうち、前記参加者指定部で指定された対象参加者に対応する音声データを検出すると共に、前記音声データ受信部によって受信された音声データを前記音声データ再生部に再生させる構成を有している。
この構成により、指定された対象参加者に対応する音声データを検出しながら、音声データを再生させるため、議事録を作成すると共に、利用者に議事の内容を聴き取らせることができる。
In addition, the minutes generating device of the present invention includes an audio data reproducing unit that reproduces audio data, and the audio data detecting unit includes the audio data received by the audio data receiving unit at the participant specifying unit. The audio data corresponding to the designated target participant is detected, and the audio data received by the audio data receiving unit is reproduced by the audio data reproducing unit.
With this configuration, since the audio data is reproduced while detecting the audio data corresponding to the designated target participant, the minutes can be created and the user can listen to the contents of the agenda.
以上のように本発明は、議事録に必要なデータ量を節約することができ、議事録を作成するときの処理効率を高めることができる議事録作成装置を提供するものである。 As described above, the present invention provides a minutes creation device that can save the amount of data required for minutes and can improve the processing efficiency when creating minutes.
以下、本発明の実施の形態について、図面を用いて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本発明の実施の形態に係る会議システムを表す図である。図1に示した会議システムでは、ネットワークを介して4つの会議端末10が互いに接続されている。以降、会議端末10の各々を区別する場合、会議端末10A〜会議端末10Dとして記載し、区別しない場合、会議端末10として記載する。
FIG. 1 is a diagram showing a conference system according to an embodiment of the present invention. In the conference system shown in FIG. 1, four
電子会議を行う際には、参加者A〜参加者Dまで参加者がいるとすれば、参加者A〜参加者Dのそれぞれは、会議端末10A〜会議端末10Dのそれぞれを使用することになる。なお、本発明の実施の形態に係る会議システムでは、従来のような会議を管理するためのクライアントおよびサーバは特に持たない。
When conducting an electronic conference, if there are participants from participant A to participant D, each of participant A to participant D uses each of
会議端末10は、パソコンなどである。電子会議を行う際に、破線で示しているようにネットワークに接続された会議端末10同士がデータを送受信することができる。例えば、会議端末10は、電子会議中に、電子会議の参加者の発言を表した音声データを、ネットワークを介して自身の会議端末10を除く参加中の会議端末10全てに送信したり、他の会議端末10から受信した発言の音声データを再生するようになっている。
The
本発明の実施の形態では、図1に示した会議システムで用いられるデータの送受信は、IP(Internet Protocol)に準拠して行われるため、会議端末10には、IPアドレスが登録されている。
In the embodiment of the present invention, transmission / reception of data used in the conference system shown in FIG. 1 is performed in accordance with IP (Internet Protocol), and therefore, an IP address is registered in the
また、会議端末10は、音声認識技術を用いて、他の会議端末10から受信した発言の音声データをテキストデータに変換することで、議事録を作成するようになっている。なお、本発明の議事録作成装置は例示すれば会議端末10であるため、本発明の実施の形態では、会議端末10について説明する。
In addition, the
図2は、本発明の実施の形態に係る会議端末のブロック図である。会議端末10は、一般的なコンピュータの構成を有しており、詳細には、図示していないCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、およびハードディスク、さらに、ネットワークに接続するためのネットワークインタフェース21、電子会議の参加者の音声を出力するスピーカ22、参加者の音声を入力するマイクロホン23、参加者からの情報を入力するキーボードやマウスなどの入力機器24、情報を表示するディスプレイ25を有している。
FIG. 2 is a block diagram of the conference terminal according to the embodiment of the present invention. The
なお、通話時に周囲の雑音が混入してしまうことを防止するため、マイクロホン23およびスピーカ22を、マイクロホンとイヤホンとが一体型となっているイヤホンマイクに替えてもよい。
In order to prevent ambient noise from being mixed during a call, the
また、図2に示すように、会議端末10は、参加者指定部11、音声データ受信部12、音声データ検出部13、音声データ保存部14、音声認識部15、議事録作成部16、音声データ再生部17、音声変換部18、および音声データ送信部19を備えており、例えば、これらの機能部は、CPUが実行するプログラムのモジュールなどで実施されてもよい。
As shown in FIG. 2, the
参加者指定部11は、電子会議の各参加者のうち、電子会議の議事録の記録をとるのに必要な少なくとも1名以上の対象参加者の情報を会議端末10の利用者に指定させるようになっている。対象参加者は、電子会議の各参加者のうち発言が記録される参加者である。対象参加者の情報を指定させるタイミングとしては、電子会議の開始前でもよいし、電子会議の途中でもよい。
The
図3は、利用者に参加者の情報を指定させる画面のイメージ図であり、図3(A)は、利用者に参加者の情報を指定させる指定ウインドウ30を表している。参加者指定部11は、指定ウインドウ30をディスプレイ25に表示するようになっている。図3(A)の指定ウインドウ30は、例えば最大8名が電子会議に参加する場合において、8名までの参加者の情報を、入力機器24を介して指定させるものである。
FIG. 3 is an image diagram of a screen that allows a user to specify participant information. FIG. 3A illustrates a
指定ウインドウ30は、参加者の情報を指定させるための指定項目31を参加者毎に有している。図3(B)は、指定項目31だけを拡大して表した図である。
The
利用者が指定する項目としては、参加者の名前を表す参加者名項目33、音声認識時に必要となる登録音声データ識別項目34、参加者が使用する機器を識別するための識別情報項目35、参加者の音声データを保存するかしないかを指定する保存是非項目36がある。参加者名項目33、登録音声データ識別項目34、識別情報項目35、および保存是非項目36は、利用者によって指定される。
The items specified by the user include a participant name item 33 representing the name of the participant, a registered voice
会議端末10がIPに準拠したネットワークを使用して電子会議を行う場合、識別情報項目35は、会議端末10のIPアドレスである。参加者指定部11は、指定された識別情報項目35の情報を、図4に示す制御情報の識別情報に登録するようになっている。
When the
図4に示す制御情報は、指定された参加者の情報に基づいたものであり、RAMやハードディスクに記憶されている。なお、図4(A)では、会議端末10Dが有する制御情報の例を示している。本発明の実施の形態では、識別情報については、IPアドレスが登録される。
The control information shown in FIG. 4 is based on designated participant information, and is stored in the RAM or hard disk. Note that FIG. 4A illustrates an example of control information included in the
図4(A)の制御情報の参加者については、図3(B)に示したように参加者名項目33で指定されたものが登録され、図4(A)の制御情報の登録音声データについては、図3(B)に示したように男性用または女性用の音声かを識別する登録音声データ識別項目34で指定されたものが登録される。また、保存実施の是非について、図3(B)に示したように保存是非項目36で指定されたものが登録される。
As for the participants in the control information of FIG. 4A, those specified in the participant name item 33 are registered as shown in FIG. 3B, and the registered voice data of the control information in FIG. As shown in FIG. 3B, the one designated by the registered voice
図4(B)の制御情報については、図4(A)に加えてスピーカ出力の有無および最大保存容量が含まれている。スピーカ出力の有無および最大保存容量については後述するが、スピーカ出力の有無を指定するスピーカ出力有無項目、最大保存容量を指定する最大保存容量項目が、新たに指定項目31に追加され(図示していない)、スピーカ出力有無項目および最大保存容量項目でそれぞれ指定されたものが、図4(B)の制御情報のスピーカ出力の有無および最大保存容量のそれぞれに登録される。 The control information in FIG. 4B includes the presence / absence of speaker output and the maximum storage capacity in addition to FIG. 4A. The presence / absence of speaker output and the maximum storage capacity will be described later. A speaker output presence / absence item for specifying the presence / absence of speaker output and a maximum storage capacity item for specifying the maximum storage capacity are newly added to the specification item 31 (not shown). No), the items specified in the speaker output presence / absence item and the maximum storage capacity item are respectively registered in the presence / absence of speaker output and the maximum storage capacity in the control information of FIG.
音声データ受信部12は、参加者が発言したときの音声データをネットワークインタフェース21を介して受信し、受信した音声データを音声データ検出部13に出力するようになっている。例えば、8名が電子会議に参加する場合において、音声データ受信部12は、自己の会議端末10の参加者の音声データを除く7名の音声データを受信するようになっている。
The voice
なお、IPに準拠したネットワークを使用して電子会議を行う場合、音声データは、IPパケットのペイロード部に設定されているものであり、RTP(Real-time Transport Protocol)等に準拠した技術に従ってリアルタイムに受信される。音声データ受信部12は、リアルタイムに受信された音声データを音声データ検出部13に出力するようになっている。
When an electronic conference is performed using an IP-compliant network, the voice data is set in the payload portion of the IP packet and is real-time according to a technology compliant with RTP (Real-time Transport Protocol) or the like. Received. The voice
音声データ検出部13は、音声データ受信部12によって受信された音声データを音声データ再生部17に出力するようになっている。音声データ再生部17は、音声データ検出部13によって出力された音声データをデジタルアナログ変換するなどして音声データを再生し、再生したものをスピーカ22に出力するようになっている。
The audio
参加者の発言による音声のうち自己の会議端末10の参加者の音声データを除く参加者の音声データが、スピーカ22を介して聴覚される。
Participant's voice data excluding the voice data of the participant of his / her
また、音声データ検出部13は、音声データ受信部12によって受信された音声データのうち、参加者指定部11で指定された対象参加者に対応する音声データを検出するようになっている。
The voice
例えば、IPに準拠したネットワークを使用して電子会議を行う場合、参加者指定部11から音声データ検出部13にIPアドレス等が出力されているため、音声データ検出部13は、図4に示した制御情報の識別情報に設定されてあるIPアドレスのうち、音声データが含まれているIPパケットのヘッダ部のIPアドレスに一致するものがあるか否かを判定する。音声データ検出部13は、一致したときのIPアドレスに対応する図4に示した制御情報の保存実施の是非が「保存する」になっているかを判定し、「保存する」になっている参加者である対象参加者の音声データを音声データ保存部14に保存させる。
For example, when an electronic conference is performed using a network compliant with IP, since the IP address and the like are output from the
また、音声データ検出部13は、音声変換部18によって出力された音声データに対応する図4に示した制御情報の保存実施の是非が「保存する」になっているかを判定し、「保存する」になっている参加者である対象参加者の音声データを音声データ保存部14に保存させる。
Further, the voice
また、音声データ検出部13は、音声データ受信部12によって受信された音声データを音声データ再生部17に出力するとしたが、図4(B)の制御情報のスピーカ出力の有無に従って、スピーカ出力の有となっている音声データだけを音声データ再生部17に出力する。特定の参加者の発言を聴きたくない場合などには、図4(B)の制御情報のスピーカ出力の有無が無しに登録され、音声データの再生を停止することで、不要な音声データの再生処理を省略して、その分議事録を作成するときの処理効率を上げることもできる。
In addition, the audio
ところで、図3(B)に示した指定項目31内にある音量メータ32は、対象参加者の音声データの音量を表すものであり、例えば、電子会議の開始前などに音量を調整するときに参照される。
By the way, the
音量メータ32に関する使用方法としては、利用者が、保存是非項目36が保存するとなっている指定項目31を選択して開始ボタン41を押下したとき、選択された指定項目31の会議端末10から発言の音量のレベルが音量メータ32に表示される。開始ボタン41が押下されたとき、例えば、音声データ検出部13は、対象参加者の音声データの音量のレベルを検出し、検出した音量のレベルを、該当する指定項目31の音量メータ32に表示させる。
As a method of using the
音量のレベルが音量メータ32に表示されている最中に、参加者指定部11は、音量調整ボタン43で音量を利用者に指定させることで、音声データ検出部13が、該当する音声データの音量を、参加者指定部11で指定された音量になるように調整するようになっている。また、利用者が、音量のレベルの表示を停止したい場合は、停止ボタン42を押下する。
While the volume level is displayed on the
なお、クリアボタン44は、選択された指定項目31の各種項目に設定された内容をクリアするものであり、保存ボタン45は、各指定項目31に設定された内容を図4に示す制御情報に登録するものである。
The
ここで、各参加者の発言による音声データの流れを表す図を図5に例示する。会議端末10Aの参加者は、時刻t1から発言し、その後に発言をやめて無言の状態があり、また時刻t4から発言した様子を表している。会議端末10Bの参加者は、時刻t3から発言し、その後に発言をやめて無言の状態があり、また時刻t6から発言した様子を表している。会議端末10Dの参加者は、時刻t2から発言し、その後に発言をやめて無言の状態があり、また時刻t5から発言した様子を表している。なお、会議端末10Cの参加者の発言については、図4の制御情報で保存しない設定にしているため、省略している。
Here, FIG. 5 illustrates a diagram representing the flow of audio data according to the speech of each participant. The participant of the
音声データ保存部14は、音声データ検出部13によって検出された音声データを保存するようになっている。例えば、図5に示したように、各対象参加者の発言による音声データが音声データ検出部13によって検出された場合、音声データ保存部14は、各対象参加者の発言の無音部分を検出し、発言のあった期間の音声データを電子ファイルとして保存するようになっている。
The audio
なお、無音部分を検出する方法としては、例えば、所定時間内に一定の音量レベルに達しない場合において無音とみなす等の方法がある。 As a method for detecting a silent portion, for example, there is a method in which it is regarded as silent when a certain volume level is not reached within a predetermined time.
例えば、図6に示すように、音声データ保存部14は、発言の開始時刻を音声データに設定し、発言が開始された後に発言の無音部分を検出した際、発言が開始されてから無言の状態になるまでの音声データを、対象参加者が識別可能なように電子ファイルとして保存する。
For example, as shown in FIG. 6, when the voice
会議端末10Aの対象参加者が時刻t1から発言したときの音声データを音声データA1とする。音声データA1は、音声データ保存部14によって電子ファイルA1としてハードディスクなどの記録媒体に記憶される。また、会議端末10Aの対象参加者が時刻t4から発言したときの音声データを音声データA2とする。音声データA2は、音声データ保存部14によって電子ファイルA2としてハードディスクなどの記録媒体に記憶される。
The audio data when the target participant of the
会議端末10Bの対象参加者が時刻t3から発言したときの音声データを音声データB1とする。音声データB1は、音声データ保存部14によって電子ファイルB1としてハードディスクなどの記録媒体に記憶される。また、会議端末10Bの対象参加者が時刻t6から発言したときの音声データを音声データB2とする。音声データB2は、音声データ保存部14によって電子ファイルB2としてハードディスクなどの記録媒体に記憶される。
The audio data when the target participant of the
会議端末10Dの対象参加者が時刻t2から発言したときの音声データを音声データD1とする。音声データD1は、音声データ保存部14によって電子ファイルD1としてハードディスクなどの記録媒体に記憶される。また、会議端末10Dの対象参加者が時刻t5から発言したときの音声データを音声データD2とする。音声データD2は、音声データ保存部14によって電子ファイルD2としてハードディスクなどの記録媒体に記憶される。
The audio data when the target participant of the
なお、音声データ保存部14が付与する電子ファイルのファイル名は、開始時刻と参加者を識別する情報とを組み合わせたものでもよい。
Note that the file name of the electronic file provided by the audio
音声認識部15は、音声データ保存部14によって保存された音声データを認識することでテキストデータに変換するようになっている。図7に示すように、音声認識部15は、学習機能を有する音声認識エンジンを有しており、同じ対象参加者の音声データをできるだけ一度に音声認識することで、音声認識の精度(音声認識率)を向上させるようになっている。
The
例えば、図7に示すように、音声認識部15は、一定時間内に会議端末10Aの対象参加者の音声データだけを音声認識し、次の一定時間内に会議端末10Bの対象参加者の音声データだけを音声認識し、さらに次の一定時間内に会議端末10Dの対象参加者の音声データだけを音声認識し、音声認識した結果をテキストデータに変換するようになっている。
For example, as shown in FIG. 7, the
また、音声認識部15は、図4(B)の制御情報に設定されている登録音声データ識別項目34が示す登録音声データを有しており、参加者指定部11で指定された対象参加者の登録音声データに基づいて音声認識し、音声認識した結果をテキストデータに変換することで、さらに音声認識の精度(音声認識率)を向上させるようになっている。
Further, the
図4では、登録音声データ識別項目34については、音声認識の効率化を図るため、男性用の音声か女性用の音声かを識別する情報が指定されるが、最も音声認識の効率化を図るには、予め参加者の音声を録音して得られた登録音声データを登録しておき、登録音声データ識別項目34に登録音声データを設定させることが望ましい。このようにすれば音声認識部15は、参加者毎の登録音声データに基づいて音声認識することで、認識率を向上させるようになっている。
In FIG. 4, for the registered voice
議事録作成部16は、音声認識部15で音声データから変換されたテキストデータに基づいて議事録を作成するようになっている。図6に示すように、音声データ保存部14が保存した音声データには開始時刻が設定されているため、開始時刻の順番に、音声データから変換されたテキストデータを並び替えて議事録を作成するようになっている。
The
議事録作成部16が作成した議事録をディスプレイ25に表示させたときの図を図8に示す。図8(A)は、HTML(Hyper Text Markup Language)形式に対応した議事録であり、図8(B)は、テキスト形式に対応した議事録である。
FIG. 8 shows a diagram when the minutes created by the
なお、議事録作成部16は、電子会議の途中でリアルタイムに議事録を作成するようにしてもよいし、電子会議が終わった場合など任意の時点で議事録を作成するようにしてもよい。
The
図8(A)では、発言者と発言内容とを対応させて表示させている。さらに、図8(A)では、発言内容に対応する再生ボタンを押下すれば発言内容の音声データを再生するようになっている。例えば、再生ボタンが押下されたとき、音声データ再生部17は、押下された再生ボタンに対応する音声データの電子ファイルを音声データ保存部14から取得して再生するようになっている。
In FIG. 8A, the speaker and the message content are displayed in correspondence with each other. Further, in FIG. 8A, the speech data of the utterance content is reproduced by pressing a playback button corresponding to the utterance content. For example, when a playback button is pressed, the audio
図8(B)では、発言者および発言開始時刻が括弧の中に表示されており、発言者と発言内容とを対応させて表示させている。なお、図3(B)の参加者名項目33で指定された参加者名は、図8(A)および図8(B)の発言者として表示される。 In FIG. 8B, the speaker and the speech start time are displayed in parentheses, and the speaker and the content of the speech are displayed in correspondence with each other. Note that the participant name designated in the participant name item 33 in FIG. 3B is displayed as the speaker in FIGS. 8A and 8B.
音声変換部18は、参加者の発言をマイクロホン23が収音したときの音声信号を、アナログデジタル変換し、変換されたデジタルの音声データを音声データ送信部19および音声データ検出部13に出力するようになっている。
The
音声データ送信部19は、音声変換部18によって音声データが出力されたとき、音声データを自身の会議端末10を除く電子会議に参加している会議端末10全てにネットワークインタフェース21を介して送信するようになっている。
When the audio data is output by the
以上のように構成された会議端末10の動作の一例について図9を用いて以下に説明する。図9(A)は、電子会議を開始する前の段階で電子会議の参加者の情報を登録する動作の流れを示すフローチャートである。
An example of the operation of the
まず、電子会議を開始する前に、会議端末10を利用する利用者が電子会議の参加者を指定すると共に、参加者の情報が会議端末10に登録される。例えば、図3に示したように、参加者指定部11が指定ウインドウ30をディスプレイ25に表示し、利用者が指定ウインドウ30を介して指定項目31内の各種項目に対し情報を入力機器24で入力する。指定された項目に対する情報が、参加者指定部11によって図4の制御情報に登録される(ステップS1)。
First, before starting an electronic conference, a user who uses the
図9(B)は、電子会議が開始した後に音声データを受信した場合の動作の流れを示すフローチャートである。 FIG. 9B is a flowchart showing an operation flow when audio data is received after the electronic conference is started.
電子会議が開始した後に、音声データ受信部12は、ネットワークインタフェース21を介して受信したとき(ステップS11)、受信した音声データを音声データ検出部13に出力する。音声データ検出部13は、出力された音声データが含まれているIPパケットのヘッダ部からIPアドレスを取得する(ステップS12)。
After the electronic conference is started, the voice
音声データ検出部13は、ステップS12で取得したIPアドレスと同じものが、図4に示した制御情報の識別情報にある場合で、識別情報と対応する音声データの保存の是非を判定する(ステップS13)。ステップS12で取得したIPアドレスが、図4に示した制御情報の識別情報の中に一致するものがあって、識別情報と対応する音声データの保存の是非が「保存する」である場合、音声データ検出部13は、音声データを音声データ保存部14に出力する。
The voice
音声データ保存部14は、各対象参加者の発言の無音部分を検出した場合、発言のあった期間の音声データをそれぞれ分離し(ステップS14)、分離した各音声データに発言の開始時刻の情報を設定する(ステップS15)。次に、音声データ保存部14は、時刻情報を設定した音声データを記録媒体に保存する(ステップS16)。
When the voice
なお、図4(B)に示した制御情報の最大保存容量に、最大保存容量を表す値が設定されている場合には、音声データ保存部14は、設定された最大保存容量に到達するまで対象参加者の音声データを保存する。保存した音声データの容量が、対象参加者に対応した制御情報の最大保存容量に到達した場合、音声データ保存部14は、音声データの保存を停止する。また、制御情報の最大保存容量に「制限なし」が設定されている場合には、音声データ保存部14は、無制限に対象参加者の音声データを保存する。
When a value representing the maximum storage capacity is set in the maximum storage capacity of the control information shown in FIG. 4B, the audio
一方、音声データ受信部12で受信した音声データは、ステップS13で音声データの保存の是非に関わらず、音声データ再生部17によって再生され(ステップS17)、再生されたものがスピーカ22を介して音声として出力される。
On the other hand, the audio data received by the audio
なお、図4(B)に示した制御情報のスピーカ出力の有無は、参加者が発言した音声をスピーカ22に出力するか否かを表す情報であり、制御情報のスピーカ出力の有無が「無し」に設定されている参加者の音声データは、音声データ再生部17によって再生されない。
The presence / absence of the speaker output of the control information shown in FIG. 4B is information indicating whether or not the voice uttered by the participant is output to the speaker 22, and the presence / absence of the speaker output of the control information is “none”. The audio data of the participant set to “” is not reproduced by the audio
図9(C)は、音声データを保存した場合の動作の流れを示すフローチャートである。図9(C)に示したフローチャートは、リアルタイムに議事録を作成する場合の動作を示したものである。 FIG. 9C is a flowchart showing an operation flow when audio data is stored. The flowchart shown in FIG. 9C shows the operation when creating the minutes in real time.
音声データが音声データ保存部14によって記録媒体に記憶されたとき(ステップS21)、音声認識部15は、図4(B)の制御情報に設定されている登録音声データ識別項目34が示す登録音声データに基づいて、音声データ保存部14によって保存された音声データを音声認識してテキストデータに変換する(ステップS22)。
When the voice data is stored in the recording medium by the voice data storage unit 14 (step S21), the
次に、議事録作成部16は、開始時刻から古いものから順番に、音声データから変換されたテキストデータを並び替えて議事録を作成し(ステップS23)、作成した議事録を図8で示したようにディスプレイ25に表示させる(ステップS24)。
Next, the
以上説明したように、会議端末10は、電子会議の各参加者のうち発言が記録される対象参加者の情報を指定させ、受信された音声データのうち指定された対象参加者に対応する音声データだけを保存し、保存した音声データを音声認識して議事録を作成することで、発言が記録されない参加者に対応する音声データを保存することがなくなるため、議事録に必要なデータ量を節約することができる。
As described above, the
また、会議端末10は、必要のある参加者の発言の音声データだけで議事録を作成することで、不要な参加者の発言の音声データを音声認識する必要もなくなるため、議事録を作成するときの処理効率を高めることができる。
In addition, the
また、対象参加者の登録音声データが会議端末10に登録されており、音声認識部15が、登録された登録音声データに従って音声認識し、音声データをテキストデータに変換するため、会議端末10は、音声認識の精度を向上させることができる。対象参加者の登録音声データだけを登録しておけばよいため、発言を記録しない不要な登録音声データを登録する必要はない。
In addition, since the registered voice data of the target participant is registered in the
また、音声データ保存部14が、設定された最大保存容量に到達するまで対象参加者の音声データを保存し、最大保存容量を超えて保存しないため、会議端末10は、議事録に必要なデータ量を有効に使用することができる。
In addition, since the audio
また、音声データ検出部13が、該当する音声データの音量を、参加者指定部11で指定された音量になるように調整することで、適正な音声データが保存されることになるため、会議端末10は、議事録を正確に作成することができる。
In addition, since the audio
なお、本発明の実施の形態では、会議端末10A〜会議端末10Dの全てが議事録を取っていてもよいし、1つ以上の会議端末10が取ってもよいし、議事録を取る会議端末10の個数が限定されることはない。また、本発明の実施の形態に係る会議端末は、会議端末10個々に必要のある参加者の発言だけで議事録を作成するため、同じ会議でも会議端末10毎に様々な議事録を作成することができる。また、議事録を取る端末を会議端末10Dとし、会議端末10A〜会議端末10Cを一般的なパソコンに替えてもよく、すなわち、会議用の端末のうち1つを会議端末10とし、残りの端末を一般的なパソコンにするような構成でもよい。
In the embodiment of the present invention, all of the
また、図10に示すように、会議端末10がUSBハブ40に接続され、各イヤホンマイク50がUSBハブ40に接続されていてもよい。本発明の実施の形態では、識別情報をIPアドレスとして説明したが、図10に示す形態で実施する際の識別情報はイヤホンマイク50のデバイス識別子とする。
Further, as shown in FIG. 10, the
また、電子会議の途中で、利用者が指定ウインドウ30を介して指定項目31内にある情報を消去することで、参加者指定部11は、制御情報に登録してある参加者を解除することもできる。
In addition, during the electronic conference, the user deletes the information in the specified
また、電子会議の途中で、利用者が指定ウインドウ30を介して指定項目31内の保存実施の是非を「保存する」から「保存しない」に変更することで、参加者指定部11は、利用者が変更した保存実施の是非を「保存しない」に登録することもできる。逆に、電子会議の途中で、利用者が指定ウインドウ30を介して指定項目31内の保存実施の是非を「保存しない」から「保存する」に変更することで、参加者指定部11は、利用者が変更した保存実施の是非を「保存する」に登録することもできる。
Also, during the electronic conference, the user changes the right or wrong of saving in the specified
以上のように、本発明は、議事録に必要なデータ量を節約することができ、議事録を作成するときの処理効率を高めることができるという効果を有し、電子会議用のパソコンなどに有用である。 As described above, the present invention can save the amount of data required for the minutes, has the effect of improving the processing efficiency when creating the minutes, and can be applied to a personal computer for electronic meetings. Useful.
10 会議端末
11 参加者指定部
12 音声データ受信部
13 音声データ検出部
14 音声データ保存部
15 音声認識部
16 議事録作成部
17 音声データ再生部
18 音声変換部
19 音声データ送信部
21 ネットワークインタフェース
22 スピーカ
23 マイクロホン
24 入力機器
25 ディスプレイ
30 指定ウインドウ
31 指定項目
32 音量メータ
33 参加者名項目
34 登録音声データ識別項目
35 識別情報項目
36 保存是非項目
40 USBハブ
41 開始ボタン
42 停止ボタン
43 音量調整ボタン
44 クリアボタン
45 保存ボタン
50 イヤホンマイク
DESCRIPTION OF
Claims (5)
前記参加者が発言したときの音声データを受信する音声データ受信部と、
前記音声データ受信部によって受信された音声データのうち、前記参加者指定部で指定された対象参加者に対応する音声データを検出する音声データ検出部と、
前記音声データ検出部によって検出された音声データを保存する音声データ保存部と、
前記音声データ保存部によって保存された音声データをテキストデータに変換する音声認識部と、
前記音声認識部で変換されたテキストデータに基づいて議事録を作成する議事録作成部と、を備えたことを特徴とする議事録作成装置。 Participant designating section for designating information of target participants whose utterances are recorded and information of participants whose utterances are not recorded among the participants of the electronic conference,
An audio data receiving unit for receiving audio data when the participant speaks;
Among the audio data received by the audio data receiver, an audio data detector that detects audio data corresponding to the target participant specified by the participant specifying unit;
An audio data storage unit that stores the audio data detected by the audio data detection unit;
A voice recognition unit for converting the voice data stored by the voice data storage unit into text data;
A minutes creation device, comprising: a minutes creation section for creating minutes based on the text data converted by the voice recognition section.
前記音声認識部が、前記参加者指定部で指定された対象参加者の登録音声データに従って音声データをテキストデータに変換することを特徴とする請求項1に記載の議事録作成装置。 When the participant designation unit designates the information of the target participant, the registered voice data corresponding to the target participant is designated,
2. The minutes creation apparatus according to claim 1, wherein the voice recognition unit converts voice data into text data in accordance with registered voice data of a target participant designated by the participant designation unit.
前記音声データ保存部が、前記音声データ検出部によって検出された音声データを、前記参加者指定部で指定された最大保存容量以内になるように保存することを特徴とする請求項1または請求項2に記載の議事録作成装置。 The participant designation unit designates the maximum storage capacity when saving the target participant's voice data when the target participant's information is designated,
The audio data storage unit stores the audio data detected by the audio data detection unit so as to be within a maximum storage capacity specified by the participant specifying unit. 2. Minutes preparation device described in 2.
前記音声データ検出部が、前記音声データ検出部によって検出された音声データの音量を、前記参加者指定部で指定された音量になるように調整することを特徴とする請求項1から請求項2までの何れかに記載の議事録作成装置。 When the participant specifying unit specifies the information of the target participant, the volume of audio data corresponding to the target participant is specified,
The sound data detection unit adjusts the sound volume of the sound data detected by the sound data detection unit so as to be a sound volume specified by the participant specifying unit. Minutes creation device described in any of the above.
前記音声データ検出部が、前記音声データ受信部によって受信された音声データのうち、前記参加者指定部で指定された対象参加者に対応する音声データを検出すると共に、前記音声データ受信部によって受信された音声データを前記音声データ再生部に再生させることを特徴とする請求項1に記載の議事録作成装置。 Provided with an audio data reproduction unit for reproducing audio data,
The voice data detection unit detects voice data corresponding to a target participant designated by the participant designation unit from the voice data received by the voice data reception unit, and receives the voice data by the voice data reception unit. The apparatus for creating minutes as claimed in claim 1, wherein the audio data reproducing unit reproduces the audio data thus reproduced.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007218441A JP2009053342A (en) | 2007-08-24 | 2007-08-24 | Minutes preparation apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007218441A JP2009053342A (en) | 2007-08-24 | 2007-08-24 | Minutes preparation apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009053342A true JP2009053342A (en) | 2009-03-12 |
Family
ID=40504492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007218441A Pending JP2009053342A (en) | 2007-08-24 | 2007-08-24 | Minutes preparation apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009053342A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010113438A1 (en) * | 2009-03-31 | 2010-10-07 | 日本電気株式会社 | Speech recognition processing system and speech recognition processing method |
JP2013105374A (en) * | 2011-11-15 | 2013-05-30 | Konica Minolta Holdings Inc | Minutes creation support device, minutes creation support system, and program for minutes creation |
JP2013257428A (en) * | 2012-06-12 | 2013-12-26 | Toshiba Corp | Speech recognition device |
EP3010016A1 (en) * | 2014-10-15 | 2016-04-20 | Fujitsu Limited | Input information support apparatus, method for supporting input information, and input information support program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08316953A (en) * | 1995-05-16 | 1996-11-29 | Toshiba Corp | Electronic conference system |
JP2005043628A (en) * | 2003-07-28 | 2005-02-17 | Toshiba Corp | Dialog recorder and dialog recording method |
JP2006222585A (en) * | 2005-02-08 | 2006-08-24 | Softbank Bb Corp | Conference telephone system and conference telephone method |
-
2007
- 2007-08-24 JP JP2007218441A patent/JP2009053342A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08316953A (en) * | 1995-05-16 | 1996-11-29 | Toshiba Corp | Electronic conference system |
JP2005043628A (en) * | 2003-07-28 | 2005-02-17 | Toshiba Corp | Dialog recorder and dialog recording method |
JP2006222585A (en) * | 2005-02-08 | 2006-08-24 | Softbank Bb Corp | Conference telephone system and conference telephone method |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010113438A1 (en) * | 2009-03-31 | 2010-10-07 | 日本電気株式会社 | Speech recognition processing system and speech recognition processing method |
JPWO2010113438A1 (en) * | 2009-03-31 | 2012-10-04 | 日本電気株式会社 | Speech recognition processing system and speech recognition processing method |
US8606574B2 (en) | 2009-03-31 | 2013-12-10 | Nec Corporation | Speech recognition processing system and speech recognition processing method |
JP5533854B2 (en) * | 2009-03-31 | 2014-06-25 | 日本電気株式会社 | Speech recognition processing system and speech recognition processing method |
JP2013105374A (en) * | 2011-11-15 | 2013-05-30 | Konica Minolta Holdings Inc | Minutes creation support device, minutes creation support system, and program for minutes creation |
JP2013257428A (en) * | 2012-06-12 | 2013-12-26 | Toshiba Corp | Speech recognition device |
EP3010016A1 (en) * | 2014-10-15 | 2016-04-20 | Fujitsu Limited | Input information support apparatus, method for supporting input information, and input information support program |
US9870197B2 (en) | 2014-10-15 | 2018-01-16 | Fujitsu Limited | Input information support apparatus, method for supporting input information, and computer-readable recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8655654B2 (en) | Generating representations of group interactions | |
JP5533854B2 (en) | Speech recognition processing system and speech recognition processing method | |
US20150106091A1 (en) | Conference transcription system and method | |
US9787565B2 (en) | Systems and methods for a call over network with a visualized summary | |
US11115765B2 (en) | Centrally controlling communication at a venue | |
US11810585B2 (en) | Systems and methods for filtering unwanted sounds from a conference call using voice synthesis | |
JP2010074494A (en) | Conference support device | |
US20220231873A1 (en) | System for facilitating comprehensive multilingual virtual or real-time meeting with real-time translation | |
JPWO2020222925A5 (en) | ||
TWI399739B (en) | System and method for leaving and transmitting speech messages | |
JP2006203548A (en) | Voice signal processor for processing voice signals of a plurality of speakers, and program | |
JP2009053342A (en) | Minutes preparation apparatus | |
US20240029753A1 (en) | Systems and methods for filtering unwanted sounds from a conference call | |
US20200075000A1 (en) | System and method for broadcasting from a group of speakers to a group of listeners | |
JP2010176544A (en) | Conference support device | |
JP2008141348A (en) | Communication apparatus | |
JPH10215331A (en) | Voice conference system and its information terminal equipment | |
JP2019176375A (en) | Moving image output apparatus, moving image output method, and moving image output program | |
JP4069207B2 (en) | Communication device | |
CN114648989A (en) | Voice information processing method and device implemented in electronic equipment and storage medium | |
JP3927155B2 (en) | Dialog recording apparatus and dialog recording program | |
US20230047187A1 (en) | Extraneous voice removal from audio in a communication session | |
JP2023044901A (en) | Communication system, management server, communication method, and communication program | |
JP2005123869A (en) | System and method for dictating call content | |
JP2024031442A (en) | Audio processing device, audio processing method, audio processing program, and communication system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100323 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100803 |