JP2014176033A - Communication system, communication method and program - Google Patents
Communication system, communication method and program Download PDFInfo
- Publication number
- JP2014176033A JP2014176033A JP2013049679A JP2013049679A JP2014176033A JP 2014176033 A JP2014176033 A JP 2014176033A JP 2013049679 A JP2013049679 A JP 2013049679A JP 2013049679 A JP2013049679 A JP 2013049679A JP 2014176033 A JP2014176033 A JP 2014176033A
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- voice
- processing apparatus
- information
- character data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、通信システム、通信方法およびプログラムに関する。 The present invention relates to a communication system, a communication method, and a program.
ネットワークに接続された複数拠点間の情報処理装置を用いた遠隔会議が知られている。このような通信会議システムにおいては、自動音声認識により会議の発話内容を自動でテキスト化し記録する発明が提案されている。また、特許文献1には、自動で生成されたテキスト情報を用いて簡単に議事録を作成する発明が提案されている。すなわち、特許文献1には、会議の議事録を簡易に作成する目的で、重要発言など議事録に掲載される発言をインデックス情報として検出し、それを会議進行と同時に議事録ファイルに挿入することにより簡易な議事録を自動的に作成できるテレビ会議システムの構成が開示されている。
A remote conference using an information processing apparatus between a plurality of bases connected to a network is known. In such a communication conference system, an invention has been proposed in which the speech content of a conference is automatically converted into text and recorded by automatic speech recognition.
自動音声認識は、技術的に100%正確に音声認識することは困難であり、特別なノイズのない状況で一般的に、テキスト化した情報全体の60〜90%程度を正しく認識できる。そのためテキスト化した情報には多くの誤りが含まれる。 In automatic speech recognition, it is technically difficult to recognize speech with 100% accuracy, and generally 60 to 90% of the entire text information can be correctly recognized in a situation without special noise. Therefore, the text information contains many errors.
そこで、正確な議事録を作成するためにはこのテキストを修正する必要があるが、もともとの誤り率が高いため、テキスト情報を修正する過程で修正ミスが発生し、実際の内容と異なる情報が議事録に記載されてしまう可能性がある。 Therefore, it is necessary to correct this text in order to create an accurate minutes, but since the original error rate is high, a correction error occurs in the process of correcting the text information, and there is information that differs from the actual content. There is a possibility that it will be listed in the minutes.
そこで、特許文献2には、音声認識の確実性を上げるためにユーザ辞書を登録し、よく使う言葉は検出しやすくする発明なども提案されている。
Therefore,
しかしながら、特許文献1、2では、自動音声認識の精度向上、議事録作成の効率化がなされているものの、未だ誤り率が高く、正確に議事録を自動生成するためには更に技術を向上させる必要があった。
However, in
上記課題に鑑み、本発明の目的とするところは、議事録をより正確に自動生成することが可能な通信システム、通信方法およびプログラムを提供することにある。 In view of the above problems, an object of the present invention is to provide a communication system, a communication method, and a program capable of automatically generating the minutes more accurately and automatically.
上記課題を解決するために、本発明のある観点によれば、
ネットワークを介して接続された複数の情報処理装置を有する通信システムであって、
前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第1の音声変換手段と、
前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第2の音声変換手段と、
前記第1及び第2の音声変換手段により変換された2つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定手段と、
を有することを特徴とする通信システムが提供される。
In order to solve the above problems, according to one aspect of the present invention,
A communication system having a plurality of information processing devices connected via a network,
First voice conversion means for converting voice information acquired by one information processing apparatus of the plurality of information processing apparatuses into character data;
Second voice conversion means for converting voice information acquired according to the timing at which voice information was acquired by the one information processing apparatus into character data in another information processing apparatus among the plurality of information processing apparatuses. When,
The two character data converted by the first and second voice conversion means are compared, and it is determined whether or not the voice information acquired by the one information processing apparatus and the other information processing apparatus is the same utterance. Determination means to perform,
A communication system is provided.
本発明によれば、議事録をより正確に自動生成することができる。 According to the present invention, the minutes can be automatically generated more accurately.
以下、本発明の好適な実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の構成については、同一の符号を付することにより重複した説明を省く。 DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments of the invention will be described with reference to the accompanying drawings. In addition, in this specification and drawing, about the substantially same structure, the duplicate description is abbreviate | omitted by attaching | subjecting the same code | symbol.
<はじめに>
ネットワークに接続された複数拠点間の情報処理装置を用いた遠隔会議が知られている。このような通信会議システムでは、以前より、自動音声認識により会議の発話内容を自動でテキスト化し議事録として記録することが行われている。しかし、自動音声認識は、技術的に100%正確に音声認識することは困難であり、テキスト化した情報に多くの誤りが含まれる。
<Introduction>
A remote conference using an information processing apparatus between a plurality of bases connected to a network is known. In such a communication conference system, it has been practiced to automatically convert the content of a conference utterance into text by automatic speech recognition and record it as a minutes. However, in automatic speech recognition, it is technically difficult to recognize speech with 100% accuracy, and the text information contains many errors.
特に、情報処理装置が配置された拠点によって次のように通信環境が異なる。例えば、
(1)マイクなどの品種・性能・配置などにより音質が変わる。
(2)自拠点の音声は直接マイクから入力されるが、他拠点の音声はサーバ経由でデジタル化されたデータで入力される。そして多くの場合、そのデータは符号化されている。
In particular, the communication environment varies depending on the location where the information processing apparatus is located as follows. For example,
(1) The sound quality varies depending on the type, performance, and arrangement of microphones.
(2) While the voice of the local site is directly input from the microphone, the voice of the other base is input as digitized data via the server. In many cases, the data is encoded.
このような環境の相違により、各拠点の情報処理装置によって音声情報をテキスト化した結果が異なる場合がある。 Due to such a difference in environment, the result of converting voice information into text may differ depending on the information processing apparatus at each site.
そこで、以下に説明する本実施形態の通信システムでは、2つ以上の拠点の情報処理装置で音声情報を音声認識によってテキスト情報に変換し、各拠点の情報処理装置で作ったテキストデータ(以下、文字データともいう。)を、発言毎に対応させて、同一発言かどうかを識別する技術を備える。これにより、音声情報をテキストデータに変換する際の変換ミスの箇所を減らすことができる。この結果、精度の高い議事録を作成することができる。 Therefore, in the communication system of the present embodiment described below, speech information is converted into text information by speech recognition in information processing apparatuses at two or more bases, and text data (hereinafter, (Also referred to as character data) for each utterance, and a technique for identifying whether or not the same utterance is identified. Thereby, the location of the conversion mistake at the time of converting audio | voice information into text data can be reduced. As a result, it is possible to create a highly accurate minutes.
また、議事録を作成する際に、各拠点の情報処理装置で作成した複数のテキストデータを人がマージするのは非常に労力がかかる。そこで、本実施形態のシステムでは、複数のテキストデータを比較して同一発言かどうかを識別し、識別結果に基づき自動で複数のテキストデータを適切にマージできる。このようにして同一発言かどうかを自動で判断することで、より少ない労力で議事録を作成することができる。 In addition, when creating minutes, it is very laborious for a person to merge a plurality of text data created by the information processing apparatus at each site. Therefore, in the system of the present embodiment, a plurality of text data can be compared to identify whether they are the same utterance, and the plurality of text data can be automatically merged appropriately based on the identification result. In this way, it is possible to create minutes with less effort by automatically determining whether or not the same statement is made.
さらに、2つ以上の拠点の情報処理装置で音声認識によって音声情報がテキスト情報に変換される。このため、ネットワークの状況によっては、ある拠点間の通信性能が悪化し音声が途切れた場合でも、2つ以上の拠点のいずれかの拠点の情報処理装置で音声認識された音声情報から確実にテキストデータを得ることができる。 Furthermore, voice information is converted into text information by voice recognition in information processing apparatuses at two or more bases. For this reason, depending on the network conditions, even if the communication performance between certain bases deteriorates and the voice is interrupted, it is possible to reliably make text from the voice information recognized by the information processing device at one of the two or more bases. Data can be obtained.
以上の機能及び効果を奏する本実施形態の通信システムについて以下に説明する。なお、本実施形態では、通信会議システムを例に挙げて説明するが、本実施形態に係る通信システムは、通信会議システムに限られない。例えば、本実施形態に係る通信システムは、対話型の情報提供システムや対話型の窓口システム等において、2以上の情報処理装置を用いて送信又は受信された音声情報のやり取りをテキストデータとして記録する通信システムとして用いることができる。 The communication system of this embodiment that exhibits the above functions and effects will be described below. In the present embodiment, a communication conference system will be described as an example, but the communication system according to the present embodiment is not limited to the communication conference system. For example, the communication system according to the present embodiment records the exchange of voice information transmitted or received using two or more information processing devices as text data in an interactive information providing system, an interactive window system, or the like. It can be used as a communication system.
[システムの全体構成]
まず、本発明の一実施形態に係る通信会議システムについて、図1を参照しながら説明する。図1は、一実施形態に係る通信会議システムの全体構成図である。本実施形態に係る通信会議システム1は、IPネットワーク網110を介して複数の情報処理装置10a、10b、10c(以下、総称して情報処理装置10とも称呼する。)と通信会議サーバ50とが接続され、音声情報等を送信又は受信するようになっている。本実施形態に係る通信会議システム1は、音声情報のみならず、画像・映像情報にも対応でき、テレビ会議システムとして機能し得る。
[System overall configuration]
First, a communication conference system according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is an overall configuration diagram of a communication conference system according to an embodiment. The
情報処理装置10a、10b、10cは、通信会議用の端末の一例であり、PC端末、タブレット型端末であってもよい。各拠点に置かれ、IPネットワーク網110に接続する機能を備える。図1では、情報処理装置10aは拠点Aに置かれ、情報処理装置10bは拠点Bに置かれ、情報処理装置10cは拠点Cに置かれている。情報処理装置10a、10b、10cは、IPネットワーク網110を経由して音声のやり取りを行い、遠隔地点同士の通信による会議を成立させる。
The
情報処理装置10は、音声変換手段を備えている。通信会議システム1のどこか1箇所にのみ音声変換手段19があるのではなく、通信会議システム1中に複数の音声変換手段19がある。つまり、各情報処理装置10が必ず音声変換手段19を有している必要はない。通信会議システム1中に複数の音声変換手段19があればよい。例えば、図1では、情報処理装置10a、10b、10cがそれぞれ音声変換手段19を有しているが、これに限らず、例えば、情報処理装置10a、10bがそれぞれ音声変換手段19を有し、情報処理装置10cは音声変換手段19を有しない場合も有り得る。ただし、通信会議システム1中に複数の音声変換手段19が必要なため、例えば、情報処理装置10aが音声変換手段19を有し、情報処理装置10b、10cは音声変換手段19を有しない場合は有り得ない。
The
通信会議サーバ50は、各拠点に配置された情報処理装置10a、10b、10cの音声情報を中継する装置である。ビデオ会議システムにおいては、一般に「多地点接続装置」(Multipoint Control Unit、MCU)と呼称される。通信会議サーバ50は、ソフトウェアで構成されてもハードウェアで構成されてもよい。
The
なお、本実施形態に係る通信会議システム1では、通信会議サーバ50を介して各拠点に配置された情報処理装置10間の通信が行われる。しかし、本実施形態に係る通信会議システム1は、これに限らず、通信会議サーバ50を介さずに、各拠点の情報処理装置10同士が直接IPネットワーク網110を介して通信してもよい。また、本実施形態では、各種装置はIPネットワーク網110により接続されているが、その他の手段で接続されてもよい。
Note that in the
[情報処理装置の機能構成]
次に、本実施形態に係る情報処理装置の機能構成について、図2を参照しながら説明する。図2は、本実施形態に係る情報処理装置の機能構成を示した図である。情報処理装置10は、通信手段11、データ処理手段12、音声入力手段13、入力音声処理手段14、音声記憶手段15、出力音声処理手段16、計時手段17、音声出力手段18、音声変換手段19、音声認識結果記憶手段20、発言記録生成手段21、発言記録出力手段22、判定手段23及び話者特定手段24を有する。
[Functional configuration of information processing device]
Next, the functional configuration of the information processing apparatus according to the present embodiment will be described with reference to FIG. FIG. 2 is a diagram illustrating a functional configuration of the information processing apparatus according to the present embodiment. The
通信手段11は、IPネットワーク網110に接続され、他の情報処理装置10や通信会議サーバ50と通信する手段である。通信手段11は、音声情報を含む各種デジタルデータの送受信を行う。具体的には、送受信する情報には、IPネットワーク網110に接続するために必要な情報のほかに、以下の情報が送受信される。
・音声情報
・発言記録情報
・時間情報
・装置の設定情報
基本的に自装置から送信される情報は、自拠点の情報処理装置10で生成された情報であり、送信される情報は、他拠点の情報処理装置10で生成された情報である場合が多い。また、本実施形態に係る通信会議システム1において、音声情報に対応したテキストデータは会議終了後に1箇所に集める必要があるが、その場合にもこの通信手段11を使って最終テキストデータが送受信される。
The
・ Voice information ・ Speech record information ・ Time information ・ Device setting information Basically, the information transmitted from the own device is information generated by the
データ処理手段12は、受け取った情報を処理する手段、または送信する情報を処理する手段である。受信した情報及び送信する情報は取得した情報としてデータ処理手段12に送信される。一般に音声情報は符号化して送受信することが考えられる。その場合、このデータ処理手段12で送信情報の符号化(Encode)、受信情報の復号化(Decode)を行う。 The data processing means 12 is a means for processing received information or a means for processing information to be transmitted. The received information and the information to be transmitted are transmitted to the data processing means 12 as acquired information. It is generally considered that audio information is encoded and transmitted / received. In this case, the data processing means 12 encodes transmission information (Encode) and decodes reception information (Decode).
音声入力手段13は、音声を入力する手段である。音声入力手段13の一例としては、通信会議システム1ではマイクが一般的である。また、音声入力手段13は、レコーダー等のデータを入力できる端子を備えていてもよい。
The voice input means 13 is a means for inputting voice. As an example of the
入力音声処理手段14は、音声入力手段13より入力された音声を処理する手段である。入力音声処理手段14は、マイクから入力された音声のアナログデータをデジタルデータに変換するA/D(アナログ/デジタル)変換手段、音声の周波数特性を変更・調整するイコライザ、音声の入力データのノイズを除去するノイズ除去手段などから構成される。 The input voice processing means 14 is a means for processing the voice input from the voice input means 13. The input sound processing means 14 is an A / D (analog / digital) conversion means for converting analog data of sound input from the microphone into digital data, an equalizer for changing / adjusting the frequency characteristics of the sound, and noise of the input data of the sound It is comprised from the noise removal means etc. which remove | eliminate.
音声記憶手段15は、音声情報を記憶する手段である。RAMのような揮発性メモリや、HDD(Hard Disk Drive)、各種FLASHメモリ等の不揮発性メモリなどが考えられる。これらは1つでも複数備えてもよい。音声記憶手段15に記憶される音声情報としては、以下のデータが挙げられる。
・入力音声処理手段14により処理された入力音声デジタルデータおよびそれを符号化したデータ。
・受信した音声デジタルデータおよびそれを復号化したデータ。
The voice storage means 15 is a means for storing voice information. A volatile memory such as a RAM, a non-volatile memory such as an HDD (Hard Disk Drive), and various FLASH memories can be considered. One or more of these may be provided. Examples of the voice information stored in the
Input voice digital data processed by the input voice processing means 14 and data obtained by encoding it.
Received audio digital data and decoded data.
出力音声処理手段16は、音声のデジタルデータをアナログデータに変換するD/A(デジタル/アナログ)変換手段、音声の周波数特性を変更・調整するイコライザ、音声を増幅するアンプなどから構成される。 The output sound processing means 16 includes a D / A (digital / analog) conversion means for converting sound digital data into analog data, an equalizer for changing / adjusting the frequency characteristics of sound, an amplifier for amplifying sound, and the like.
計時手段17は、時間を測定する手段であり、例えば、時計、タイマから構成されてもよい。計時手段17は、他拠点の情報処理装置10に内蔵された時計と同期させる機能があると望ましい。計時手段17は、音声情報の送信時刻、音声情報の受信時刻、音声情報の生成時刻を音声情報の発言時刻とみなして計時する。
The time measuring means 17 is a means for measuring time, and may be composed of, for example, a clock or a timer. It is desirable that the time measuring means 17 has a function of synchronizing with a clock built in the
音声出力手段18は、音声を出力する手段であり、例えば、各種スピーカやイヤホンから構成されてもよい。 The sound output means 18 is a means for outputting sound, and may be constituted by various speakers and earphones, for example.
音声変換手段19は、音声認識技術(人が話す音声をコンピュータで解析しテキストデータ(文字データ)に変換する技術)により、発言内容をテキストデータに変換する手段である。音声変換手段19により用いられる音声認識技術としては各種方法が知られている。自動音声認識は、技術的に100%正確に音声認識することは困難であり、特別なノイズのない状況で一般的に、テキスト化した情報全体の60〜90%程度を正しく認識できる。そのためテキスト化した情報に多くの誤りが含まれる。そのため文字データ化した情報には多くの誤りが含まれる。ちなみに、同音異義語の多い日本語は音声認識成功率が低いことが知られている。 The voice conversion means 19 is means for converting the content of a statement into text data by a voice recognition technique (a technique in which a voice spoken by a person is analyzed by a computer and converted into text data (character data)). Various methods are known as a speech recognition technique used by the speech conversion means 19. In automatic speech recognition, it is technically difficult to recognize speech with 100% accuracy, and generally 60 to 90% of the entire text information can be correctly recognized in a situation without special noise. Therefore, many errors are included in the textual information. For this reason, the information converted into character data includes many errors. By the way, Japanese with many homonyms is known to have a low speech recognition success rate.
本実施形態に係る通信会議システム1には、2以上の音声変換手段19が必要である。例えば、複数の情報処理装置10のうち一の情報処理装置にて取得した音声情報を文字データに変換する音声変換手段19を第1の音声変換手段とする。また、複数の情報処理装置10のうち他の情報処理装置にて取得した音声情報を文字データに変換する音声変換手段19を第2の音声変換手段とする。その場合、本実施形態に係る通信会議システム1には、少なくとも第1及び第2の音声変換手段の2以上の音声変換手段19が必要となる。例えば、図1の拠点Aの情報処理装置10aが有する音声変換手段を第1の音声変換手段とし、図1の拠点Bの情報処理装置10bが有する音声変換手段を第2の音声変換手段としてもよい。拠点Bの情報処理装置10bが有する音声変換手段を第1の音声変換手段とし、拠点Cの情報処理装置10cが有する音声変換手段を第2の音声変換手段としてもよい。ただし、本実施形態のシステム構成は一例であり、2以上の音声変換手段を有していればこれに限られないことは言うまでもない。
The
音声認識結果記憶手段20は、音声変換手段19にて音声認識技術を用いて音声情報を文字データ化した情報を記憶する手段である。音声認識結果記憶手段20は、他拠点の情報処理装置において音声情報を文字データ化した情報も受信して記憶する。なお、音声認識結果記憶手段20は、音声記憶手段15と共通でもよい。
The voice recognition result storage means 20 is means for storing information obtained by converting voice information into character data using the voice recognition technique in the voice conversion means 19. The voice recognition result storage means 20 also receives and stores information obtained by converting voice information into character data in the information processing apparatus at another base. The voice recognition
発言記録生成手段21は、例えば次に挙げる情報を利用して発言記録を作成する手段である。
・音声認識結果記憶手段20に記憶された自拠点の情報処理装置10のテキストデータ。
・音声認識結果記憶手段20に記憶された他拠点の情報処理装置10のテキストデータ。
・計時手段17により計時された時間情報。
・話者特定手段24により特定された話者(発言者)情報、発言と発言者を関連付けた情報。
The utterance record generating means 21 is a means for creating a utterance record using, for example, the following information.
Text data of the
Text data of the
Time information timed by the
-Speaker (speaker) information specified by the speaker specifying means 24, and information that associates a speaker with a speaker.
発言記録生成手段21は、後述する判定手段23による判定に基づき、情報処理装置10a、10b、10cのうちの一の情報処理装置及び他の情報処理装置間の通信で行われた発言記録を生成する。
The utterance record generating unit 21 generates a utterance record made by communication between one information processing apparatus among the
音声認識結果記憶手段20は、音声データと時間を結びつける手段を備え、自拠点と他拠点の情報処理装置の音声情報を文字化したデータを、時間情報を用いて簡易な発言記録を作成する。音声認識結果記憶手段20は、自拠点の情報処理装置の音声情報を文字化したデータのみを使用して発言記録を作成してもよい。ここで作成した発言記録データは、発言記録出力手段22に記録されるか、または通信手段11より外部装置へ伝送または出力される。
The voice recognition result storage means 20 includes means for associating voice data with time, and creates a simple statement record by using the time information of data obtained by characterizing voice information of the information processing apparatuses at the local site and the other sites. The voice recognition
発言記録出力手段22は、発言記録生成手段21により作成した発言記録データを出力する手段である。発言記録出力手段22による出力方法としては様々な方法が考えられる。発言記録出力手段22は、下記に示す出力方法を少なくとも1つ備えている。
・画像データとして出力(アナログRGBコンポーネント信号等)する。
The utterance record output means 22 is means for outputting the utterance record data created by the utterance record generation means 21. Various methods can be considered as the output method by the utterance record output means 22. The statement record output means 22 includes at least one output method described below.
-Output as image data (analog RGB component signal, etc.).
この場合、発言記録出力手段22は、プロジェクター、モニタ等に情報を出力する。リアルタイムで発言記録を更新し表示するようにすると、発言記録を確認しながら会議を進行することができる。この場合、発言記録出力手段22には、発言記録データを画像データに変換する手段が必要である。
・発言記録データをデジタルデータとして出力する。
In this case, the utterance record output means 22 outputs information to a projector, a monitor or the like. If the message record is updated and displayed in real time, the conference can proceed while confirming the message record. In this case, the utterance record output means 22 requires means for converting the utterance record data into image data.
・ Output the recorded speech data as digital data.
この場合、具体的には、発言記録出力手段22は、上記機能を備えた、USB−Host IF、SD Card IF等の各種メモリIF、RS−232C IFなどの各種IFを備える。 In this case, specifically, the utterance record output means 22 includes various memories IF such as USB-Host IF and SD Card IF, and various IFs such as RS-232C IF, which have the above functions.
判定手段23は、2以上の音声変換手段19(第1及び第2の音声変換手段)により変換された2以上の文字データを比較し、音声情報が同一発言か否かを判定する。
The
話者特定手段24は、声紋認証により各音声情報の話者を特定する。 The speaker specifying means 24 specifies the speaker of each voice information by voiceprint authentication.
[発言記録生成処理]
次に、本実施形態に係る発言記録生成処理について、図4を参照しながら説明する。図4は、本実施形態に係る発言記録生成処理を示したフローチャートである。図4のフローチャートの説明に、2拠点の情報処理装置間での通信会議で、各拠点の情報処理装置でそれぞれ音声情報をテキストデータに変換した場合の実際のテキストデータの処理例(図3)を用いる。
[Speech record generation processing]
Next, the statement record generation process according to the present embodiment will be described with reference to FIG. FIG. 4 is a flowchart showing a statement record generation process according to the present embodiment. In the description of the flowchart of FIG. 4, in a communication conference between information processing apparatuses at two bases, an example of processing actual text data when voice information is converted into text data by the information processing apparatuses at each base (FIG. 3). Is used.
図3(a)は、通信会議で実際に行われた音声情報のやり取りを示している。拠点Aに佐藤さん、拠点Bに鈴木さんと田中さんがいて、計3名で2拠点の情報処理装置10a、10bを用いて通信会議を行った場合を想定している。ここに示したような会話がされた場合について以下で考える。図3(a)は、音声が発せられ順に、拠点30、発言者32、発言内容34の情報が示されている。
FIG. 3A shows the exchange of voice information actually performed in the communication conference. It is assumed that Mr. Sato is at the site A, Mr. Suzuki and Mr. Tanaka are at the site B, and a communication conference is performed by using a total of three
図3(b)は拠点Aの情報処理装置10aにてテキスト化したデータの一例を示している。図3(b)の拠点Aのテキストデータには、発言時刻36、拠点30、発言者32、発言内容34が含まれている。図3(a)のNo.2の田中さんの発言「はい」が拠点Aの情報処理装置10aにおいてテキストデータ化できず、記録されていない。なお、発言時刻は各拠点の情報処理装置10にて認識した時刻である。
FIG. 3B shows an example of data converted into text by the
図3(c)は拠点Bの情報処理装置10bにてテキスト化したデータの一例を示している。図3(c)の拠点Aのテキストデータには、発言時刻36、拠点30、発言者32、発言内容34が含まれている。図3(a)のNo.5の佐藤さん発言の「仕様」という言葉を「使用」という言葉に誤認識しているものとする。
FIG. 3C shows an example of data converted into text by the information processing apparatus 10b at the site B. The text data of the base A in FIG. 3C includes a
以上の前提において、図4のフローチャートと、図5及び図6のテキストデータの状態とを参照しながら本実施形態の発言記録生成処理を説明する。 Based on the above assumptions, the statement record generation processing of this embodiment will be described with reference to the flowchart of FIG. 4 and the state of the text data of FIGS.
S101:議事録作成命令が情報処理装置10に通知される。会議終了時などが適切と考えられるが、タイミングは任意である。また命令の通知方法もどのような方法でもよい。例えば、情報処理装置10に議事録作成ボタンを備え、そのボタンを押すことで議事録作成命令を情報処理装置10に通知するような方法が考えられる。
S101: A minutes creation command is notified to the
S102:議事録を作成する情報処理装置10に作成したテキストデータを送信する。議事録作成は、各情報処理装置10がそれぞれ行ってもよいし、1つまたは複数のあらかじめ定めた情報処理装置10のみで実施してもよい。議事録作成命令を受けると、情報処理装置10は、音声情報から生成したテキストデータを議事録作成を行う情報処理装置10に送信する。議事録作成を行う情報処理装置10は、各装置から送信されるテキストデータを受信する。なお、議事録作成を行う装置を、情報処理装置10に替えて通信会議サーバとしてもよい。
S102: The created text data is transmitted to the
S103:各拠点のテキストデータを時系列に並べる(図5参照)。ここでは拠点A及び拠点B間の通信に4秒かかるものと仮定して考えている。そのためα11の発言を拠点Bで4秒後に認識するため、α11とβ12の発言時刻36が4秒ずれている。つまり、一の情報処理装置10がα11の発言を取得するタイミングと、他の情報処理装置10がβ12の発言を取得するタイミングとは、同時又は数秒程度離れた近時の時間内であり、2つの発言の取得タイミングは類似(対応)する。この図5のように発言時刻36の順に各拠点のテキストデータを並べるものとする。
S103: The text data of each base is arranged in time series (see FIG. 5). Here, it is assumed that the communication between the base A and the base B takes 4 seconds. Therefore, in order to recognize the message of α11 at the base B after 4 seconds, the
S104:判定手段23は、比較処理を行う各拠点の発言を選定する。ここではまず図5のα11とβ12を比べるものとする。 S104: The determination means 23 selects the remarks of each base that performs the comparison process. Here, α11 and β12 in FIG. 5 are first compared.
S105:判定手段23は、各発言を単語レベルに分解する処理を行う。一例として、α11とβ12は次のように分解される。「こちら/拠点/Aの/佐藤/です。/聞こえますか?」
S106:判定手段23は、各発言の単語を比較し、一致する単語とその出現順序を記録する。α11とβ12の場合はまったく同一となる。
S105: The determination means 23 performs a process of decomposing each utterance into word levels. As an example, α11 and β12 are decomposed as follows. "This is the base / A's / Sato /. Can you hear me?"
S106: The determination means 23 compares the words of each utterance and records the matching words and their appearance order. The cases of α11 and β12 are exactly the same.
S107:判定手段23は、一致する単語数が指定した割合以上か判定する。一致する単語数が指定した割合以上の場合には、S108へ進む。一致する単語数が指定した割合より少ない場合には、S111へ進む。なお、ここでいう「指定した割合」は任意に決めてよい。パラメータとして設定できるようにすると、一致と判断するレベルを調整することができる。例えば、全単語数の何割以上が一致、などと設定できる。
S107: The
S108:判定手段23は、一致した単語の出現順序が一致するかを判定する。一致する場合には、S109へ進む。一致しない場合には、S111へ進む。
S108: The
同じ発言であれば出現順序は一致するはずである。逆に出現順序が一致しなければ、一致する単語数が多いとしても同一発言ではないはずである。よって、
S109:一致した単語の出現順序が一致する場合、判定手段23は、比較対象は「同一発言である」と判定する。
If they say the same, the order of appearance should match. Conversely, if the appearance order does not match, even if there are many matching words, they should not be the same statement. Therefore,
S109: When the appearance order of the matched words matches, the
S110:この場合、発言記録生成手段21は、同一発言として処理を行う。具体的には、図5の例では、α11とβ12は同一の発言と判断し、発言記録生成手段21は、図6のα21とβ21のように、拠点Aのテキストデータ及び拠点Bのテキストデータの同一行に記載する処理を行う。 S110: In this case, the utterance record generating means 21 performs processing as the same utterance. Specifically, in the example of FIG. 5, α11 and β12 are determined to be the same statement, and the statement record generation unit 21 performs text data of the base A and text data of the base B as α21 and β21 of FIG. The process described in the same line is performed.
S111:一致した単語の出現順序が一致しない場合、判定手段23は、比較対象は「同一発言ではない」と判定する。
S111: When the appearance order of the matched words does not match, the
S112:この場合、同一発言ではないので、発言記録生成手段21は、図6の例では異なる行に記載する処理を行う。よって、拠点Bのβ22のテキストデータに対応する拠点Aのテキストデータは存在しない。 S112: In this case, since the utterances are not the same, the utterance record generating means 21 performs processing described in different lines in the example of FIG. Therefore, there is no text data of base A corresponding to the text data of β22 of base B.
S113:判定手段23は、全ての発言の比較が完了したかを判定する。完了したと判定した場合、S114に進む。完了していないと判定した場合、S104の処理へ戻る。 S113: The determination means 23 determines whether comparison of all the statements has been completed. If it is determined that the process has been completed, the process proceeds to S114. If it is determined that the process has not been completed, the process returns to S104.
S114:発言記録出力手段22は、出力処理を実施し、本処理を終了する。不要な場合は何も実施せず、終了しても構わない。 S114: The statement record output means 22 performs an output process and ends this process. If it is unnecessary, nothing may be done and the process may be terminated.
発言記録出力手段22による出力処理の例としては、拠点情報が重要な場合には、図6のように各拠点のテキストデータを並べて出力することが挙げられる。または、拠点情報が不要な場合には、図7のように同一発言のテキストデータを重複せずに一つ出力してもよい。 As an example of output processing by the utterance record output means 22, when base information is important, it is possible to output text data of each base side by side as shown in FIG. Alternatively, when the base information is unnecessary, one piece of text data of the same message may be output without duplication as shown in FIG.
以上のフローにより、テキストデータを正確にかつわかりやすく記録することができる。100%完全な発言記録の議事録が保証されるわけではないが、生成された発言記録を参照して人為的に議事録を作成する場合に非常に分かりやすくなり、短期間で簡単に正確な議事録を作成することができる。 With the above flow, text data can be recorded accurately and easily. The minutes of 100% complete statement records are not guaranteed, but it is very easy to understand when creating the minutes by referring to the generated record records, and it is easy and accurate in a short period of time. Minutes can be created.
以上に説明したように、本実施形態に係る通信会議システム1によれば、少なくとも2つ以上の拠点の情報処理装置10にて音声情報を音声認識によってテキスト情報に変換する。よって、各情報処理装置10において互いの変換ミスの箇所を補うことができ、より修正ミスが減り、効率よく発言記録を議事録にして作成できる。さらに、同じ発言かどうかを識別する技術を備えることで複数のテキストデータを適切にマージできる。これにより、議事録作成時間を削減することができる。
As described above, according to the
以下、本実施形態に係る発言記録生成処理の変形例1〜変形例4について、図8〜図13を参照しながら説明する。
(変形例1)
図8は、本実施形態の変形例1に係る発言記録生成処理を示したフローチャートであり、図9は、本実施形態の変形例1に係る出力処理例である。
Hereinafter,
(Modification 1)
FIG. 8 is a flowchart showing a utterance record generation process according to the first modification of the present embodiment, and FIG. 9 is an output process example according to the first modification of the present embodiment.
変形例1では、上記実施形態の図4のS110を図8のS115に変更している点のみ異なる。具体的には、上記実施形態では、判定手段23により同一発言と判定された場合、一の情報処理装置10a及び他の情報処理装置10bの各拠点A、Bの発言記録に同一発言を含ませる(図6)。これに対して、変形例1では、判定手段23により同一発言と判定された場合、一の情報処理装置10a及び他の情報処理装置10bのいずれか一方の拠点側の発言記録に同一発言を含ませ、いずれか他方の拠点側の発言記録には同一発言を含ませない(図9)。
以上のように、変形例1では、同一と判断された発言があり、拠点間の情報処理装置10にて識別されたテキストデータの差異がない場合、一つの拠点側のテキストデータを残し、他の拠点側のテキストデータを削除する処理が実行される。これによれば、発言が記録された議事録中の重複テキストデータが削除されるので、発言内容が見やすくなるという効果がある。なお、図9では、拠点A側のテキストデータを残し、拠点B側のテキストデータを削除したが、これに限らず、拠点B側のテキストデータを残し、拠点A側のテキストデータを削除してもよい。
(変形例2)
図10は、本実施形態の変形例2に係る発言記録生成処理を示したフローチャートであり、図11は、本実施形態の変形例2に係る出力処理例である。
As described above, in
(Modification 2)
FIG. 10 is a flowchart showing a utterance record generation process according to the second modification of the present embodiment, and FIG. 11 is an output process example according to the second modification of the present embodiment.
変形例2では、上記変形例1の図8のS115を図10のS116に変更している点のみ異なる。具体的には、変形例1では、判定手段23により同一発言と判定された場合、一の情報処理装置10a及び他の情報処理装置10bのいずれか一方の拠点の発言記録に同一発言を含ませ、いずれか他方の拠点の発言記録には同一発言を含ませない(図9)。変形例2では、これに加えて、判定手段23により同一発言と判定された場合であって同一発言中に差異がある場合、同一発言中の差異部分が認識可能なように発言記録を生成する。例えば、図11では、同一と判断された発言であってテキストデータに一部差異がある場合、その差異部分をマーキングして示している。このようにして、変形例2によれば、拠点間の同一と判断された発言に含まれる差異を見やすくする効果がある。
The
なお、同一発言中の差異部分を認識可能に表示するためには、差異部分をマーキングする他、差異部分を太字にする、差異部分の色を変える、差異部分をカッコで括る、差異部分を下線で示す等様々な方法を用いることができる。
(変形例3)
図12は、本実施形態の変形例3に係る発言記録生成処理を示したフローチャートである。変形例3では、変形例2の図10の全ての処理を含み、更に図12のS117のステップが加えられている。具体的には、変形例3では、S104の後ステップのS117にて、判定手段23は、選定された各拠点の発言時刻の差分が予め定められた所定時間以上であるかを判定する。各拠点の発言時刻の差分が予め定められた所定時間未満であると判定された場合には、S105以降の処理を実行する。一方、選定された各拠点の発言時刻の差分が予め定められた所定時間以上であると判定された場合には、選定された発言の比較処理を行わずに、S104に戻り、次に比較処理を行う発言を選定する。
In order to display the different parts in the same statement in a recognizable manner, in addition to marking the different parts, make the different parts bold, change the color of the different parts, bracket the different parts, and underline the different parts. Various methods such as those shown in FIG.
(Modification 3)
FIG. 12 is a flowchart showing a statement record generation process according to the third modification of the present embodiment.
以上のように、変形例3では、判定手段23は、比較対象である各拠点の2以上の文字データの変換前の音声情報の発言時刻の差分が予め定められた閾値(所定時間)を上回る場合、前記2以上の文字データについて音声情報が同一発言か否かの判定を止める。このように比較対象が同じであっても、「発言時刻が大きく異なる場合は比較対象としない」という制御を行う。これにより、全体の処理を減らし、処理時間の短縮を図ることができる。
(変形例4)
図13は、本実施形態の変形例4に係る発言記録生成処理を示したフローチャートである。変形例4では、変形例2の図10の全ての処理を含み、更に図13のS118のステップが加えられている。具体的には、変形例4では、S104の後ステップのS118にて、判定手段23は、選定された各発言の発言者が異なるかを判定する。各拠点の発言者が同一人であると判定された場合には、S105以降の処理を実行する。一方、各拠点の発言者が異なると判定された場合には、選定された発言の比較処理を行わずに、S104に戻り、次に比較処理を行う発言を選定する。
As described above, in the third modification, the
(Modification 4)
FIG. 13 is a flowchart showing a statement record generation process according to
声紋認証の機能を有する情報処理装置10においては、発言と発言者を関連付けた情報を取得することができる。その場合、判定手段23は、S118に示したように、まず発言者32を比較してもよい。例えば、図5のα11とβ12はともに発言者がA1なので、比較対象とするが、もしこれらの発言者が異なった場合は比較対象とはしない。このように比較対象が同じであっても、比較対象である発言内容の話者が異なる場合、音声情報が同一発言か否かの判定を止める、という制御を行う。これにより、全体の処理を減らし、処理時間の短縮を図ることができる。
In the
以上、上記実施形態及び変形例1〜変形例4によれば、音声認識によって作成したテキストデータに基づきに発言記録(議事録)を作成する際、2以上の情報処理装置にてそれぞれ取得した音声情報から変換された2以上の文字データを比較する。これにより、音声情報の発言を正確に判定することができる。この結果、議事録の自動作成の精度を高め、修正ミスを減らし、効率よく発言の議事録を作成することができ、議事録作成の時間の削減することができる。
As mentioned above, according to the said embodiment and the modification 1-the
なお、上記形態は本発明の範囲を限定するものではなく、通信会議サーバが情報処理装置の判定機能、発言記録生成機能の一部又は全部を備えても良い。また、システムを構成する通信会議サーバや情報処理装置は複数台でも良く、通信会議サーバや情報処理装置のいずれに上記機能を備えさせても良い。なお、この実施形態で説明する情報処理装置と通信会議サーバとが接続されたシステム構成は一例であり、用途や目的に応じて様々なシステム構成例があることは言うまでもない。 In addition, the said form does not limit the scope of the present invention, and a communication conference server may be provided with a part or all of the determination function of the information processing apparatus and the statement record generation function. In addition, a plurality of communication conference servers and information processing apparatuses that constitute the system may be provided, and either the communication conference server or the information processing apparatus may be provided with the above function. It should be noted that the system configuration in which the information processing apparatus and the communication conference server described in this embodiment are connected is an example, and it goes without saying that there are various system configuration examples depending on applications and purposes.
システム構成の他の例としては、図2に示した情報処理装置10の機能構成のうち、音声変換手段19、音声認識結果記憶手段20、発言記録生成手段21、発言記録出力手段22、判定手段23及び話者特定手段24の機能を、情報処理装置10の替わりにサーバ50が有するシステム構成でもよい。その場合、図14に示したように、通信会議サーバ50は、通信手段57、データ処理手段58、計時手段59の他、音声変換手段51、音声認識結果記憶手段52、発言記録生成手段53、発言記録出力手段54、判定手段55及び話者特定手段56の機能を有する。
As another example of the system configuration, in the functional configuration of the
音声変換手段51、音声認識結果記憶手段52、発言記録生成手段53、発言記録出力手段54、判定手段55及び話者特定手段56の各機能は、情報処理装置10の各機能と同様である。例えば、音声変換手段51は、複数の情報処理装置10のうち一の情報処理装置にて取得した音声情報を一の文字データに変換する。また、音声変換手段51は、他の情報処理装置にて取得した音声情報であって、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を他の文字データに変換する。
The functions of the
また、判定手段23は、音声変換手段19により変換された前記一の文字データと他の文字データとを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する。
The
本システム構成例では、通信会議サーバ50が、上記実施形態及び各変形例の発言記録生成処理を実行する。この場合、図4、図8、図10、図12、図13に示した発言記録生成処理は、通信会議サーバ50側で実行される。その際、通信会議サーバ50の音声変換手段51は、少なくとも2つの拠点の情報処理装置10にて取得した音声情報を音声認識技術を用いてテキスト情報に変換する。よって、本システム構成例においても、各情報処理装置10にて取得した音声情報の変換ミスの箇所を補うことができ、これにより、より正確な議事録を作成することができる。なお、通信会議サーバ50は、複数の情報処理装置10とネットワークを介して接続されたサーバ機器に相当する。
In this system configuration example, the
以上、添付図面を参照しながら本発明の通信システム及び通信方法の好適な実施形態について詳細に説明したが、本発明の通信システム及び通信方法の技術的範囲はかかる例に限定されない。本発明の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の通信システム及び通信方法の技術的範囲に属する。また、上記実施形態及び変形例が複数存在する場合、矛盾しない範囲で組み合わせることができる。 The preferred embodiments of the communication system and communication method of the present invention have been described in detail above with reference to the accompanying drawings, but the technical scope of the communication system and communication method of the present invention is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field of the present invention can come up with various changes or modifications within the scope of the technical idea described in the claims. Of course, it belongs to the technical scope of the communication system and communication method of the present invention. In addition, when there are a plurality of the above-described embodiments and modifications, they can be combined within a consistent range.
なお、本発明に係る情報処理装置及び通信会議サーバのハードウェア構成例を、図15を参照しながら簡単に説明する。発明に係る情報処理装置及び通信会議サーバには、CPU106が内蔵されている。CPU106により実行される各機能を実現するためのプログラムは、ROM104、RAM105、あるいはHDD108等の記憶手段に予め格納されてもよい。前記プログラムは、記録媒体であるCD−ROMあるいはフレキシブルディスク,SRAM,EEPROM,メモリカード等の不揮発性記録媒体(メモリ)に記録されてもよい。本発明に係る情報処理装置及び通信会議サーバの機能は、これらのメモリに記録されたプログラムをCPU106に実行させることにより実現され得る。さらに、前記プログラムは、通信回路103の機能を用いてIPネットワーク網110に接続され、プログラムを記録した記録媒体を備える外部機器あるいはプログラムを記憶手段に記憶した外部機器からダウンロードすることもできる。キーボード101は、入力装置の一例であり、各装置に各操作信号を入力するのに用いられる。キーボード101の替わりにマウスやタッチパネルを用いることもできる。ディスプレイ102は、表示装置の一例であり、各装置による処理結果を表示する。
A hardware configuration example of the information processing apparatus and the communication conference server according to the present invention will be briefly described with reference to FIG. The information processing apparatus and communication conference server according to the invention have a
以上のように、本実施形態に係る情報処理装置及び通信会議サーバは、上記ハードウェア構成により、上述した各種機能を実現することができる。 As described above, the information processing apparatus and the communication conference server according to the present embodiment can realize the various functions described above by the hardware configuration.
1:通信会議システム、10a,10b,10c、10:情報処理装置、11:通信手段、12:データ処理手段、13:音声入力手段、14:入力音声処理手段、15:音声記憶手段、16:出力音声処理手段、17:計時手段、18:音声出力手段、19:音声変換手段、20:音声認識結果記憶手段、21:発言記録生成手段、22:発言記録出力手段、23:判定手段、24:話者特定手段、50:通信会議サーバ、110:IPネットワーク網 1: communication conference system, 10a, 10b, 10c, 10: information processing apparatus, 11: communication means, 12: data processing means, 13: voice input means, 14: input voice processing means, 15: voice storage means, 16: Output voice processing means, 17: timing means, 18: voice output means, 19: voice conversion means, 20: voice recognition result storage means, 21: utterance record generation means, 22: utterance record output means, 23: determination means, 24 : Speaker identification means, 50: Teleconference server, 110: IP network
Claims (11)
前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第1の音声変換手段と、
前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第2の音声変換手段と、
前記第1及び第2の音声変換手段により変換された2つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定手段と、
を有することを特徴とする通信システム。 A communication system having a plurality of information processing devices connected via a network,
First voice conversion means for converting voice information acquired by one information processing apparatus of the plurality of information processing apparatuses into character data;
Second voice conversion means for converting voice information acquired according to the timing at which voice information was acquired by the one information processing apparatus into character data in another information processing apparatus among the plurality of information processing apparatuses. When,
The two character data converted by the first and second voice conversion means are compared, and it is determined whether or not the voice information acquired by the one information processing apparatus and the other information processing apparatus is the same utterance. Determination means to perform,
A communication system comprising:
前記判定手段は、比較対象である前記2以上の文字データの変換前の前記音声情報の発言時刻の差分が予め定められた閾値を上回る場合、前記2以上の文字データについて前記音声情報が同一発言か否かの判定を止めることを特徴とする請求項1〜5のいずれか一項に記載の通信システム。 Further comprising a time measuring means for measuring the speech time of the voice information;
When the difference between the speech times of the speech information before the conversion of the two or more character data to be compared exceeds a predetermined threshold, the determination means has the same speech information for the two or more character data. The communication system according to any one of claims 1 to 5, wherein the determination as to whether or not is stopped.
前記判定手段は、比較対象である前記2以上の文字データの変換前の前記音声情報の話者が異なる場合、前記2以上の文字データについて前記音声情報が同一発言か否かの判定を止めることを特徴とする請求項1〜6のいずれか一項に記載の通信システム。 A speaker specifying means for specifying a speaker of the voice information;
The determination means stops determining whether the voice information is the same speech for the two or more character data when speakers of the voice information before conversion of the two or more character data to be compared are different. The communication system according to any one of claims 1 to 6.
前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を一の文字データに変換し、該複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を他の文字データに変換する音声変換手段と、
前記音声変換手段により変換された一の文字データと他の文字データとを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定手段と、
を有することを特徴とする通信システム。 A communication system having a plurality of information processing devices and server devices connected via a network,
The voice information acquired by one information processing device of the plurality of information processing devices is converted into one character data, and the one information is converted by the other information processing device of the plurality of information processing devices. Voice conversion means for converting the voice information acquired in accordance with the timing at which the voice information is acquired by the processing device into other character data;
Comparing one character data converted by the voice converting means with another character data, it is determined whether the voice information acquired by the one information processing device and the other information processing device is the same utterance. Determination means to perform,
A communication system comprising:
前記一の情報処理装置及び前記他の情報処理装置にて取得した音声情報のそれぞれを1又は複数の単語に分解し、単語毎に比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定することを特徴とする請求項1〜8のいずれか一項に記載の通信システム。 The determination means includes
Each of the voice information acquired by the one information processing apparatus and the other information processing apparatus is decomposed into one or a plurality of words and compared for each word, and the one information processing apparatus and the other information processing apparatus The communication system according to claim 1, wherein it is determined whether or not the voice information acquired in step 1 is the same statement.
前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第1の音声変換ステップと、
前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第2の音声変換ステップと、
前記第1及び第2の音声変換ステップにて変換された2つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定ステップと、
を有することを特徴とする通信方法。 A communication method performed by a plurality of information processing apparatuses connected via a network,
A first voice conversion step of converting voice information acquired by one information processing apparatus of the plurality of information processing apparatuses into character data;
A second voice conversion step of converting voice information acquired according to the timing at which voice information is acquired by the one information processing apparatus into character data in another information processing apparatus among the plurality of information processing apparatuses. When,
The two character data converted in the first and second voice conversion steps are compared, and whether or not the voice information acquired by the one information processing apparatus and the other information processing apparatus is the same utterance. A determination step for determining;
A communication method characterized by comprising:
前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第1の音声変換処理と、
前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第2の音声変換処理と、
前記第1及び第2の音声変換処理にて変換された2つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定処理と、
をコンピュータにより実行するためのプログラム。 A program for executing a function of a communication system having a plurality of information processing devices connected via a network,
A first voice conversion process for converting voice information acquired by one information processing apparatus of the plurality of information processing apparatuses into character data;
Second voice conversion processing for converting voice information acquired according to the timing at which voice information is acquired by the one information processing apparatus into character data in another information processing apparatus among the plurality of information processing apparatuses. When,
The two character data converted by the first and second voice conversion processes are compared, and whether or not the voice information acquired by the one information processing apparatus and the other information processing apparatus is the same utterance. A determination process for determining;
A program for running a computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013049679A JP2014176033A (en) | 2013-03-12 | 2013-03-12 | Communication system, communication method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013049679A JP2014176033A (en) | 2013-03-12 | 2013-03-12 | Communication system, communication method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014176033A true JP2014176033A (en) | 2014-09-22 |
Family
ID=51696837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013049679A Pending JP2014176033A (en) | 2013-03-12 | 2013-03-12 | Communication system, communication method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014176033A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016082355A (en) * | 2014-10-15 | 2016-05-16 | 富士通株式会社 | Input information support device, input information support method, and input information support program |
JP2017182822A (en) * | 2017-05-08 | 2017-10-05 | 富士通株式会社 | Input information support device, input information support method, and input information support program |
WO2018070493A1 (en) * | 2016-10-14 | 2018-04-19 | Ricoh Company, Ltd. | Information processing system, information processing apparatus, and screen-sharing terminal controlling method |
JP2018110423A (en) * | 2018-02-09 | 2018-07-12 | 株式会社Msd | Information sharing system and program |
JP2019040573A (en) * | 2016-10-14 | 2019-03-14 | 株式会社リコー | Information processing system, information processing device, program and screen sharing terminal control method |
JP2019110450A (en) * | 2017-12-19 | 2019-07-04 | 日本電気株式会社 | Call terminal, speaker identification server, call system, processing method of call terminal, processing method of speaker identification server, and program |
JP2019164327A (en) * | 2018-03-19 | 2019-09-26 | 株式会社リコー | Information processing apparatus, information processing system, and information processing method |
US11132166B2 (en) | 2016-10-14 | 2021-09-28 | Ricoh Company, Ltd. | Information processing system, information processing apparatus, and screen-sharing terminal controlling method |
-
2013
- 2013-03-12 JP JP2013049679A patent/JP2014176033A/en active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016082355A (en) * | 2014-10-15 | 2016-05-16 | 富士通株式会社 | Input information support device, input information support method, and input information support program |
WO2018070493A1 (en) * | 2016-10-14 | 2018-04-19 | Ricoh Company, Ltd. | Information processing system, information processing apparatus, and screen-sharing terminal controlling method |
JP2019040573A (en) * | 2016-10-14 | 2019-03-14 | 株式会社リコー | Information processing system, information processing device, program and screen sharing terminal control method |
US11132166B2 (en) | 2016-10-14 | 2021-09-28 | Ricoh Company, Ltd. | Information processing system, information processing apparatus, and screen-sharing terminal controlling method |
JP7039903B2 (en) | 2016-10-14 | 2022-03-23 | 株式会社リコー | Information processing system, information processing device, program and screen sharing terminal control method |
JP2017182822A (en) * | 2017-05-08 | 2017-10-05 | 富士通株式会社 | Input information support device, input information support method, and input information support program |
JP2019110450A (en) * | 2017-12-19 | 2019-07-04 | 日本電気株式会社 | Call terminal, speaker identification server, call system, processing method of call terminal, processing method of speaker identification server, and program |
JP7073705B2 (en) | 2017-12-19 | 2022-05-24 | 日本電気株式会社 | Call terminal, speaker identification server, call system, call terminal processing method, speaker identification server processing method and program |
JP2018110423A (en) * | 2018-02-09 | 2018-07-12 | 株式会社Msd | Information sharing system and program |
JP2019164327A (en) * | 2018-03-19 | 2019-09-26 | 株式会社リコー | Information processing apparatus, information processing system, and information processing method |
JP7243145B2 (en) | 2018-03-19 | 2023-03-22 | 株式会社リコー | Information processing device, information processing system and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014176033A (en) | Communication system, communication method and program | |
US20240153523A1 (en) | Automated transcript generation from multi-channel audio | |
US9407869B2 (en) | Systems and methods for initiating conferences using external devices | |
US8315866B2 (en) | Generating representations of group interactions | |
US20150310863A1 (en) | Method and apparatus for speaker diarization | |
US20200118569A1 (en) | Conference sound box and conference recording method, apparatus, system and computer storage medium | |
TW201624467A (en) | Meeting minutes device and method thereof for automatically creating meeting minutes | |
US11727940B2 (en) | Autocorrection of pronunciations of keywords in audio/videoconferences | |
CN114514577A (en) | Method and system for generating and transmitting a text recording of a verbal communication | |
TW201624470A (en) | Meeting minutes device and method thereof for automatically creating meeting minutes | |
TW201624468A (en) | Meeting minutes device and method thereof for automatically creating meeting minutes | |
CN110933485A (en) | Video subtitle generating method, system, device and storage medium | |
US11551707B2 (en) | Speech processing method, information device, and computer program product | |
US11600279B2 (en) | Transcription of communications | |
US10789954B2 (en) | Transcription presentation | |
US11783837B2 (en) | Transcription generation technique selection | |
US9628603B2 (en) | Voice mail transcription | |
JP2009053342A (en) | Minutes preparation apparatus | |
US20200184973A1 (en) | Transcription of communications | |
CN111968630B (en) | Information processing method and device and electronic equipment | |
JP2009086207A (en) | Minute information generation system, minute information generation method, and minute information generation program | |
JP7172299B2 (en) | Information processing device, information processing method, program and information processing system | |
KR20210049601A (en) | Method and apparatus for providing voice service | |
KR20230066797A (en) | Real-time subtitle and document creation method by voice separation, computer program and device using the method | |
CN115879841A (en) | Data processing method and device, electronic equipment and storage medium |