JP5713782B2 - Information processing apparatus, information processing method, and program - Google Patents
Information processing apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP5713782B2 JP5713782B2 JP2011095056A JP2011095056A JP5713782B2 JP 5713782 B2 JP5713782 B2 JP 5713782B2 JP 2011095056 A JP2011095056 A JP 2011095056A JP 2011095056 A JP2011095056 A JP 2011095056A JP 5713782 B2 JP5713782 B2 JP 5713782B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- text data
- speaker
- information processing
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 38
- 238000003672 processing method Methods 0.000 title claims 3
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 10
- WBMKMLWMIQUJDP-STHHAXOLSA-N (4R,4aS,7aR,12bS)-4a,9-dihydroxy-3-prop-2-ynyl-2,4,5,6,7a,13-hexahydro-1H-4,12-methanobenzofuro[3,2-e]isoquinolin-7-one hydrochloride Chemical compound Cl.Oc1ccc2C[C@H]3N(CC#C)CC[C@@]45[C@@H](Oc1c24)C(=O)CC[C@@]35O WBMKMLWMIQUJDP-STHHAXOLSA-N 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、例えば会議の議事録中における特定の箇所に関連する音声を特定する技術に関するものである。 The present invention relates to a technique for specifying a voice related to a specific part in a meeting minutes, for example.
従来、音声認識で書き起こされた会議の議事録から、キーワードマッチングにより、入力されたキーワードに関連する箇所を特定する技術が知られている(例えば、特許文献1参照)。 2. Description of the Related Art Conventionally, a technique for identifying a location related to an input keyword by keyword matching from a meeting minutes transcribed by voice recognition is known (see, for example, Patent Document 1).
議事録に書かれた内容の詳細を確認する場合には、会議中の音声を録音し、その音声の聴取を行っている。そしてユーザは、録音した全ての音声の聴取が多大な時間を必要とするため、議事録中の特定の箇所に関連する音声のみを聴取する必要がある。しかしながら、特許文献1に開示されるようなキーワードマッチングにおいては、入力されたキーワードが議事録中の広範囲に存在する場合は、関連する音声の特定が困難である。
When confirming the details of the contents written in the minutes, the voice during the meeting is recorded and the voice is listened to. And since the user needs a lot of time to listen to all the recorded sounds, it is necessary to listen only to the sounds related to a specific part in the minutes. However, in the keyword matching as disclosed in
そこで、本発明の目的は、例えば会議の議事録中における特定の箇所に関連する音声を、高い精度で特定することにある。 Therefore, an object of the present invention is to specify, for example, a voice related to a specific part in a meeting minutes with high accuracy.
本発明の情報処理装置は、複数の発言者による複数の発言を含む音声データの発言単位を音声区間として、複数の音声区間それぞれを複数の第1のテキストデータに変換する変換手段と、各音声区間に対し、発言開始時間及び発言者を特定する第1の特定手段と、前記発言単位の要約文を表す第2のテキストデータと、前記第2のテキストデータに対応する発言者を示す情報と、の入力を受け付ける第1の受付手段と、前記第2のテキストデータの入力時間を特定する第2の特定手段と、前記第1のテキストデータそれぞれと、前記第2のテキストデータと、のテキストマッチングを行い、対応箇所を特定するマッチング手段と、前記対応箇所、前記入力時間、前記発言開始時間、前記発言者を示す情報、前記第1の特定手段により特定された発言者に基づいて、前記第2のテキストデータに対応する前記音声区間を特定する第3の特定手段とを有することを特徴とする。 An information processing apparatus according to the present invention includes a conversion means for converting each of a plurality of speech sections into a plurality of first text data, with each speech unit of speech data including a plurality of speeches by a plurality of speakers as speech sections, and each speech to section showing a first specifying means for specifying a speech start time及beauty onset words person, a second text data representing a summary of the talk unit, a speaker corresponding to the second text data a first receiving means for receiving the information, the input of a second specifying means for specifying during the input mode of the second text data, and the previous SL first text data Taso respectively, said first perform a second text data, the text matching, matching means for identifying a corresponding portion, the corresponding portion, the input time, the talk start time, information indicating the speaker is identified by said first specifying means Based on the speaker, and having a third specifying means for specifying the voice interval corresponding to the second text data.
本発明によれば、例えば会議の議事録中における特定の箇所に関連する音声を、高い精度で特定することが可能となる。 ADVANTAGE OF THE INVENTION According to this invention, it becomes possible to specify the audio | voice relevant to the specific location in the minutes of a meeting, for example with high precision.
以下、本発明を適用した好適な実施形態を、添付図面を参照しながら詳細に説明する。 DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments to which the invention is applied will be described in detail with reference to the accompanying drawings.
先ず、本発明の第1の実施形態について説明する。図1は、本発明の第1の実施形態に係る情報処理システムの概観を示す図である。本実施形態に係る情報処理システムは、音声変換機能と発言者特定機能とを備えている。また、本実施形態に係る情報処理システムは、各処理部の連携により効果を奏するものであるが、これに限らず、全ての処理部を一体的に備えた情報処理装置も本発明に適用可能である。 First, a first embodiment of the present invention will be described. FIG. 1 is a diagram showing an overview of an information processing system according to the first embodiment of the present invention. The information processing system according to the present embodiment includes a voice conversion function and a speaker specifying function. In addition, the information processing system according to the present embodiment is effective due to the cooperation of the processing units. However, the present invention is not limited to this, and an information processing device integrally including all processing units is also applicable to the present invention. It is.
図1に示す情報処理システムは、主にマイク101及びPC102から構成される。発言者103〜107により会議が行われると、マイク101は発言者103〜107により発言された音声を録音する。議事録係108は、PC102を用いて、発言内容の要約文を入力して会議の議事録を作成する。ここでは、要約文の集合を会議の議事録とする。また、説明の便宜上、以下では発言者103〜107の名前を「佐藤」、「田中」、「鈴木」、「伊藤」、「大川」とする。
The information processing system shown in FIG. 1 mainly includes a
図2は、本実施形態に係る情報処理システムの機能的な構成を示す図である。図2において、音声変換部201は、マイク101によって録音された発言内容をテキストに変換する。発言者特定部202は、マイク101によって録音された発言内容の発言者を特定する。入力部203は、PC102に相当する構成であり、議事録係108によって会議の発言内容の要約文及び発言者が入力される。マッチング箇所特定部204は、発言内容と要約文とのテキストマッチングを行い、互いに一致する箇所(以下、マッチング箇所と称す)を特定する。音声区間特定部205は、発言時間、要約文入力時間、マッチング箇所及び発言者の情報を用いて、要約文に関連する音声区間を特定する。入力部203は、テキストとして要約文を入力するテキスト入力部206、要約文のストローク時間を保持するストローク時間保持部207、ストローク時間を用いて要約文の入力を開始した時間を特定する入力時間特定部208を備える。なお、以下の説明では、議事録の要約文に関連する音声区間を関連音声区間と称することがある。
FIG. 2 is a diagram illustrating a functional configuration of the information processing system according to the present embodiment. In FIG. 2, the
図3は、本実施形態に係る情報処理システムのハードウエア構成を示す図である。CPU301は、プログラムに従って、本実施形態の各動作手順を実現するよう動作する。RAM302は、上記プログラムの動作に必要な記憶領域を提供する。ROM303は、上記プログラムの動作手順を実現するプログラムやデータベース等を保持する。音声入力装置304は、マイク101に相当し、発言者103〜107により発言された音声を録音する。テキスト入力装置306は、PC102に相当し、議事録係108の操作に応じて発言内容の要約文を入力する。音声再生装置305は、音声区間特定部205によって特定された関連音声区間に相当する音声を出力する。なお、テキスト入力装置306によって入力された要約文には、当該要約文が入力された時間情報が付与されている。上記各処理部は、バス307を介してデータをやりとりする。
FIG. 3 is a diagram illustrating a hardware configuration of the information processing system according to the present embodiment. The
図4は、議事録の要約文に関連する音声区間(関連音声区間)を特定する処理を示すフローチャートである。以下、図4を参照しながら、本実施形態に係る情報処理システムの処理について説明する。 FIG. 4 is a flowchart showing a process of specifying a voice section (related voice section) related to the summary sentence of the minutes. Hereinafter, the processing of the information processing system according to the present embodiment will be described with reference to FIG.
ステップS401において、音声区間特定部205は、録音された音声から、実際に発言のあった音声(以下、発言音声単位と称す)を検出し、発言音声単位が開始された時間(以下、発言開始時間と称す)を特定する。録音された音声は、例えば、22.05KHzでサンプリングされたWAVEデータであり、PCM方式で外部記憶装置に保存される。本実施形態においては、発言音声単位の検出には音声区間検出の技術を用いる。ここでは、音声区間検出の技術により検出された発言音声区間に相当する音声を発言音声単位とする。なお、音声区間検出の技術は公知なので詳細な説明は省略する。
In step S401, the voice
また、WAVEデータのヘッダ部分には録音された時間が書き込まれており、音声区間特定部205は、この情報から発言開始時間を特定する。音声変換部201は、発言音声単位をテキストに変換する。発言音声単位からテキストへの変換は音声認識の技術が用いられる。本実施形態では、予め様々な会議に関連した語彙の音声データをモデルとしてRAM302に記憶させておくことにより音声認識を行う。なお、音声認識の技術は公知なので詳細な説明は省略する。また、音声変換部201により生成されるテキストは、第1のテキストデータの適用例である。
In addition, the recorded time is written in the header portion of the WAVE data, and the speech
図5Aは、会議中に録音された音声の発言内容を示す図である。図5Bは、ステップS401において、録音された音声から発言音声単位と発言開始時間とを特定した結果を示す図である。即ち、図5Bにおける「発言音声単位」の列には、発言音声単位の特定結果が列挙されている。また、図5Bにおける「発言開始時間」の列には、発言音声単位毎の発言開始時間が列挙されている。また、図5Bにおける「発言内容変換結果」の列には、各発言音声単位をテキストに変換した結果が列挙されている。現在の音声認識の技術は、音声を完全にテキストに変換できる精度にはない。よって、図5Bにおける「発言内容変換結果」の列に示すように誤認識が起こる。なお、変換されるテキストの候補がない音声に関しては、空白となっている。また、以下の説明において、発言音声単位をテキストに変換した結果を、発言内容変換結果と称することがある。 FIG. 5A is a diagram showing the content of speech recorded during a conference. FIG. 5B is a diagram illustrating a result of specifying the speech voice unit and the speech start time from the recorded voice in step S401. That is, in the column of “speech speech unit” in FIG. 5B, specific results of speech speech units are listed. Further, in the column of “speech start time” in FIG. 5B, the speech start time for each speech sound unit is listed. In the column of “speech content conversion result” in FIG. 5B, the results of converting each speech unit into text are listed. Current speech recognition technology is not accurate enough to completely convert speech to text. Therefore, misrecognition occurs as shown in the column “conversion result of speech” in FIG. 5B. Note that a voice that has no text candidate to be converted is blank. Moreover, in the following description, the result of converting a speech unit into text may be referred to as a speech content conversion result.
ステップS402において、発言者特定部202は、ステップS401で検出された発言音声単位の発言者を特定する。本実施形態では、発言者の特定には話者認識の技術を用いる。話者認識の技術では、発言者103〜107の声の特徴をモデルとして予めRAM302に記憶させておき、発言音声単位から得られる音声特徴量とモデルとを照合することにより、話者を認識する。なお、話者認識の技術は公知なので詳細な説明は省略する。図5Cは、ステップS402において発言音声単位の発言者が特定された結果を示す図である。即ち、図5Cにおける「発言者」の列には、ステップS402において特定された発言音声単位の発言者が列挙されている。なお、ステップS401における発言開始時間の特定処理、ステップS402における発言者の特定処理は、第1の特定手段の処理例である。
In step S402, the
ステップS403において、議事録係108が入力部203より要約文及び発言者を入力する。ここで、図6を参照しながら、ステップS403について詳細に説明する。図6は、ステップS403の詳細を示すフローチャートである。
In step S403, the
ステップS601において、入力部203のテキスト入力部206は、議事録係108の操作に応じて、議事録として発言内容の要約文及び発言者をテキストで入力する。図7(a)は、議事録係108がテキストを入力することによって作成された議事録の例を示している。本実施形態では、記号「・」の後に続く一文が要約文として特定されるとともに、要約文の文末の「(」と「)」の記号で囲まれた文字列がその要約文の発言者として特定される。図7(b)は、作成された議事録から特定された要約文及び発言者を示している。なお、テキスト入力部206は、第1の入力手段の適用例となる構成であり、テキスト入力部206により入力されるテキストは、第2のテキストデータである。
In step S <b> 601, the
ステップS602において、入力部203のストローク時間保持部207は、ステップS601で入力された要約文のストローク時間を保持する。本実施形態におけるストローク時間保持部207は、要約文を構成する1文字をストローク単位とし、各ストローク単位の1文字の入力が開始された時間(ストローク時間)を記録する。図8は、図7(b)の701に示す要約文「会議で発表をする価値はある。」に対して、ストローク時間保持部207がストローク時間を保持した例を示す図である。
In step S602, the stroke
ステップS603において、入力部203の入力時間特定部208は、ステップS602の結果から要約文の入力を開始した時間(以下、要約文入力時間と称す)を特定する。各要約文の一番先頭のストローク単位のストローク時間が要約文入力時間となる。要約文「会議で発表をする価値はある。」については、ストローク単位の「会」のストローク時間である「8時04分50秒」が要約文入力時間となる。図7(c)における「要約文入力時間」の列には、ステップS601で入力された各要約文に対して特定された要約文入力時間が列挙されている。従って、ステップS403においては、例えば図7(a)に示す議事録が入力されると、図7(c)に示すように要約文入力時間、要約文及び発言者が特定される。なお、入力時間特定部208は、第2の特定手段の適用例となる構成である。
In step S603, the input
ステップS404において、マッチング箇所特定部204は、ステップS401で変換されたテキストとステップS403で入力された要約文との間でテキストマッチングを行い、マッチング箇所を特定する。ここで、テキストマッチングについて具体的に説明する。先ず、マッチング箇所特定部204は図7(b)の要約文を形態素解析する。図9は、図7(b)の701に示す要約文「会議で発表をする価値はある。」を形態素解析した結果を示す図である。要約文701は単語1〜単語8に単語分割され、各単語の品詞が特定される。そしてマッチング箇所特定部204は、図5Cの発言内容変換結果の中から、品詞が名詞と特定された「会議」、「発表」及び「価値」の単語を検索する。マッチング箇所特定部204は、このように検索した単語の箇所をマッチング箇所とする。なお、テキストマッチングの代替手段として概念辞書等を用いて、意味の近い単語の箇所をマッチング箇所としてもよい。図5Dは、各発言音声単位におけるマッチング箇所の数を示す図である。
In step S404, the matching
ステップS405において、音声区間特定部205は、発言開始時間、要約文入力時間、マッチング箇所及び発言者の情報を用いて、ステップS403で入力された要約文に関連する音声区間(関連音声区間)を特定する。ここで、図10を参照しながら、ステップS405について詳細に説明する。図10は、ステップS405の処理の詳細を示すフローチャートである。以下、図10を参照しながら、図7(b)の要約文701に関連する音声区間(関連音声区間)を特定する例について説明する。なお、音声区間特定部205は、第3の特定手段の適用例となる構成である。
In step S405, the speech
ステップS1001において、音声区間特定部205は、ステップS401とステップS403との結果から時間情報対象区間を特定する。ここでは、図7(b)の要約文701の要約文入力時間(8時04分50秒)から、所定の時間内(ここでは2分とする)にある発言音声単位を時間情報対象区間とする。即ち、図5Cにおいて、発言音声単位501〜517のうち、8時04分50秒から8時02分50秒の間にある発言音声単位511〜515が時間情報対象区間となる。ステップS1002において、音声区間特定部205は、ステップS402とステップS403との結果から発言者情報対象区間を特定する。ここでは、要約文701で入力された発言者(佐藤)が発言した発言音声単位を発言者情報対象区間とする。即ち、図5Cにおいて、発言音声単位501〜517のうち、発言者(佐藤)が発言した発言音声単位501、505、513、515が発言者情報対象区間となる。
In step S1001, the speech
ステップS1003において、音声区間特定部205は、ステップS404の結果からマッチング箇所情報対象区間を特定する。ここでは、各発言音声単位におけるマッチング箇所の数が第1の閾値(ここでは2とする)以上であった発言音声単位をマッチング箇所情報対象区間とする。即ち、図5Dにおいて、発言音声単位501〜517のうち、マッチング箇所が第1の閾値以上である発言音声単位503、505、507、513、515、516がマッチング箇所情報対象区間として特定される。
In step S1003, the speech
ステップS1004において、音声区間特定部205は、ステップS1001〜S1003の結果から関連音声区間を特定する。ここでは、時間情報対象区間と発言者情報対象区間とマッチング箇所情報対象区間とが重なり合う(アンドとなる)発言音声単位を関連音声区間とする。即ち、ステップS405では、発言音声単位513、515が関連音声区間として特定される。
In step S1004, the speech
よって、ステップS401〜ステップS405の処理により、キーワードマッチングに加えて時間情報と発言者情報とを用いることにより、議事録中の要約文に関連する音声区間を高い精度で特定することができる。具体的な上記情報処理システムの用途として、会議終了後に、議事録に書かれた要約文の詳細を、音声を再生させて確認したい場合が挙げられる。例えば、図11において、PC1101の画面1102に議事録を表示させ、図7の要約文701に相当する箇所1104をマウス1103でクリックすると、発言音声単位513、515が再生される。また、上記情報処理システムでは、会議を例に説明したが、発言者の発言内容が録音可能であれば、講演や授業等のいかなる形態にも適用できる。
Therefore, by using the time information and the speaker information in addition to the keyword matching by the processing of step S401 to step S405, it is possible to specify the speech section related to the summary sentence in the minutes with high accuracy. As a specific application of the information processing system, there is a case where the details of the summary sentence written in the minutes are desired to be played back after the meeting is finished. For example, in FIG. 11, when the minutes are displayed on the
次に、本発明の第2の実施形態について説明する。第2の実施形態においては、関連音声区間に隣接する発言音声単位を関連音声区間に含めるか否かを判定するため、図10のステップS1004の後に図12に示す処理を実行する。以下、図12に示す処理について説明する。なお、第2の実施形態に係る情報処理システムの構成は、第1の実施形態に係る情報処理システムの構成と同様であるため、第1の実施形態と同一符号を用いて説明する。 Next, a second embodiment of the present invention will be described. In the second embodiment, the processing shown in FIG. 12 is executed after step S1004 of FIG. 10 in order to determine whether or not the speech unit adjacent to the related speech section is included in the related speech section. Hereinafter, the process illustrated in FIG. 12 will be described. Note that the configuration of the information processing system according to the second embodiment is the same as the configuration of the information processing system according to the first embodiment, and therefore will be described using the same reference numerals as those in the first embodiment.
ステップS1201において、音声区間特定部205は、特定した関連音声区間に隣接する発言音声単位(以下、隣接発言音声単位と称す)において、ステップS404で得られたマッチング箇所の数が設定された第2の閾値(ここでは2とする)以上であるか否かを判定する。マッチング箇所の数が第2の閾値以上である場合、処理はステップS1202に移行する。一方、マッチング箇所の数が第2の閾値未満である場合、処理は終了する。ステップS1202において、音声区間特定部205は、特定した関連音声区間に隣接発言音声単位を含める。本実施形態では、隣接発言音声単位516におけるマッチング箇所の数が2以上であれば、隣接発言音声単位516を関連音声区間に含めるようにしている。従って、ステップS1004において関連音声区間として特定されなくとも、関連性が高い可能性のあるマッチング箇所の数が第2の閾値以上あると、隣接発言音声単位が関連音声区間に含まれることになる。
In step S1201, the speech
次に、本発明の第3の実施形態について説明する。第3の実施形態においては、ステップS405で特定された図7(b)の要約文701の関連音声区間が複数ある場合、ステップS1004の後に図13に示す処理を実行する。以下、図13に示す処理について説明する。なお、第3の実施形態に係る情報処理システムの構成は、第1の実施形態に係る情報処理システムの構成と同様であるため、第1の実施形態と同一符号を用いて説明する。
Next, a third embodiment of the present invention will be described. In the third embodiment, when there are a plurality of related speech sections of the
ステップS1301において、音声区間特定部205は、特定した関連音声区間が複数あるか否かを判定する。関連音声区間が複数ある場合、処理はステップS1302に移行する。一方、関連音声区間が複数ない場合、処理は終了する。要約文701については、発言音声単位513、515が関連音声区間として特定されているので、処理はステップS1302に移行する。
In step S1301, the speech
ステップS1302において、音声区間特定部205は、特定した複数の関連音声区間の間に位置する隣接発言音声単位について設定された第2の閾値を下げる。ここでは、隣接発言音声単位514の第2の閾値を2から1に下げるものとする。ステップS1303において、音声区間特定部205は、隣接発言音声単位において、ステップS404で得られたマッチング箇所の数がステップS1302で設定された第2の閾値以上であるか否かを判定する。マッチング箇所の数が第2の閾値以上である場合、処理はステップS1304に移行する。一方、マッチング箇所の数が第2の閾値未満である場合、処理は終了する。隣接発言音声単位514は、特定された複数の関連音声区間の間にあるので第2の閾値は1に設定される。従って、隣接発言音声単位514については、マッチング箇所の数は1であるので、処理はステップS1304に移行する。また、隣接発言音声単位512のマッチング箇所の数は、第2の閾値未満であるため、処理は終了する。一方、隣接発言音声単位516のマッチング箇所の数は、第2の閾値以上であるため、処理はステップS1304に移行する。
In step S <b> 1302, the speech
ステップS1304において、音声区間特定部205は、隣接発言音声単位をステップS1004で特定された関連音声区間に含める。従って、ステップS1004で関連音声区間と特定されなくとも、関連音声区間の間にある隣接発言音声単位については、より高い確率で隣接発言音声単位が関連音声区間に含まれることになる。
In step S1304, the speech
次に、本発明の第4の実施形態について説明する。第4の実施形態においては、ステップS403で入力された図7(b)の要約文701の発言者が複数である場合、図10のステップS1004の後に図14に示す処理を実行する。以下、図14に示す処理について説明する。なお、第4の実施形態に係る情報処理システムの構成は、第1の実施形態に係る情報処理システムの構成と同様であるため、第1の実施形態と同一符号を用いて説明する。
Next, a fourth embodiment of the present invention will be described. In the fourth embodiment, when there are a plurality of speakers in the
ステップS1401において、音声区間特定部205は、ステップS403で入力された要約文の発言者は複数であるか否かを判定する。要約文の発言者が複数である場合、処理はステップS1402に移行する。一方、要約文の発言者が複数ではない場合、処理は終了する。ステップS1402において、音声区間特定部205は、特定した関連音声区間の隣接発言音声単位の発言者が、ステップS403で入力された要約文の発言者であるか否かを判定する。入力された要約文の発言者である場合、処理はステップS1403に移行する。一方、入力された要約文の発言者でない場合、処理は終了する。ステップS1403において、音声区間特定部205は、隣接発言音声単位をステップS1004で特定された関連音声区間に含める。
In step S1401, the speech
例えば、図7(a)に示す議事録において、「・会議で発表をする価値はある。(佐藤)」が「・会議で発表をする価値はある。(佐藤、鈴木)」と記入されていたとする。要約文701の発言者は、佐藤と鈴木になる。なお、「(」と「)」の記号で囲まれ、「、」の記号で区切られた文字列がその要約文の発言者として特定される。ステップS1002で特定された発言者情報対象区間は、発言音声単位501、503、505、506、508、510、513、515、516となるが、ステップS1004の結果(発言音声単位513、515)は変わらない。しかしながら、隣接発言音声単位516の発言者が鈴木であるので、隣接発言音声単位516が関連音声区間に含まれることになる。よって、ステップS1004で関連音声区間と特定されなくとも、議事録係が記入した発言者に関連する音声区間を高い精度で特定することができる。よって、ステップS1004で関連音声区間と特定されなくとも、関連性が高い可能性のある議事録係が記入した発言者の隣接発言音声単位が関連音声区間に含まれることになる。
For example, in the minutes shown in Fig. 7 (a), "・ It is worth making a presentation at a meeting (Sato)" is written as "・ It is worth making a presentation at a meeting (Sato, Suzuki)". Suppose. The speakers of the
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。 The present invention can also be realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and a computer (or CPU, MPU, or the like) of the system or apparatus reads the program. It is a process to be executed.
201:音声変換部、202:発言者特定部、203:入力部、204:マッチング箇所特定部、205:音声区間特定部、206:テキスト入力部、207:ストローク時間保持部、208:入力時間特定部 201: Voice conversion unit, 202: Speaker specifying unit, 203: Input unit, 204: Matching part specifying unit, 205: Voice segment specifying unit, 206: Text input unit, 207: Stroke time holding unit, 208: Input time specifying Part
Claims (13)
各音声区間に対し、発言開始時間及び発言者を特定する第1の特定手段と、
前記発言単位の要約文を表す第2のテキストデータと、前記第2のテキストデータに対応する発言者を示す情報と、の入力を受け付ける第1の受付手段と、
前記第2のテキストデータの入力時間を特定する第2の特定手段と、
前記第1のテキストデータそれぞれと、前記第2のテキストデータと、のテキストマッチングを行い、対応箇所を特定するマッチング手段と、
前記対応箇所、前記入力時間、前記発言開始時間、前記発言者を示す情報、前記第1の特定手段により特定された発言者に基づいて、前記第2のテキストデータに対応する前記音声区間を特定する第3の特定手段と
を有することを特徴とする情報処理装置。 Conversion means for converting each of the plurality of speech sections into a plurality of first text data, with a speech unit of speech data including a plurality of speeches by a plurality of speakers as a speech section ;
For each speech segment, and the first specifying means for specifying a speech start time及beauty onset words person,
First accepting means for accepting input of second text data representing a summary sentence of the comment unit, and information indicating a speaker corresponding to the second text data ;
Second specifying means for specifying during the input mode of the second text data,
Before SL first text data Taso Rezoreto performed with the second text data, the text matching, matching means for identifying a corresponding portion,
The speech section corresponding to the second text data is identified based on the corresponding location, the input time, the speech start time, information indicating the speaker, and the speaker identified by the first identifying means. And an information processing apparatus.
前記指定を受け付けた場合に、前記第2のテキストデータに対して前記第3の特定手段により特定された前記音声区間の前記音声データを出力する出力手段と
をさらに有することを特徴とする請求項1に記載の情報処理装置。 Second accepting means for accepting designation of the summary sentence of the second text data;
Output means for outputting the voice data of the voice section specified by the third specifying means for the second text data when the designation is received;
The information processing apparatus according to claim 1, further comprising:
前記第3の特定手段は、前記音声区間が特定され、特定された前記音声区間に隣接する隣接音声区間に対して特定された前記発言者が前記発言者を示す情報に含まれる場合に、前記隣接音声区間を前記第2のテキストデータに対応する前記音声区間に含めることを特徴とする請求項1乃至8の何れか1項に記載の情報処理装置。 The third specifying means, when the voice section is specified and the speaker specified for the adjacent voice section adjacent to the specified voice section is included in the information indicating the speaker, The information processing apparatus according to claim 1, wherein an adjacent speech section is included in the speech section corresponding to the second text data.
複数の発言者による複数の発言を含む音声データの発言単位を音声区間として、複数の音声区間それぞれを複数の第1のテキストデータに変換する変換ステップと、A conversion step of converting each of the plurality of speech sections into a plurality of first text data, with a speech unit of the speech data including a plurality of comments by a plurality of speakers as a speech section;
各音声区間に対し、発言開始時間及び発言者を特定する第1の特定ステップと、A first identification step for identifying a speech start time and a speaker for each voice section;
前記発言単位の要約文を表す第2のテキストデータと、前記第2のテキストデータに対応する発言者を示す情報と、の入力を受け付ける第1の受付ステップと、A first accepting step for accepting input of second text data representing a summary sentence of the comment unit, and information indicating a speaker corresponding to the second text data;
前記第2のテキストデータの入力時間を特定する第2の特定ステップと、A second specifying step of specifying an input time of the second text data;
前記第1のテキストデータそれぞれと、前記第2のテキストデータと、のテキストマッチングを行い、対応箇所を特定するマッチングステップと、A matching step of performing text matching between each of the first text data and the second text data to identify a corresponding portion;
前記対応箇所、前記入力時間、前記発言開始時間、前記発言者を示す情報、前記第1の特定手段により特定された発言者に基づいて、前記第2のテキストデータに対応する前記音声区間を特定する第3の特定ステップとThe speech section corresponding to the second text data is identified based on the corresponding location, the input time, the speech start time, information indicating the speaker, and the speaker identified by the first identifying means. A third specific step to
を含むことを特徴とする情報処理方法。An information processing method comprising:
複数の発言者による複数の発言を含む音声データの発言単位を音声区間として、複数の音声区間それぞれを複数の第1のテキストデータに変換する変換手段と、Conversion means for converting each of the plurality of speech sections into a plurality of first text data, with a speech unit of speech data including a plurality of speeches by a plurality of speakers as a speech section;
各音声区間に対し、発言開始時間及び発言者を特定する第1の特定手段と、A first specifying means for specifying a speech start time and a speaker for each voice section;
前記発言単位の要約文を表す第2のテキストデータと、前記第2のテキストデータに対応する発言者を示す情報と、の入力を受け付ける第1の受付手段と、First accepting means for accepting input of second text data representing a summary sentence of the comment unit, and information indicating a speaker corresponding to the second text data;
前記第2のテキストデータの入力時間を特定する第2の特定手段と、Second specifying means for specifying an input time of the second text data;
前記第1のテキストデータそれぞれと、前記第2のテキストデータと、のテキストマッチングを行い、対応箇所を特定するマッチング手段と、Matching means for performing text matching between each of the first text data and the second text data, and identifying a corresponding portion;
前記対応箇所、前記入力時間、前記発言開始時間、前記発言者を示す情報、前記第1の特定手段により特定された発言者に基づいて、前記第2のテキストデータに対応する前記音声区間を特定する第3の特定手段とThe speech section corresponding to the second text data is identified based on the corresponding location, the input time, the speech start time, information indicating the speaker, and the speaker identified by the first identifying means. Third identifying means to
として機能させるためのプログラム。Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011095056A JP5713782B2 (en) | 2011-04-21 | 2011-04-21 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011095056A JP5713782B2 (en) | 2011-04-21 | 2011-04-21 | Information processing apparatus, information processing method, and program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012226651A JP2012226651A (en) | 2012-11-15 |
JP2012226651A5 JP2012226651A5 (en) | 2014-05-15 |
JP5713782B2 true JP5713782B2 (en) | 2015-05-07 |
Family
ID=47276722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011095056A Active JP5713782B2 (en) | 2011-04-21 | 2011-04-21 | Information processing apparatus, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5713782B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6280312B2 (en) * | 2013-05-13 | 2018-02-14 | キヤノン株式会社 | Minutes recording device, minutes recording method and program |
JP6281330B2 (en) * | 2014-03-07 | 2018-02-21 | 富士通株式会社 | Speech analysis method, speech analysis program, and speech analysis apparatus |
JP7100824B2 (en) * | 2018-06-20 | 2022-07-14 | カシオ計算機株式会社 | Data processing equipment, data processing methods and programs |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008172582A (en) * | 2007-01-12 | 2008-07-24 | Ricoh Co Ltd | Minutes generating and reproducing apparatus |
JP2009122839A (en) * | 2007-11-13 | 2009-06-04 | Sharp Corp | Electronic conference support system |
JP2010108296A (en) * | 2008-10-30 | 2010-05-13 | Canon Inc | Information processor and information processing method |
JP2010134681A (en) * | 2008-12-04 | 2010-06-17 | Ricoh Co Ltd | Lecture material preparation support system, lecture material preparation support method and lecture material preparation support program |
JP5206553B2 (en) * | 2009-03-31 | 2013-06-12 | 日本電気株式会社 | Browsing system, method, and program |
JP2011070416A (en) * | 2009-09-25 | 2011-04-07 | Fujitsu Ltd | Device and program for supplementing minutes, device and program for outputting minute |
JP2011075707A (en) * | 2009-09-29 | 2011-04-14 | Nec Corp | Information analysis device and method, and program |
-
2011
- 2011-04-21 JP JP2011095056A patent/JP5713782B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012226651A (en) | 2012-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4600828B2 (en) | Document association apparatus and document association method | |
US20200294487A1 (en) | Hands-free annotations of audio text | |
JP2018106148A (en) | Multiplex speaker-speech-recognition correction system | |
US20210232776A1 (en) | Method for recording and outputting conversion between multiple parties using speech recognition technology, and device therefor | |
JP5731998B2 (en) | Dialog support device, dialog support method, and dialog support program | |
JP2013534650A (en) | Correcting voice quality in conversations on the voice channel | |
JP5779032B2 (en) | Speaker classification apparatus, speaker classification method, and speaker classification program | |
JP2010060850A (en) | Minute preparation support device, minute preparation support method, program for supporting minute preparation and minute preparation support system | |
JP5753769B2 (en) | Voice data retrieval system and program therefor | |
WO2014203328A1 (en) | Voice data search system, voice data search method, and computer-readable storage medium | |
JP5099211B2 (en) | Voice data question utterance extraction program, method and apparatus, and customer inquiry tendency estimation processing program, method and apparatus using voice data question utterance | |
JP2008032825A (en) | Speaker display system, speaker display method and speaker display program | |
JP2012037790A (en) | Voice interaction device | |
JP5713782B2 (en) | Information processing apparatus, information processing method, and program | |
JP2021009253A (en) | Program, information processing device, and information processing method | |
Cooper et al. | Data selection for naturalness in HMM-based speech synthesis | |
JP5997813B2 (en) | Speaker classification apparatus, speaker classification method, and speaker classification program | |
US11632345B1 (en) | Message management for communal account | |
JP5892598B2 (en) | Spoken character conversion work support device, phonetic character conversion system, phonetic character conversion work support method, and program | |
Al-Hadithy et al. | Speaker Diarization based on Deep Learning Techniques: A Review | |
JP2012108262A (en) | Interaction content extraction apparatus, interaction content extraction method, program therefor and recording medium | |
Bharti et al. | An approach for audio/text summary generation from webinars/online meetings | |
KR102274275B1 (en) | Application and method for generating text link | |
Thi et al. | An Automatic Pipeline For Building Emotional Speech Dataset | |
CN113689861B (en) | Intelligent track dividing method, device and system for mono call recording |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140328 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150310 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5713782 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |