JP2012226651A - Information processing apparatus, information processing method, and program - Google Patents

Information processing apparatus, information processing method, and program Download PDF

Info

Publication number
JP2012226651A
JP2012226651A JP2011095056A JP2011095056A JP2012226651A JP 2012226651 A JP2012226651 A JP 2012226651A JP 2011095056 A JP2011095056 A JP 2011095056A JP 2011095056 A JP2011095056 A JP 2011095056A JP 2012226651 A JP2012226651 A JP 2012226651A
Authority
JP
Japan
Prior art keywords
text data
specifying
speech
matching
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011095056A
Other languages
Japanese (ja)
Other versions
JP5713782B2 (en
JP2012226651A5 (en
Inventor
Tomonori Tanaka
友範 田中
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2011095056A priority Critical patent/JP5713782B2/en
Publication of JP2012226651A publication Critical patent/JP2012226651A/en
Publication of JP2012226651A5 publication Critical patent/JP2012226651A5/ja
Application granted granted Critical
Publication of JP5713782B2 publication Critical patent/JP5713782B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To specify a voice related to a specific part in minutes in, for example, a conference with high precision.SOLUTION: A voice conversion section 201 converts contents of a plurality of utterances into a plurality of pieces of first text data, and determines starting time of each of the utterances. A speaker specification section 202 specifies a speaker of each of the utterances. A text input section 206 receives second text data. An input time specification section 208 specifies input time of the second text data and the speaker corresponding to the second text data. A matching part specification section 204 matches the second text data with the plurality of pieces of first text data. A voice section specification section 205 specifies first text data corresponding to the second text data among the plurality of pieces of first text data on the basis of specification processes by the voice conversion section 201, the speaker specification section 202, the input time specification section 208, and the matching part specification section 204.

Description

本発明は、例えば会議の議事録中における特定の箇所に関連する音声を特定する技術に関するものである。   The present invention relates to a technique for specifying a voice related to a specific part in a meeting minutes, for example.

従来、音声認識で書き起こされた会議の議事録から、キーワードマッチングにより、入力されたキーワードに関連する箇所を特定する技術が知られている(例えば、特許文献1参照)。   2. Description of the Related Art Conventionally, a technique for identifying a location related to an input keyword by keyword matching from a meeting minutes transcribed by voice recognition is known (see, for example, Patent Document 1).

特開2002−99530号公報JP 2002-99530 A

議事録に書かれた内容の詳細を確認する場合には、会議中の音声を録音し、その音声の聴取を行っている。そしてユーザは、録音した全ての音声の聴取が多大な時間を必要とするため、議事録中の特定の箇所に関連する音声のみを聴取する必要がある。しかしながら、特許文献1に開示されるようなキーワードマッチングにおいては、入力されたキーワードが議事録中の広範囲に存在する場合は、関連する音声の特定が困難である。   When confirming the details of the contents written in the minutes, the voice during the meeting is recorded and the voice is listened to. And since the user needs a lot of time to listen to all the recorded sounds, it is necessary to listen only to the sounds related to a specific part in the minutes. However, in the keyword matching as disclosed in Patent Document 1, it is difficult to specify related speech when the input keyword exists in a wide range in the minutes.

そこで、本発明の目的は、例えば会議の議事録中における特定の箇所に関連する音声を、高い精度で特定することにある。   Therefore, an object of the present invention is to specify, for example, a voice related to a specific part in a meeting minutes with high accuracy.

本発明の情報処理装置は、複数の発言の内容を複数の第1のテキストデータに変換する変換手段と、前記各発言の開始時間及び前記各発言の発言者のうちの少なくとも何れか一つを特定する第1の特定手段と、第2のテキストデータを入力する入力手段と、前記第2のテキストデータの入力時間及び前記第2のテキストデータに対応する発言者のうちの少なくとも何れか一つを特定する第2の特定手段と、前記複数の第1のテキストデータと前記第2のテキストデータとをマッチングするマッチング手段と、前記第1の特定手段による特定処理の結果、前記第2の特定手段による特定処理の結果、及び、前記マッチング手段によるマッチング処理の結果に基づいて、前記複数の第1のテキストデータから前記第2のテキストデータに対応する第1のテキストデータを特定する第3の特定手段とを有することを特徴とする。   The information processing apparatus of the present invention includes at least one of conversion means for converting the contents of a plurality of utterances into a plurality of first text data, a start time of each utterance, and a speaker of each utterance. At least one of first specifying means for specifying, input means for inputting second text data, input time of the second text data, and a speaker corresponding to the second text data A second specifying means for specifying the second text data, a matching means for matching the plurality of first text data and the second text data, and a result of the specifying process by the first specifying means, as a result of the second specifying. Corresponding to the second text data from the plurality of first text data based on the result of the specific processing by the means and the result of the matching processing by the matching means And having a third specifying means for specifying one of the text data.

本発明によれば、例えば会議の議事録中における特定の箇所に関連する音声を、高い精度で特定することが可能となる。   ADVANTAGE OF THE INVENTION According to this invention, it becomes possible to specify the audio | voice relevant to the specific location in the minutes of a meeting, for example with high precision.

本発明の実施形態に係る情報処理システムの概観を示す図である。1 is a diagram showing an overview of an information processing system according to an embodiment of the present invention. 本発明の実施形態に係る情報処理システムの機能的な構成を示す図である。It is a figure which shows the functional structure of the information processing system which concerns on embodiment of this invention. 本発明の実施形態に係る情報処理システムのハードウエア構成を示す図である。It is a figure which shows the hardware constitutions of the information processing system which concerns on embodiment of this invention. 議事録の要約文に関連する音声区間(関連音声区間)を特定する処理を示すフローチャートである。It is a flowchart which shows the process which specifies the audio | voice area (related audio | voice area) relevant to the summary sentence of the minutes. 会議中に録音された音声の発言内容を示す図である。It is a figure which shows the utterance content of the audio | voice recorded during the meeting. ステップS401において、録音された音声から発言音声単位と発言開始時間とを特定した結果を示す図である。It is a figure which shows the result of having specified the speech audio | voice unit and the speech start time from the recorded audio | voice in step S401. ステップS402において発言音声単位の発言者が特定された結果を示す図である。It is a figure which shows the result by which the speaker of the speech voice unit was specified in step S402. 各発言音声単位におけるマッチング箇所の数を示す図である。It is a figure which shows the number of the matching parts in each speech audio | voice unit. ステップS403の詳細を示すフローチャートである。It is a flowchart which shows the detail of step S403. 議事録係によって作成される議事録、議事録から特定された要約文及び発言者、要約文入力時間の例を示す図である。It is a figure which shows the example of the minutes produced by the minutes clerk, the summary sentence specified from the minutes, the speaker, and the summary sentence input time. 図7(b)の701に示す要約文「会議で発表をする価値はある。」に対して、ストローク時間保持部がストローク時間を保持した例を示す図である。It is a figure which shows the example which the stroke time holding | maintenance part hold | maintained the stroke time with respect to the summary sentence "It is worth giving at a meeting." Shown to 701 of FIG.7 (b). 図7の701に示す要約文「会議で発表をする価値はある。」を形態素解析した結果を示す図である。It is a figure which shows the result of having carried out the morphological analysis of the summary sentence "It is worth giving at a meeting." Shown to 701 of FIG. ステップS405の処理の詳細を示すフローチャートである。It is a flowchart which shows the detail of the process of step S405. 発言音声単位の再生例を説明するための図である。It is a figure for demonstrating the example of reproduction | regeneration of the speech voice unit. 第2の実施形態における処理を示すフローチャートである。It is a flowchart which shows the process in 2nd Embodiment. 第3の実施形態における処理を示すフローチャートである。It is a flowchart which shows the process in 3rd Embodiment. 第4の実施形態における処理を示すフローチャートである。It is a flowchart which shows the process in 4th Embodiment.

以下、本発明を適用した好適な実施形態を、添付図面を参照しながら詳細に説明する。   DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments to which the invention is applied will be described in detail with reference to the accompanying drawings.

先ず、本発明の第1の実施形態について説明する。図1は、本発明の第1の実施形態に係る情報処理システムの概観を示す図である。本実施形態に係る情報処理システムは、音声変換機能と発言者特定機能とを備えている。また、本実施形態に係る情報処理システムは、各処理部の連携により効果を奏するものであるが、これに限らず、全ての処理部を一体的に備えた情報処理装置も本発明に適用可能である。   First, a first embodiment of the present invention will be described. FIG. 1 is a diagram showing an overview of an information processing system according to the first embodiment of the present invention. The information processing system according to the present embodiment includes a voice conversion function and a speaker specifying function. In addition, the information processing system according to the present embodiment is effective due to the cooperation of the processing units. However, the present invention is not limited to this, and an information processing device integrally including all processing units is also applicable to the present invention. It is.

図1に示す情報処理システムは、主にマイク101及びPC102から構成される。発言者103〜107により会議が行われると、マイク101は発言者103〜107により発言された音声を録音する。議事録係108は、PC102を用いて、発言内容の要約文を入力して会議の議事録を作成する。ここでは、要約文の集合を会議の議事録とする。また、説明の便宜上、以下では発言者103〜107の名前を「佐藤」、「田中」、「鈴木」、「伊藤」、「大川」とする。   The information processing system shown in FIG. 1 mainly includes a microphone 101 and a PC 102. When the conference is performed by the speakers 103 to 107, the microphone 101 records the voices spoken by the speakers 103 to 107. The minutes clerk 108 uses the PC 102 to input a summary of the content of the statement and create a meeting minutes. Here, a set of summary sentences is used as the minutes of the meeting. Further, for convenience of explanation, the names of the speakers 103 to 107 are hereinafter referred to as “Sato”, “Tanaka”, “Suzuki”, “Ito”, and “Okawa”.

図2は、本実施形態に係る情報処理システムの機能的な構成を示す図である。図2において、音声変換部201は、マイク101によって録音された発言内容をテキストに変換する。発言者特定部202は、マイク101によって録音された発言内容の発言者を特定する。入力部203は、PC102に相当する構成であり、議事録係108によって会議の発言内容の要約文及び発言者が入力される。マッチング箇所特定部204は、発言内容と要約文とのテキストマッチングを行い、互いに一致する箇所(以下、マッチング箇所と称す)を特定する。音声区間特定部205は、発言時間、要約文入力時間、マッチング箇所及び発言者の情報を用いて、要約文に関連する音声区間を特定する。入力部203は、テキストとして要約文を入力するテキスト入力部206、要約文のストローク時間を保持するストローク時間保持部207、ストローク時間を用いて要約文の入力を開始した時間を特定する入力時間特定部208を備える。なお、以下の説明では、議事録の要約文に関連する音声区間を関連音声区間と称することがある。   FIG. 2 is a diagram illustrating a functional configuration of the information processing system according to the present embodiment. In FIG. 2, the voice conversion unit 201 converts the utterance content recorded by the microphone 101 into text. The speaker specifying unit 202 specifies a speaker of the content of the speech recorded by the microphone 101. The input unit 203 has a configuration corresponding to the PC 102, and a summary sentence and a speaker of the conference speech content are input by the minutes clerk 108. The matching part specifying unit 204 performs text matching between the utterance content and the summary sentence, and specifies a part that matches each other (hereinafter referred to as a matching part). The speech section specifying unit 205 specifies a speech section related to the summary sentence using the speech time, the summary sentence input time, the matching portion, and the information of the speaker. The input unit 203 includes a text input unit 206 that inputs a summary sentence as text, a stroke time holding unit 207 that holds a stroke time of the summary sentence, and an input time specification that specifies a time when the summary sentence is input using the stroke time. The unit 208 is provided. In the following description, a voice section related to the summary sentence of the minutes may be referred to as a related voice section.

図3は、本実施形態に係る情報処理システムのハードウエア構成を示す図である。CPU301は、プログラムに従って、本実施形態の各動作手順を実現するよう動作する。RAM302は、上記プログラムの動作に必要な記憶領域を提供する。ROM303は、上記プログラムの動作手順を実現するプログラムやデータベース等を保持する。音声入力装置304は、マイク101に相当し、発言者103〜107により発言された音声を録音する。テキスト入力装置306は、PC102に相当し、議事録係108の操作に応じて発言内容の要約文を入力する。音声再生装置305は、音声区間特定部205によって特定された関連音声区間に相当する音声を出力する。なお、テキスト入力装置306によって入力された要約文には、当該要約文が入力された時間情報が付与されている。上記各処理部は、バス307を介してデータをやりとりする。   FIG. 3 is a diagram illustrating a hardware configuration of the information processing system according to the present embodiment. The CPU 301 operates according to a program so as to realize each operation procedure of the present embodiment. The RAM 302 provides a storage area necessary for the operation of the program. The ROM 303 holds a program, a database, and the like that realize the operation procedure of the program. The voice input device 304 corresponds to the microphone 101 and records voices spoken by the speakers 103 to 107. The text input device 306 corresponds to the PC 102 and inputs a summary sentence of the content of the utterance according to the operation of the minutes clerk 108. The audio playback device 305 outputs audio corresponding to the related audio segment specified by the audio segment specifying unit 205. The summary sentence input by the text input device 306 is given time information when the summary sentence is input. Each processing unit exchanges data via the bus 307.

図4は、議事録の要約文に関連する音声区間(関連音声区間)を特定する処理を示すフローチャートである。以下、図4を参照しながら、本実施形態に係る情報処理システムの処理について説明する。   FIG. 4 is a flowchart showing a process of specifying a voice section (related voice section) related to the summary sentence of the minutes. Hereinafter, the processing of the information processing system according to the present embodiment will be described with reference to FIG.

ステップS401において、音声区間特定部205は、録音された音声から、実際に発言のあった音声(以下、発言音声単位と称す)を検出し、発言音声単位が開始された時間(以下、発言開始時間と称す)を特定する。録音された音声は、例えば、22.05KHzでサンプリングされたWAVEデータであり、PCM方式で外部記憶装置に保存される。本実施形態においては、発言音声単位の検出には音声区間検出の技術を用いる。ここでは、音声区間検出の技術により検出された発言音声区間に相当する音声を発言音声単位とする。なお、音声区間検出の技術は公知なので詳細な説明は省略する。   In step S401, the voice segment identification unit 205 detects the voice that actually made a speech (hereinafter referred to as a speech voice unit) from the recorded voice, and the time when the speech voice unit was started (hereinafter referred to as speech start). (Referred to as time). The recorded voice is, for example, WAVE data sampled at 22.05 KHz, and is stored in the external storage device by the PCM method. In the present embodiment, a technique for detecting a voice section is used for detecting a speech voice unit. Here, the speech corresponding to the speech segment detected by the speech segment detection technique is set as the speech unit. In addition, since the technique of speech area detection is well-known, detailed description is abbreviate | omitted.

また、WAVEデータのヘッダ部分には録音された時間が書き込まれており、音声区間特定部205は、この情報から発言開始時間を特定する。音声変換部201は、発言音声単位をテキストに変換する。発言音声単位からテキストへの変換は音声認識の技術が用いられる。本実施形態では、予め様々な会議に関連した語彙の音声データをモデルとしてRAM302に記憶させておくことにより音声認識を行う。なお、音声認識の技術は公知なので詳細な説明は省略する。また、音声変換部201により生成されるテキストは、第1のテキストデータの適用例である。   In addition, the recorded time is written in the header portion of the WAVE data, and the speech section specifying unit 205 specifies the speech start time from this information. The voice conversion unit 201 converts a speech voice unit into text. A speech recognition technique is used to convert the speech unit into text. In the present embodiment, speech recognition is performed by previously storing speech data of vocabulary related to various meetings in the RAM 302 as a model. In addition, since the technique of voice recognition is well-known, detailed description is abbreviate | omitted. The text generated by the voice conversion unit 201 is an application example of the first text data.

図5Aは、会議中に録音された音声の発言内容を示す図である。図5Bは、ステップS401において、録音された音声から発言音声単位と発言開始時間とを特定した結果を示す図である。即ち、図5Bにおける「発言音声単位」の列には、発言音声単位の特定結果が列挙されている。また、図5Bにおける「発言開始時間」の列には、発言音声単位毎の発言開始時間が列挙されている。また、図5Bにおける「発言内容変換結果」の列には、各発言音声単位をテキストに変換した結果が列挙されている。現在の音声認識の技術は、音声を完全にテキストに変換できる精度にはない。よって、図5Bにおける「発言内容変換結果」の列に示すように誤認識が起こる。なお、変換されるテキストの候補がない音声に関しては、空白となっている。また、以下の説明において、発言音声単位をテキストに変換した結果を、発言内容変換結果と称することがある。   FIG. 5A is a diagram showing the content of speech recorded during a conference. FIG. 5B is a diagram illustrating a result of specifying the speech voice unit and the speech start time from the recorded voice in step S401. That is, in the column of “speech speech unit” in FIG. 5B, specific results of speech speech units are listed. Further, in the column of “speech start time” in FIG. 5B, the speech start time for each speech sound unit is listed. In the column of “speech content conversion result” in FIG. 5B, the results of converting each speech unit into text are listed. Current speech recognition technology is not accurate enough to completely convert speech to text. Therefore, misrecognition occurs as shown in the column “conversion result of speech” in FIG. 5B. Note that a voice that has no text candidate to be converted is blank. Moreover, in the following description, the result of converting a speech unit into text may be referred to as a speech content conversion result.

ステップS402において、発言者特定部202は、ステップS401で検出された発言音声単位の発言者を特定する。本実施形態では、発言者の特定には話者認識の技術を用いる。話者認識の技術では、発言者103〜107の声の特徴をモデルとして予めRAM302に記憶させておき、発言音声単位から得られる音声特徴量とモデルとを照合することにより、話者を認識する。なお、話者認識の技術は公知なので詳細な説明は省略する。図5Cは、ステップS402において発言音声単位の発言者が特定された結果を示す図である。即ち、図5Cにおける「発言者」の列には、ステップS402において特定された発言音声単位の発言者が列挙されている。なお、ステップS401における発言開始時間の特定処理、ステップS402における発言者の特定処理は、第1の特定手段の処理例である。   In step S402, the speaker identifying unit 202 identifies the speaker in units of speech voice detected in step S401. In this embodiment, a speaker recognition technique is used to specify a speaker. In the speaker recognition technique, the voice characteristics of the speakers 103 to 107 are stored in the RAM 302 in advance as a model, and the speaker is recognized by collating the voice feature amount obtained from the speech voice unit with the model. . In addition, since the technique of speaker recognition is well-known, detailed description is abbreviate | omitted. FIG. 5C is a diagram illustrating a result of identifying a speaker in units of speech in step S402. That is, the “speaker” column in FIG. 5C lists the speakers in units of speech voices identified in step S402. Note that the speech start time specifying processing in step S401 and the speaker specifying processing in step S402 are processing examples of the first specifying means.

ステップS403において、議事録係108が入力部203より要約文及び発言者を入力する。ここで、図6を参照しながら、ステップS403について詳細に説明する。図6は、ステップS403の詳細を示すフローチャートである。   In step S403, the minutes clerk 108 inputs a summary sentence and a speaker from the input unit 203. Here, step S403 will be described in detail with reference to FIG. FIG. 6 is a flowchart showing details of step S403.

ステップS601において、入力部203のテキスト入力部206は、議事録係108の操作に応じて、議事録として発言内容の要約文及び発言者をテキストで入力する。図7(a)は、議事録係108がテキストを入力することによって作成された議事録の例を示している。本実施形態では、記号「・」の後に続く一文が要約文として特定されるとともに、要約文の文末の「(」と「)」の記号で囲まれた文字列がその要約文の発言者として特定される。図7(b)は、作成された議事録から特定された要約文及び発言者を示している。なお、テキスト入力部206は、第1の入力手段の適用例となる構成であり、テキスト入力部206により入力されるテキストは、第2のテキストデータである。   In step S <b> 601, the text input unit 206 of the input unit 203 inputs a summary sentence of the utterance content and a speaker as text in accordance with the operation of the minutes clerk 108. FIG. 7A shows an example of the minutes created by the minutes clerk 108 inputting text. In the present embodiment, a sentence following the symbol “•” is specified as a summary sentence, and a character string surrounded by symbols “(” and “)” at the end of the summary sentence is used as a speaker of the summary sentence. Identified. FIG. 7B shows a summary sentence and a speaker identified from the created minutes. Note that the text input unit 206 has a configuration as an application example of the first input unit, and the text input by the text input unit 206 is second text data.

ステップS602において、入力部203のストローク時間保持部207は、ステップS601で入力された要約文のストローク時間を保持する。本実施形態におけるストローク時間保持部207は、要約文を構成する1文字をストローク単位とし、各ストローク単位の1文字の入力が開始された時間(ストローク時間)を記録する。図8は、図7(b)の701に示す要約文「会議で発表をする価値はある。」に対して、ストローク時間保持部207がストローク時間を保持した例を示す図である。   In step S602, the stroke time holding unit 207 of the input unit 203 holds the stroke time of the summary sentence input in step S601. The stroke time holding unit 207 in the present embodiment records one character constituting the summary sentence as a stroke unit, and records the time (stroke time) when the input of one character in each stroke unit is started. FIG. 8 is a diagram showing an example in which the stroke time holding unit 207 holds the stroke time for the summary sentence “It is worth presenting at the meeting” shown at 701 in FIG. 7B.

ステップS603において、入力部203の入力時間特定部208は、ステップS602の結果から要約文の入力を開始した時間(以下、要約文入力時間と称す)を特定する。各要約文の一番先頭のストローク単位のストローク時間が要約文入力時間となる。要約文「会議で発表をする価値はある。」については、ストローク単位の「会」のストローク時間である「8時04分50秒」が要約文入力時間となる。図7(c)における「要約文入力時間」の列には、ステップS601で入力された各要約文に対して特定された要約文入力時間が列挙されている。従って、ステップS403においては、例えば図7(a)に示す議事録が入力されると、図7(c)に示すように要約文入力時間、要約文及び発言者が特定される。なお、入力時間特定部208は、第2の特定手段の適用例となる構成である。   In step S603, the input time specifying unit 208 of the input unit 203 specifies the time when the input of the summary sentence is started from the result of step S602 (hereinafter referred to as the summary sentence input time). The stroke time in the first stroke unit of each summary sentence is the summary sentence input time. For the summary sentence “It is worth presenting at the meeting.”, “8:04:50”, which is the stroke time of the “meeting” in units of strokes, is the summary sentence input time. In the column of “summary sentence input time” in FIG. 7C, the summary sentence input times specified for each summary sentence input in step S601 are listed. Therefore, in step S403, for example, when the minutes shown in FIG. 7A are input, the summary sentence input time, the summary sentence, and the speaker are specified as shown in FIG. 7C. The input time specifying unit 208 is a configuration serving as an application example of the second specifying unit.

ステップS404において、マッチング箇所特定部204は、ステップS401で変換されたテキストとステップS403で入力された要約文との間でテキストマッチングを行い、マッチング箇所を特定する。ここで、テキストマッチングについて具体的に説明する。先ず、マッチング箇所特定部204は図7(b)の要約文を形態素解析する。図9は、図7(b)の701に示す要約文「会議で発表をする価値はある。」を形態素解析した結果を示す図である。要約文701は単語1〜単語8に単語分割され、各単語の品詞が特定される。そしてマッチング箇所特定部204は、図5Cの発言内容変換結果の中から、品詞が名詞と特定された「会議」、「発表」及び「価値」の単語を検索する。マッチング箇所特定部204は、このように検索した単語の箇所をマッチング箇所とする。なお、テキストマッチングの代替手段として概念辞書等を用いて、意味の近い単語の箇所をマッチング箇所としてもよい。図5Dは、各発言音声単位におけるマッチング箇所の数を示す図である。   In step S404, the matching part specifying unit 204 performs text matching between the text converted in step S401 and the summary sentence input in step S403, and specifies a matching part. Here, the text matching will be specifically described. First, the matching part specifying unit 204 performs morphological analysis on the summary sentence in FIG. FIG. 9 is a diagram showing a result of a morphological analysis of the summary sentence “It is worth presenting at a meeting” shown at 701 in FIG. 7B. The summary sentence 701 is divided into words 1 to 8 and the part of speech of each word is specified. Then, the matching part specifying unit 204 searches the words “conference”, “announcement”, and “value” in which the part of speech is specified as a noun from the result of conversion of the content of the speech in FIG. 5C. The matching location specifying unit 204 sets the location of the searched word as a matching location. Note that a concept dictionary or the like may be used as an alternative means of text matching, and a word part having a close meaning may be used as a matching part. FIG. 5D is a diagram showing the number of matching points in each speech unit.

ステップS405において、音声区間特定部205は、発言開始時間、要約文入力時間、マッチング箇所及び発言者の情報を用いて、ステップS403で入力された要約文に関連する音声区間(関連音声区間)を特定する。ここで、図10を参照しながら、ステップS405について詳細に説明する。図10は、ステップS405の処理の詳細を示すフローチャートである。以下、図10を参照しながら、図7(b)の要約文701に関連する音声区間(関連音声区間)を特定する例について説明する。なお、音声区間特定部205は、第3の特定手段の適用例となる構成である。   In step S405, the speech section specifying unit 205 uses the speech start time, the summary sentence input time, the matching part, and the information of the speaker to determine a speech section (related speech section) related to the summary sentence input in step S403. Identify. Here, step S405 will be described in detail with reference to FIG. FIG. 10 is a flowchart showing details of the process in step S405. Hereinafter, an example in which a speech section (related speech section) related to the summary sentence 701 in FIG. 7B is specified will be described with reference to FIG. Note that the speech segment identification unit 205 is a configuration that is an application example of the third identification unit.

ステップS1001において、音声区間特定部205は、ステップS401とステップS403との結果から時間情報対象区間を特定する。ここでは、図7(b)の要約文701の要約文入力時間(8時04分50秒)から、所定の時間内(ここでは2分とする)にある発言音声単位を時間情報対象区間とする。即ち、図5Cにおいて、発言音声単位501〜517のうち、8時04分50秒から8時02分50秒の間にある発言音声単位511〜515が時間情報対象区間となる。ステップS1002において、音声区間特定部205は、ステップS402とステップS403との結果から発言者情報対象区間を特定する。ここでは、要約文701で入力された発言者(佐藤)が発言した発言音声単位を発言者情報対象区間とする。即ち、図5Cにおいて、発言音声単位501〜517のうち、発言者(佐藤)が発言した発言音声単位501、505、513、515が発言者情報対象区間となる。   In step S1001, the speech section specifying unit 205 specifies a time information target section from the results of steps S401 and S403. Here, from the summary sentence input time (8:04:50) of the summary sentence 701 in FIG. 7B, speech speech units within a predetermined time (here, 2 minutes) are defined as the time information target section. To do. That is, in FIG. 5C, speech speech units 511 to 515 between 8:04:50 and 8:02:50 among speech speech units 501 to 517 are time information target sections. In step S1002, the speech section specifying unit 205 specifies the speaker information target section from the results of steps S402 and S403. Here, the speech unit that is spoken by the speaker (Sato) input in the summary sentence 701 is set as the speaker information target section. That is, in FIG. 5C, among the speech units 501 to 517, speech units 501, 505, 513, and 515 uttered by the speaker (Sato) are the speaker information target sections.

ステップS1003において、音声区間特定部205は、ステップS404の結果からマッチング箇所情報対象区間を特定する。ここでは、各発言音声単位におけるマッチング箇所の数が第1の閾値(ここでは2とする)以上であった発言音声単位をマッチング箇所情報対象区間とする。即ち、図5Dにおいて、発言音声単位501〜517のうち、マッチング箇所が第1の閾値以上である発言音声単位503、505、507、513、515、516がマッチング箇所情報対象区間として特定される。   In step S1003, the speech section specifying unit 205 specifies the matching part information target section from the result of step S404. Here, a speech unit whose number of matching points in each speech unit is equal to or more than a first threshold (here, 2) is set as a matching part information target section. That is, in FIG. 5D, speech speech units 503, 505, 507, 513, 515, and 516 whose matching locations are equal to or greater than the first threshold among speech speech units 501 to 517 are identified as matching location information target sections.

ステップS1004において、音声区間特定部205は、ステップS1001〜S1003の結果から関連音声区間を特定する。ここでは、時間情報対象区間と発言者情報対象区間とマッチング箇所情報対象区間とが重なり合う(アンドとなる)発言音声単位を関連音声区間とする。即ち、ステップS405では、発言音声単位513、515が関連音声区間として特定される。   In step S1004, the speech section specifying unit 205 specifies a related speech section from the results of steps S1001 to S1003. Here, the speech information unit in which the time information target section, the speaker information target section, and the matching location information target section overlap (become AND) is set as the related speech section. That is, in step S405, speech voice units 513 and 515 are specified as related voice sections.

よって、ステップS401〜ステップS405の処理により、キーワードマッチングに加えて時間情報と発言者情報とを用いることにより、議事録中の要約文に関連する音声区間を高い精度で特定することができる。具体的な上記情報処理システムの用途として、会議終了後に、議事録に書かれた要約文の詳細を、音声を再生させて確認したい場合が挙げられる。例えば、図11において、PC1101の画面1102に議事録を表示させ、図7の要約文701に相当する箇所1104をマウス1103でクリックすると、発言音声単位513、515が再生される。また、上記情報処理システムでは、会議を例に説明したが、発言者の発言内容が録音可能であれば、講演や授業等のいかなる形態にも適用できる。   Therefore, by using the time information and the speaker information in addition to the keyword matching by the processing of step S401 to step S405, it is possible to specify the speech section related to the summary sentence in the minutes with high accuracy. As a specific application of the information processing system, there is a case where the details of the summary sentence written in the minutes are desired to be played back after the meeting is finished. For example, in FIG. 11, when the minutes are displayed on the screen 1102 of the PC 1101 and the portion 1104 corresponding to the summary sentence 701 in FIG. 7 is clicked with the mouse 1103, the speech units 513 and 515 are reproduced. In the information processing system described above, a conference has been described as an example. However, the present invention can be applied to any form such as a lecture or a class as long as the content of a speaker can be recorded.

次に、本発明の第2の実施形態について説明する。第2の実施形態においては、関連音声区間に隣接する発言音声単位を関連音声区間に含めるか否かを判定するため、図10のステップS1004の後に図12に示す処理を実行する。以下、図12に示す処理について説明する。なお、第2の実施形態に係る情報処理システムの構成は、第1の実施形態に係る情報処理システムの構成と同様であるため、第1の実施形態と同一符号を用いて説明する。   Next, a second embodiment of the present invention will be described. In the second embodiment, the processing shown in FIG. 12 is executed after step S1004 of FIG. 10 in order to determine whether or not the speech unit adjacent to the related speech section is included in the related speech section. Hereinafter, the process illustrated in FIG. 12 will be described. Note that the configuration of the information processing system according to the second embodiment is the same as the configuration of the information processing system according to the first embodiment, and thus will be described using the same reference numerals as those in the first embodiment.

ステップS1201において、音声区間特定部205は、特定した関連音声区間に隣接する発言音声単位(以下、隣接発言音声単位と称す)において、ステップS404で得られたマッチング箇所の数が設定された第2の閾値(ここでは2とする)以上であるか否かを判定する。マッチング箇所の数が第2の閾値以上である場合、処理はステップS1202に移行する。一方、マッチング箇所の数が第2の閾値未満である場合、処理は終了する。ステップS1202において、音声区間特定部205は、特定した関連音声区間に隣接発言音声単位を含める。本実施形態では、隣接発言音声単位516におけるマッチング箇所の数が2以上であれば、隣接発言音声単位516を関連音声区間に含めるようにしている。従って、ステップS1004において関連音声区間として特定されなくとも、関連性が高い可能性のあるマッチング箇所の数が第2の閾値以上あると、隣接発言音声単位が関連音声区間に含まれることになる。   In step S1201, the speech segment specifying unit 205 sets the number of matching points obtained in step S404 in the speech unit adjacent to the identified related speech segment (hereinafter referred to as the adjacent speech unit). It is determined whether or not it is equal to or greater than a threshold value (here, 2). If the number of matching points is equal to or greater than the second threshold, the process proceeds to step S1202. On the other hand, if the number of matching points is less than the second threshold, the process ends. In step S1202, the speech segment specifying unit 205 includes the adjacent speech unit in the specified related speech segment. In the present embodiment, if the number of matching points in the adjacent speech unit 516 is two or more, the adjacent speech unit 516 is included in the related speech section. Therefore, even if it is not specified as the related speech section in step S1004, if the number of matching points that are likely to be highly relevant is equal to or greater than the second threshold, the adjacent speech unit is included in the related speech section.

次に、本発明の第3の実施形態について説明する。第3の実施形態においては、ステップS405で特定された図7(b)の要約文701の関連音声区間が複数ある場合、ステップS1004の後に図13に示す処理を実行する。以下、図13に示す処理について説明する。なお、第3の実施形態に係る情報処理システムの構成は、第1の実施形態に係る情報処理システムの構成と同様であるため、第1の実施形態と同一符号を用いて説明する。   Next, a third embodiment of the present invention will be described. In the third embodiment, when there are a plurality of related speech sections of the summary sentence 701 in FIG. 7B specified in step S405, the process shown in FIG. 13 is executed after step S1004. Hereinafter, the process illustrated in FIG. 13 will be described. Note that the configuration of the information processing system according to the third embodiment is the same as the configuration of the information processing system according to the first embodiment, and therefore will be described using the same reference numerals as those in the first embodiment.

ステップS1301において、音声区間特定部205は、特定した関連音声区間が複数あるか否かを判定する。関連音声区間が複数ある場合、処理はステップS1302に移行する。一方、関連音声区間が複数ない場合、処理は終了する。要約文701については、発言音声単位513、515が関連音声区間として特定されているので、処理はステップS1302に移行する。   In step S1301, the speech segment identification unit 205 determines whether there are a plurality of identified related speech segments. If there are a plurality of related speech sections, the process proceeds to step S1302. On the other hand, when there are not a plurality of related speech sections, the process ends. For the summary sentence 701, the speech voice units 513 and 515 are specified as the related voice section, and the process proceeds to step S1302.

ステップS1302において、音声区間特定部205は、特定した複数の関連音声区間の間に位置する隣接発言音声単位について設定された第2の閾値を下げる。ここでは、隣接発言音声単位514の第2の閾値を2から1に下げるものとする。ステップS1303において、音声区間特定部205は、隣接発言音声単位において、ステップS404で得られたマッチング箇所の数がステップS1302で設定された第2の閾値以上であるか否かを判定する。マッチング箇所の数が第2の閾値以上である場合、処理はステップS1304に移行する。一方、マッチング箇所の数が第2の閾値未満である場合、処理は終了する。隣接発言音声単位514は、特定された複数の関連音声区間の間にあるので第2の閾値は1に設定される。従って、隣接発言音声単位514については、マッチング箇所の数は1であるので、処理はステップS1304に移行する。また、隣接発言音声単位512のマッチング箇所の数は、第2の閾値未満であるため、処理は終了する。一方、隣接発言音声単位516のマッチング箇所の数は、第2の閾値以上であるため、処理はステップS1304に移行する。   In step S <b> 1302, the speech segment specifying unit 205 lowers the second threshold set for the adjacent speech speech units located between the plurality of specified related speech segments. Here, it is assumed that the second threshold value of the adjacent speech unit 514 is lowered from 2 to 1. In step S1303, the speech section specifying unit 205 determines whether or not the number of matching points obtained in step S404 is equal to or greater than the second threshold set in step S1302 in adjacent speech units. If the number of matching points is equal to or greater than the second threshold, the process proceeds to step S1304. On the other hand, if the number of matching points is less than the second threshold, the process ends. Since the adjacent speech unit 514 is between a plurality of specified related speech sections, the second threshold is set to 1. Accordingly, for the adjacent speech unit 514, the number of matching points is 1, so the process moves to step S1304. Moreover, since the number of matching parts of the adjacent speech unit 512 is less than the second threshold value, the process ends. On the other hand, since the number of matching points in the adjacent speech unit 516 is equal to or greater than the second threshold, the process proceeds to step S1304.

ステップS1304において、音声区間特定部205は、隣接発言音声単位をステップS1004で特定された関連音声区間に含める。従って、ステップS1004で関連音声区間と特定されなくとも、関連音声区間の間にある隣接発言音声単位については、より高い確率で隣接発言音声単位が関連音声区間に含まれることになる。   In step S1304, the speech segment specifying unit 205 includes the adjacent speech unit in the related speech segment specified in step S1004. Therefore, even if it is not specified as the related speech section in step S1004, the adjacent speech sound units between the related speech sections are included in the related speech section with a higher probability.

次に、本発明の第4の実施形態について説明する。第4の実施形態においては、ステップS403で入力された図7(b)の要約文701の発言者が複数である場合、図10のステップS1004の後に図14に示す処理を実行する。以下、図14に示す処理について説明する。なお、第4の実施形態に係る情報処理システムの構成は、第1の実施形態に係る情報処理システムの構成と同様であるため、第1の実施形態と同一符号を用いて説明する。   Next, a fourth embodiment of the present invention will be described. In the fourth embodiment, when there are a plurality of speakers in the summary sentence 701 in FIG. 7B input in step S403, the processing shown in FIG. 14 is executed after step S1004 in FIG. Hereinafter, the process illustrated in FIG. 14 will be described. Note that the configuration of the information processing system according to the fourth embodiment is the same as the configuration of the information processing system according to the first embodiment, and therefore will be described using the same reference numerals as those in the first embodiment.

ステップS1401において、音声区間特定部205は、ステップS403で入力された要約文の発言者は複数であるか否かを判定する。要約文の発言者が複数である場合、処理はステップS1402に移行する。一方、要約文の発言者が複数ではない場合、処理は終了する。ステップS1402において、音声区間特定部205は、特定した関連音声区間の隣接発言音声単位の発言者が、ステップS403で入力された要約文の発言者であるか否かを判定する。入力された要約文の発言者である場合、処理はステップS1403に移行する。一方、入力された要約文の発言者でない場合、処理は終了する。ステップS1403において、音声区間特定部205は、隣接発言音声単位をステップS1004で特定された関連音声区間に含める。   In step S1401, the speech section identification unit 205 determines whether there are a plurality of speakers in the summary sentence input in step S403. If there are a plurality of speakers in the summary sentence, the process proceeds to step S1402. On the other hand, if there are not a plurality of speakers in the summary sentence, the process ends. In step S1402, the speech segment specifying unit 205 determines whether or not the speaker in the adjacent speech unit of the specified related speech segment is the speaker of the summary sentence input in step S403. If the speaker is an input summary sentence, the process proceeds to step S1403. On the other hand, if the speaker is not a speaker of the input summary sentence, the process ends. In step S1403, the speech segment specifying unit 205 includes the adjacent speech unit in the related speech segment specified in step S1004.

例えば、図7(a)に示す議事録において、「・会議で発表をする価値はある。(佐藤)」が「・会議で発表をする価値はある。(佐藤、鈴木)」と記入されていたとする。要約文701の発言者は、佐藤と鈴木になる。なお、「(」と「)」の記号で囲まれ、「、」の記号で区切られた文字列がその要約文の発言者として特定される。ステップS1002で特定された発言者情報対象区間は、発言音声単位501、503、505、506、508、510、513、515、516となるが、ステップS1004の結果(発言音声単位513、515)は変わらない。しかしながら、隣接発言音声単位516の発言者が鈴木であるので、隣接発言音声単位516が関連音声区間に含まれることになる。よって、ステップS1004で関連音声区間と特定されなくとも、議事録係が記入した発言者に関連する音声区間を高い精度で特定することができる。よって、ステップS1004で関連音声区間と特定されなくとも、関連性が高い可能性のある議事録係が記入した発言者の隣接発言音声単位が関連音声区間に含まれることになる。   For example, in the minutes shown in Fig. 7 (a), "・ It is worth making a presentation at a meeting (Sato)" is written as "・ It is worth making a presentation at a meeting (Sato, Suzuki)". Suppose. The speakers of the summary sentence 701 are Sato and Suzuki. A character string surrounded by “(” and “)” symbols and separated by “,” symbols is specified as a speaker of the summary sentence. The speaker information target section specified in step S1002 is speech voice units 501, 503, 505, 506, 508, 510, 513, 515, and 516. The result of step S1004 (speech voice units 513 and 515) is does not change. However, since the speaker of the adjacent speech unit 516 is Suzuki, the adjacent speech unit 516 is included in the related speech section. Therefore, even if it is not specified as the related speech section in step S1004, the speech section related to the speaker entered by the minuteskeeper can be specified with high accuracy. Therefore, even if it is not specified as the related voice section in step S1004, the adjacent speech voice unit of the speaker entered by the minutes clerk who may be highly relevant is included in the related voice section.

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。   The present invention can also be realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and a computer (or CPU, MPU, or the like) of the system or apparatus reads the program. It is a process to be executed.

201:音声変換部、202:発言者特定部、203:入力部、204:マッチング箇所特定部、205:音声区間特定部、206:テキスト入力部、207:ストローク時間保持部、208:入力時間特定部   201: Voice conversion unit, 202: Speaker specifying unit, 203: Input unit, 204: Matching part specifying unit, 205: Voice segment specifying unit, 206: Text input unit, 207: Stroke time holding unit, 208: Input time specifying Part

Claims (9)

複数の発言の内容を複数の第1のテキストデータに変換する変換手段と、
前記各発言の開始時間及び前記各発言の発言者のうちの少なくとも何れか一つを特定する第1の特定手段と、
第2のテキストデータを入力する入力手段と、
前記第2のテキストデータの入力時間及び前記第2のテキストデータに対応する発言者のうちの少なくとも何れか一つを特定する第2の特定手段と、
前記複数の第1のテキストデータと前記第2のテキストデータとをマッチングするマッチング手段と、
前記第1の特定手段による特定処理の結果、前記第2の特定手段による特定処理の結果、及び、前記マッチング手段によるマッチング処理の結果に基づいて、前記複数の第1のテキストデータから前記第2のテキストデータに対応する第1のテキストデータを特定する第3の特定手段とを有することを特徴とする情報処理装置。
Conversion means for converting the contents of a plurality of comments into a plurality of first text data;
First specifying means for specifying at least one of the start time of each comment and the speaker of each comment;
Input means for inputting second text data;
Second specifying means for specifying at least one of an input time of the second text data and a speaker corresponding to the second text data;
Matching means for matching the plurality of first text data and the second text data;
Based on the result of the specifying process by the first specifying unit, the result of the specifying process by the second specifying unit, and the result of the matching process by the matching unit, the second text data is obtained from the plurality of first text data. An information processing apparatus comprising: third specifying means for specifying first text data corresponding to the text data.
前記第3の特定手段は、前記複数の第1のテキストデータのうち、前記第2のテキストデータの入力時間から所定の時間内における開始時間の発言に対応するデータを、前記第2のテキストデータに対応する前記第1のテキストデータとして特定することを特徴とする請求項1に記載の情報処理装置。   The third specifying means uses the second text data as data corresponding to a statement of a start time within a predetermined time from the input time of the second text data among the plurality of first text data. The information processing apparatus according to claim 1, wherein the information processing apparatus identifies the first text data corresponding to the first text data. 前記第3の特定手段は、前記複数の第1のテキストデータのうち、前記第2のテキストデータに対応する発言者の発言に対応するデータを、前記第2のテキストデータに対応する前記第1のテキストデータとして特定することを特徴とする請求項1又は2に記載の情報処理装置。   The third specifying means uses the first text data corresponding to the second text data as data corresponding to a speech of a speaker corresponding to the second text data, out of the plurality of first text data. The information processing apparatus according to claim 1, wherein the information processing apparatus is specified as text data. 前記第3の特定手段は、前記複数の第1のテキストデータのうち、前記マッチング手段のマッチング処理により前記第2のテキストデータと一致した箇所の数が第1の閾値以上であるデータを、前記第2のテキストデータに対応する前記第1のテキストデータとして特定することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。   The third specifying means includes, among the plurality of first text data, data in which the number of locations that match the second text data by the matching process of the matching means is equal to or greater than a first threshold value, 4. The information processing apparatus according to claim 1, wherein the information processing apparatus is specified as the first text data corresponding to second text data. 5. 前記第3の特定手段は、前記第2のテキストデータに対応する前記第1のテキストデータに隣接する第1のテキストデータのうち、前記マッチング手段のマッチング処理により前記第2のテキストデータと一致した箇所の数が第2の閾値以上であるデータを、前記第2のテキストデータに対応する前記第1のテキストデータとして含めることを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。   The third specifying means matches the second text data by the matching process of the matching means among the first text data adjacent to the first text data corresponding to the second text data. The information according to any one of claims 1 to 4, wherein data having a number of places equal to or greater than a second threshold is included as the first text data corresponding to the second text data. Processing equipment. 前記第3の特定手段は、前記第2のテキストデータに対応する前記第1のテキストデータを複数特定した場合、当該複数の第1のテキストデータの間に位置し、且つ当該複数の第1のテキストデータに隣接する第1のテキストデータについては前記第2の閾値を下げることを特徴とする請求項5に記載の情報処理装置。   When the plurality of first text data corresponding to the second text data are specified, the third specifying means is located between the plurality of first text data, and the plurality of first text data The information processing apparatus according to claim 5, wherein the second threshold value is lowered for the first text data adjacent to the text data. 前記第3の特定手段は、前記第2のテキストデータに対応する発言者が複数であり、且つ、前記第2のテキストデータに対応する前記第1のテキストデータに隣接する第1のテキストデータに対応する発言者が、前記第2のテキストデータに対応する発言者である場合、当該隣接する第1のテキストデータを前記第2のテキストデータに対応する前記第1のテキストデータとして含めることを特徴とする請求項5に記載の情報処理装置。   The third specifying means includes a plurality of speakers corresponding to the second text data, and the first text data adjacent to the first text data corresponding to the second text data. When the corresponding speaker is a speaker corresponding to the second text data, the adjacent first text data is included as the first text data corresponding to the second text data. The information processing apparatus according to claim 5. 情報処理装置によって実行される情報処理方法であって、
複数の発言の内容を複数の第1のテキストデータに変換する変換ステップと、
前記各発言の開始時間及び前記各発言の発言者のうちの少なくとも何れか一つを特定する第1の特定ステップと、
第2のテキストデータを入力する入力ステップと、
前記第2のテキストデータの入力時間及び前記第2のテキストデータに対応する発言者のうちの少なくとも何れか一つを特定する第2の特定ステップと、
前記複数の第1のテキストデータと前記第2のテキストデータとをマッチングするマッチングステップと、
前記第1の特定ステップによる特定処理の結果、前記第2の特定ステップによる特定処理の結果、及び、前記マッチングステップによるマッチング処理の結果に基づいて、前記複数の第1のテキストデータから前記第2のテキストデータに対応する第1のテキストデータを特定する第3の特定ステップとを含むことを特徴とする情報処理方法。
An information processing method executed by an information processing apparatus,
A conversion step of converting the contents of a plurality of comments into a plurality of first text data;
A first specifying step of specifying at least one of a start time of each utterance and a speaker of each utterance;
An input step for inputting second text data;
A second specifying step of specifying at least one of an input time of the second text data and a speaker corresponding to the second text data;
A matching step for matching the plurality of first text data and the second text data;
Based on the result of the specifying process by the first specifying step, the result of the specifying process by the second specifying step, and the result of the matching process by the matching step, the second text data is obtained from the plurality of first text data. And a third specifying step of specifying first text data corresponding to the text data.
複数の発言の内容を複数の第1のテキストデータに変換する変換ステップと、
前記各発言の開始時間及び前記各発言の発言者のうちの少なくとも何れか一つを特定する第1の特定ステップと、
第2のテキストデータを入力する入力ステップと、
前記第2のテキストデータの入力時間及び前記第2のテキストデータに対応する発言者のうちの少なくとも何れか一つを特定する第2の特定ステップと、
前記複数の第1のテキストデータと前記第2のテキストデータとをマッチングするマッチングステップと、
前記第1の特定ステップによる特定処理の結果、前記第2の特定ステップによる特定処理の結果、及び、前記マッチングステップによるマッチング処理の結果に基づいて、前記複数の第1のテキストデータから前記第2のテキストデータに対応する第1のテキストデータを特定する第3の特定ステップとをコンピュータに実行させるためのプログラム。
A conversion step of converting the contents of a plurality of comments into a plurality of first text data;
A first specifying step of specifying at least one of a start time of each utterance and a speaker of each utterance;
An input step for inputting second text data;
A second specifying step of specifying at least one of an input time of the second text data and a speaker corresponding to the second text data;
A matching step for matching the plurality of first text data and the second text data;
Based on the result of the specifying process by the first specifying step, the result of the specifying process by the second specifying step, and the result of the matching process by the matching step, the second text data is obtained from the plurality of first text data. A program for causing a computer to execute a third specifying step of specifying first text data corresponding to the text data.
JP2011095056A 2011-04-21 2011-04-21 Information processing apparatus, information processing method, and program Active JP5713782B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011095056A JP5713782B2 (en) 2011-04-21 2011-04-21 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011095056A JP5713782B2 (en) 2011-04-21 2011-04-21 Information processing apparatus, information processing method, and program

Publications (3)

Publication Number Publication Date
JP2012226651A true JP2012226651A (en) 2012-11-15
JP2012226651A5 JP2012226651A5 (en) 2014-05-15
JP5713782B2 JP5713782B2 (en) 2015-05-07

Family

ID=47276722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011095056A Active JP5713782B2 (en) 2011-04-21 2011-04-21 Information processing apparatus, information processing method, and program

Country Status (1)

Country Link
JP (1) JP5713782B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014222290A (en) * 2013-05-13 2014-11-27 キヤノン株式会社 Minute recording device, minute recording method, and program
JP2015169834A (en) * 2014-03-07 2015-09-28 富士通株式会社 Speech analysis method, speech analysis program, and speech analysis device
JP7347597B2 (en) 2018-06-20 2023-09-20 カシオ計算機株式会社 Video editing device, video editing method and program

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008172582A (en) * 2007-01-12 2008-07-24 Ricoh Co Ltd Minutes generating and reproducing apparatus
JP2009122839A (en) * 2007-11-13 2009-06-04 Sharp Corp Electronic conference support system
JP2010108296A (en) * 2008-10-30 2010-05-13 Canon Inc Information processor and information processing method
JP2010134681A (en) * 2008-12-04 2010-06-17 Ricoh Co Ltd Lecture material preparation support system, lecture material preparation support method and lecture material preparation support program
JP2010238050A (en) * 2009-03-31 2010-10-21 Nec Corp Browsing system and method, and program
JP2011070416A (en) * 2009-09-25 2011-04-07 Fujitsu Ltd Device and program for supplementing minutes, device and program for outputting minute
JP2011075707A (en) * 2009-09-29 2011-04-14 Nec Corp Information analysis device and method, and program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008172582A (en) * 2007-01-12 2008-07-24 Ricoh Co Ltd Minutes generating and reproducing apparatus
JP2009122839A (en) * 2007-11-13 2009-06-04 Sharp Corp Electronic conference support system
JP2010108296A (en) * 2008-10-30 2010-05-13 Canon Inc Information processor and information processing method
JP2010134681A (en) * 2008-12-04 2010-06-17 Ricoh Co Ltd Lecture material preparation support system, lecture material preparation support method and lecture material preparation support program
JP2010238050A (en) * 2009-03-31 2010-10-21 Nec Corp Browsing system and method, and program
JP2011070416A (en) * 2009-09-25 2011-04-07 Fujitsu Ltd Device and program for supplementing minutes, device and program for outputting minute
JP2011075707A (en) * 2009-09-29 2011-04-14 Nec Corp Information analysis device and method, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014222290A (en) * 2013-05-13 2014-11-27 キヤノン株式会社 Minute recording device, minute recording method, and program
JP2015169834A (en) * 2014-03-07 2015-09-28 富士通株式会社 Speech analysis method, speech analysis program, and speech analysis device
JP7347597B2 (en) 2018-06-20 2023-09-20 カシオ計算機株式会社 Video editing device, video editing method and program

Also Published As

Publication number Publication date
JP5713782B2 (en) 2015-05-07

Similar Documents

Publication Publication Date Title
TWI543150B (en) Method, computer-readable storage device, and system for providing voice stream augmented note taking
US8301447B2 (en) Associating source information with phonetic indices
JP6074050B2 (en) Voice search system, voice search method, and computer-readable storage medium
US20210232776A1 (en) Method for recording and outputting conversion between multiple parties using speech recognition technology, and device therefor
JP2018017936A (en) Voice interactive device, server device, voice interactive method, voice processing method and program
JP5779032B2 (en) Speaker classification apparatus, speaker classification method, and speaker classification program
JP2014063088A (en) Voice recognition device, voice recognition system, voice recognition method and voice recognition program
JP2013534650A (en) Correcting voice quality in conversations on the voice channel
JP5753769B2 (en) Voice data retrieval system and program therefor
JP2010060850A (en) Minute preparation support device, minute preparation support method, program for supporting minute preparation and minute preparation support system
JP2013195823A (en) Interaction support device, interaction support method and interaction support program
JP2014222290A (en) Minute recording device, minute recording method, and program
JP5099211B2 (en) Voice data question utterance extraction program, method and apparatus, and customer inquiry tendency estimation processing program, method and apparatus using voice data question utterance
JP5073024B2 (en) Spoken dialogue device
JP5713782B2 (en) Information processing apparatus, information processing method, and program
JP5997813B2 (en) Speaker classification apparatus, speaker classification method, and speaker classification program
JP2021009253A (en) Program, information processing device, and information processing method
JP2014134640A (en) Transcription device and program
Bharti et al. An approach for audio/text summary generation from webinars/online meetings
US11632345B1 (en) Message management for communal account
JP2011113426A (en) Dictionary generation device, dictionary generating program, and dictionary generation method
KR102274275B1 (en) Application and method for generating text link
JP2008107641A (en) Voice data retrieving apparatus
CN113689861B (en) Intelligent track dividing method, device and system for mono call recording
US20230325612A1 (en) Multi-platform voice analysis and translation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150310

R151 Written notification of patent or utility model registration

Ref document number: 5713782

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151