JP2015169834A - Speech analysis method, speech analysis program, and speech analysis device - Google Patents
Speech analysis method, speech analysis program, and speech analysis device Download PDFInfo
- Publication number
- JP2015169834A JP2015169834A JP2014045555A JP2014045555A JP2015169834A JP 2015169834 A JP2015169834 A JP 2015169834A JP 2014045555 A JP2014045555 A JP 2014045555A JP 2014045555 A JP2014045555 A JP 2014045555A JP 2015169834 A JP2015169834 A JP 2015169834A
- Authority
- JP
- Japan
- Prior art keywords
- section
- words
- word
- sections
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
本件は、音声分析方法、音声分析プログラム、及び音声分析装置に関する。 The present invention relates to a voice analysis method, a voice analysis program, and a voice analysis apparatus.
音声及び映像の記録再生技術の進歩に伴って、会議の様子が記録された音声データまたは映像データを高い臨場感で再生するとともに、議事録の参照を可能とする議事録システムが普及している。利用者(会議の欠席者など)は、議事録システムを使用することにより、会議の詳細な内容を知ることができる。 With the advancement of audio and video recording / playback technology, the minutes system that allows users to refer to the minutes as well as to reproduce the audio data or video data recorded in the meeting with a high sense of presence. . Users (such as those who are absent from the conference) can know the detailed content of the conference by using the minutes system.
議事録システムに関し、例えば特許文献1には、音声データまたは映像データを、単語同士の類似性に基づいて、文書データに対応付ける点が記載されている。
Regarding the minutes system, for example,
会議の音声データを議事録のテキストに対応付けることにより、利用者は、音声内容に対応する議事録の記載箇所を随時、参照できるため、議事録システムの利便性が向上する。しかし、音声データの対応付けが的確性を欠けば、利用者は、かえって会議内容の把握が困難になる。なお、このような問題は、議事録システムだけでなく、講演会や講義などを記録及び再生する他のシステムに関しても存在する。 By associating the audio data of the meeting with the text of the minutes, the user can refer to the description location of the minutes corresponding to the audio contents at any time, so that the convenience of the minutes system is improved. However, if the correspondence of the audio data is not accurate, the user becomes difficult to grasp the contents of the meeting. Such a problem exists not only in the minutes system but also in other systems that record and reproduce lectures and lectures.
そこで本件は上記の課題に鑑みてなされたものであり、音声データをテキストに的確に対応付ける音声分析方法、音声分析プログラム、及び音声分析装置を提供することを目的とする。 Accordingly, the present invention has been made in view of the above problems, and an object thereof is to provide a speech analysis method, a speech analysis program, and a speech analysis device that accurately associate speech data with text.
本明細書に記載の音声分析方法は、音声データを複数の区間に分割する工程と、テキストから複数の単語を抽出する工程と、抽出した前記複数の単語に基づき、前記複数の区間の音声認識をそれぞれ行う工程と、抽出した前記複数の単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択する工程と、前記複数の区間から、前記基準単語の音声が認識された区間を選択する工程と、該選択した区間から、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された1以上の区間を、前記テキストに対応する第1区間として選択する工程と、前記第1区間と隣接する区間を起点として、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された区間の範囲を検出し、前記範囲内の区間を、前記テキストに対応する第2区間として選択する工程とを、コンピュータが実行する。 The speech analysis method described in this specification includes a step of dividing speech data into a plurality of sections, a step of extracting a plurality of words from text, and speech recognition of the plurality of sections based on the extracted plurality of words. Respectively, a step of selecting one or more words having a certain level of ease of speech recognition or certainty as a reference word from the plurality of extracted words, and the reference word from the plurality of sections. Selecting a section in which the voice of the word is recognized, and one or more sections in which the voices of words other than the reference word are recognized among the plurality of words from the selected section corresponding to the text. The step of selecting as one section, and the section adjacent to the first section as a starting point, the range of the section in which the speech of words other than the reference word is recognized among the plurality of words, Between, and selecting as a second section corresponding to said text, computer executes.
本明細書に記載の音声分析プログラムは、音声データを複数の区間に分割し、テキストから複数の単語を抽出し、抽出した前記複数の単語に基づき、前記複数の区間の音声認識をそれぞれ行い、抽出した前記複数の単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択し、前記複数の区間から、前記基準単語の音声が認識された区間を選択し、該選択した区間から、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された1以上の区間を、前記テキストに対応する第1区間として選択し、前記第1区間と隣接する区間を起点として、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された区間の範囲を検出し、前記範囲内の区間を、前記テキストに対応する第2区間として選択する、処理とを、コンピュータに実行させる。 The speech analysis program described in the present specification divides speech data into a plurality of sections, extracts a plurality of words from text, performs speech recognition of the plurality of sections based on the extracted plurality of words, From the plurality of extracted words, one or more words having a certain level of ease or certainty of speech recognition are selected as reference words, and a section in which the voice of the reference word is recognized from the plurality of sections. Selecting one or more sections in which the speech of words other than the reference word among the plurality of words is recognized as the first section corresponding to the text from the selected section, and the first section And a range of a section in which the speech of a word other than the reference word is recognized among the plurality of words, and a section within the range is defined as a second section corresponding to the text. Selecting Te, and processing, it causes the computer to execute.
本明細書に記載の音声分析装置は、音声データを複数の区間に分割する分割部と、テキストから複数の単語を抽出する抽出部と、抽出した前記複数の単語に基づき、前記複数の区間の音声認識をそれぞれ行う音声認識処理部と、抽出した前記複数の単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択する第1選択部と、前記複数の区間から、前記基準単語の音声が認識された区間を選択する第2選択部と、該選択した区間から、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された1以上の区間を、前記テキストに対応する第1区間として選択する第3選択部と、前記第1区間と隣接する区間を起点として、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された区間の範囲を検出し、前記範囲内の区間を、前記テキストに対応する第2区間として選択する第4選択部とを有する。 The speech analysis device described in the present specification includes a dividing unit that divides speech data into a plurality of sections, an extraction unit that extracts a plurality of words from text, and a plurality of sections based on the extracted plurality of words. A speech recognition processing unit that performs speech recognition, a first selection unit that selects, as a reference word, one or more words that have a certain level of ease or certainty of speech recognition from the plurality of extracted words; A second selection unit that selects a section in which the voice of the reference word is recognized from a plurality of sections, and a voice of a word other than the reference word among the plurality of words is recognized from the selected section. A voice of words other than the reference word among the plurality of words starts from a third selection unit that selects the above section as a first section corresponding to the text, and a section adjacent to the first section. Recognized Detecting a range between, a section within the range, and a fourth selection unit for selecting as a second section corresponding to the text.
音声データをテキストに的確に対応付けることができる。 Audio data can be accurately associated with text.
図1は、実施例に係る音声分析装置1を示す構成図である。音声分析装置1は、会議などの音声データを音声認識処理により分析し、議事録などの文書データに対応付ける。
FIG. 1 is a configuration diagram illustrating a
音声分析装置1は、例えばサーバ装置などのコンピュータ装置である。音声分析装置1は、CPU10、ROM(Read Only Memory)11、RAM(Random Access Memory)12、HDD13、通信処理部14、可搬型記憶媒体用ドライブ15、入力処理部16、及び画像処理部17などを備えている。
The
CPU10は、演算処理手段であり、音声分析プログラムに従って、音声分析方法を実行する。CPU10は、各部11〜17とバス18を介して接続されている。なお、音声分析装置1は、ソフトウェアにより動作するものに限定されず、CPU10に代えて、特定用途向け集積回路などのハードウェアが用いられてもよい。
The
RAM12は、CPU10のワーキングメモリとして用いられる。また、ROM11及びHDD13は、CPU10を動作させる音声分析プログラムなどを記憶する記憶手段として用いられる。通信処理部14は、例えばネットワークカードであり、LANなどのネットワークを介して他の装置と通信を行う通信手段である。
The
可搬型記憶媒体用ドライブ15は、可搬型記憶媒体150に対して、情報の書き込みや情報の読み出しを行う装置である。可搬型記憶媒体150の例としては、USBメモリ(USB: Universal Serial Bus)、CD−R(Compact Disc Recordable)、及びメモリカードなどが挙げられる。なお、音声分析プログラムは、可搬型記憶媒体150に格納されてもよい。
The portable
音声分析装置1は、情報の入力操作を行うための入力デバイス160、及び、画像を表示するためのディスプレイ170を、さらに備える。入力デバイス160は、キーボード及びマウスなどの入力手段であり、入力された情報は、入力処理部16を介してCPU10に出力される。ディスプレイ170は、液晶ディスプレイなどの画像表示手段であり、表示される画像データは、CPU10から画像処理部17を介してディスプレイに出力される。なお、入力デバイス160及びディスプレイ170に代えて、これらの機能を備えるタッチパネルなどのデバイスを用いることもできる。
The
CPU10は、ROM11、またはHDD13などに格納されているプログラム、または可搬型記憶媒体用ドライブ15が可搬型記憶媒体150から読み取ったプログラムを実行する。このプログラムには、OS(Operating System)だけでなく、上記の音声分析プログラムも含まれる。なお、プログラムは、他の装置から通信処理部14を介してダウンロードされたものであってもよい。
The
CPU10は、音声分析プログラムを実行すると、複数の機能が形成される。以下に、音声分析装置1の機能を説明する。
When the
図2は、音声分析装置1の機能構成例を示す構成図である。図2には、CPU10に形成される機能及びHDD13の格納情報の一例が示されている。
FIG. 2 is a configuration diagram illustrating an example of a functional configuration of the
CPU10は、文書データ分割部101と、単語抽出部(抽出部)102と、基準単語選択部(第1選択部)103と、音声認識処理部104と、音声データ分割部(分割部)105とを有する。CPU10は、さらに、主区間候補選択部(第2選択部)106と、主区間選択部(第3選択部)107と、副区間選択部(第4選択部)108とを有する。HDD13には、文書データベース(文書DB)131と、辞書データベース(辞書DB)132と、抽出単語データベース(抽出単語DB)133と、音声データベース(音声DB)134と、分析結果データベース(分析結果DB)135とが格納されている。
The
なお、各データベース131〜135は、他の装置の記憶手段(HDDなど)に記憶されてもよい。この場合、CPU10は、通信処理部14からネットワークを介して各データベース131〜135にアクセスする。
Each
文書DB131は、入力デバイス160から入力された文書データ、または可搬型記憶媒体150から可搬型記憶媒体用ドライブ15を介して入力された文書データを含む。本例では、文書データとして、会議の議事録を挙げるが、これに限定されない。
The
文書データ分割部101は、文書DB131内の文書データを複数のテキスト(テキストデータ)に分割する。文書データ分割部101は、例えば、文書データから、複数の個別のテキストを生成することにより、または、文書データに、文書内のテキスト同士を区切るための目印を付与することにより、文書データを分割する。
The document
図3(a)及び図3(b)には、文書データ及び分割後の文書データの一例がそれぞれ示されている。文書データ分割部101は、例えば、議事録の文章中の改行、字下げ(インデント)、または空行を、テキスト間の境界として、文書データを分割する。これにより、議事録の文章「夏季合宿について、・・・次回は来週金曜日。」は、複数のテキスト(A)〜(C)に分割される。文書データ分割部101は、文書データの分割処理の完了を単語抽出部102に通知する。
FIG. 3A and FIG. 3B show examples of document data and divided document data, respectively. The document
単語抽出部102は、文書データの分割処理の完了通知を受けると、辞書DB132を参照することにより、各テキスト(A)〜(C)から単語を抽出する。辞書DB132には、複数の単語が登録されている。単語抽出部102は、抽出した単語を、テキスト(A)〜(C)ごとに抽出単語DB133に登録する。
When the
図4には、抽出単語DB133の一例が示されている。図4において、「テキスト」は、テキストの識別情報(本例ではA〜C)を示し、「単語」は、抽出された単語を示す。なお、「基準フラグ」及び「音声データ区間」については後述する。
FIG. 4 shows an example of the extracted
本例では、テキスト(A)から、「夏季」、「合宿」、「意見」、「募集」、「金曜日」、及び「香川」が抽出される。また、テキスト(B)からは、「秋」、「試験期間」、「3号館」、「出入り」、「場合」、「事前」、「佐川」、及び「連絡」が抽出され、テキスト(C)からは、「次回」、「来週」、及び「金曜日」が抽出される。抽出された単語は、後述するように、音声データの音声認識処理及び各テキスト(A)〜(C)への対応付けに用いられる。単語抽出部102は、単語の抽出処理の完了を基準単語選択部103に通知する。
In this example, “summer season”, “training camp”, “opinion”, “recruitment”, “Friday”, and “Kagawa” are extracted from the text (A). Also, from the text (B), “autumn”, “test period”, “building 3”, “in / out”, “case”, “previous”, “Sagawa”, and “contact” are extracted, and the text (C ), “Next time”, “next week”, and “Friday” are extracted. As will be described later, the extracted words are used for speech recognition processing of speech data and association with each text (A) to (C). The
基準単語選択部103は、単語の抽出処理の完了通知を受けると、テキスト(A)〜(C)ごとに、抽出した単語から一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択する。基準単語は、後述するように、テキスト(A)〜(C)に対応する音声データの主区間を選択するために用いられる。
When the reference
より具体的には、基準単語選択部103は、抽出した複数の単語から、モーラ数が最多または一定数以上である1以上の単語を、基準単語として選択する。ここで、モーラ数とは、音節数、つまり単語に含まれる母音及び“n”の音数である。
More specifically, the reference
本例では、基準単語選択部103は、モーラ数が5以上である単語を基準単語として選択する。このため、テキスト(A)及び(B)内の「金曜日」(モーラ数=5)と、テキスト(C)内の「3号館」(モーラ数=6)とが、基準単語として選択される。基準単語選択部103は、選択した基準単語を抽出単語DB133に登録する。
In this example, the reference
図4に例示された抽出単語DB133内の「基準フラグ」は、「1」の場合、当該単語が基準単語であることを示し、「0」の場合、当該単語が基準単語ではないことを示す。したがって、テキスト(A)の欄において、「金曜日」の「基準フラグ」は「1」を示し、他の単語の「基準フラグ」は「0」を示す。また、テキスト(B)の欄において、「3号館」の「基準フラグ」は「1」を示し、他の単語の「基準フラグ」は「0」を示す。テキスト(C)の欄において、「金曜日」の「基準フラグ」は「1」を示し、他の単語の「基準フラグ」は「0」を示す。
The “reference flag” in the extracted
このように、モーラ数を用いることにより、テキスト(A)〜(C)から抽出した複数の単語から、音声認識が容易な単語を簡単に検出できる。なお、基準単語の選択手段は、これに限定されない。 Thus, by using the number of mora, it is possible to easily detect a word that can be easily recognized from a plurality of words extracted from the texts (A) to (C). The reference word selection means is not limited to this.
基準単語選択部103は、音声認識における単語らしさを示すスコアが最多または一定値以上である1以上の単語を、基準単語として選択してもよい。スコアは、確率モデルを用いたモデルにおいて、例えば、動的計画法などを用いて算出された単語モデルと音声のパラメータ間距離の逆数などを用いて算出される。したがって、この場合、基準単語選択部103は、単語のスコアを音声認識処理部104から取得する。これにより、テキスト(A)〜(C)から抽出した複数の単語から、音声認識の結果の確実性が高い単語を簡単に検出できる。なお、基準単語選択部103は、モーラ数及びスコアの両方に基づいて、基準単語を選択してもよい。基準単語選択部103は、基準単語の選択処理の完了を主区間候補選択部106に通知する。
The reference
音声DB134は、他の装置から通信処理部14を介して入力された音声データ、または可搬型記憶媒体150から可搬型記憶媒体用ドライブ15を介して入力された音声データを含む。本例では、音声データとして、IC(Integrated Circuit)レコーダなどにより記録された会議の音声データを挙げるが、これに限定されず、例えば映像データに含まれる音声データであってもよい。なお、文書DB131内の文書データの内容(議事録)は、音声データが示す会議内容に従って作成される。
The
音声データ分割部105は、音声DB134内の音声データを複数の区間に分割する。音声データ分割部105は、例えば、音声データを、区間ごとの個別のデータに分離することにより、または、音声データに、区間同士を区切るための目印を付与することにより、音声データを分割する。
The audio
図5(a)及び図5(b)には、音声データの分割例(1)及び分割例(2)がそれぞれ示さている。図5(a)及び図5(b)に示された音声データの波形は、時間に対する音声の強さの変化を示す。 FIG. 5A and FIG. 5B show a division example (1) and a division example (2) of audio data, respectively. The waveform of the audio data shown in FIGS. 5A and 5B shows a change in the strength of the sound with respect to time.
分割例(1)において、音声データ分割部105は、一定時間Tごとに音声データを分割することにより、音声データの区間(1)〜(3)を取得する。分割例(1)の手法によれば、音声データの各区間(1)〜(3)のデータ量を均等にできる。
In the division example (1), the voice
また、分割例(2)において、音声データ分割部105は、音声データから、所定時間以上継続する無音区間Mを検出し、音声データを無音区間Mにより区切ることで、音声データの区間(1)〜(3)を取得する。分割例(2)の手法によれば、音声データの各区間(1)〜(3)のデータ量を、一文程度とすることができる。
Also, in the division example (2), the voice
このように、音声データの分割は、文書データの分割に対応して行われるわけではないため、音声分析装置1は、テキスト及び音声データの区間を、必ずしも1対1の関係で対応付けるわけではない。つまり、1つのテキストに音声データの複数の区間が対応付けられる場合や、音声データの異なる区間が、同一のテキストに対応付けられる場合も存在する。
As described above, since the division of the voice data is not performed corresponding to the division of the document data, the
図6(a)及び図6(b)には、音声データ及び分割後の音声データがそれぞれ示されている。本例において、音声データ分割部105は、上記の分割例(2)の手法により音声データを分割するが、これに限定されず、例えば、上記の分割例(1)の手法を用いてもよい。なお、図6(a)及び図6(b)には、音声データの音声が、文字として表現されている。
FIGS. 6A and 6B show the audio data and the divided audio data, respectively. In this example, the audio
音声データ分割部105は、音声データが示す音声「今年も夏季の合宿を開催します。・・・次回の会議は来週の金曜日に行います。」を区間(1)〜(4)に分割する。分割処理は、一定時間の無音区間を検出することにより行われるため、音声は、一文を単位として分割される。
The voice
このため、音声データの区間(1)には、「今年も夏季の合宿を開催します。」の音声が含まれ、音声データの区間(2)には、「行先、やりたい事など・・・伝えてください。」の音声が含まれる。また、音声データの区間(3)には、「秋の試験期間中は、・・・連絡するようにしてください。」の音声が含まれ、音声データの区間(4)には、「次回の会議は来週の金曜日に行います。」の音声が含まれる。 For this reason, the voice data section (1) includes the voice of “I will hold a summer camp this year”, and the voice data section (2) contains “Destination, what I want to do… Please tell me ". In addition, the voice data section (3) includes the voice “Please contact me during the fall test period.” The voice data section (4) The meeting will be held next Friday. "
音声認識処理部104は、テキスト(A)〜(C)から抽出した複数の単語に基づき、音声データの分割により得た複数の区間の音声認識をそれぞれ行う。音声認識処理には、例えば、隠れマルコフモデルを用いた確率モデルの方法などが用いられる。音声認識処理部104は、抽出単語DB133を参照し、テキスト(A)〜(C)ごとに、抽出された単語の音声が、音声データの区間(1)〜(4)で認識されるか否かを判定し、判定結果を抽出単語DB133に登録する。
The speech
図4に例示された抽出単語DB133において、「音声データ区間」欄の「1」〜「4」欄は、音声データの区間(1)〜(4)における各単語の音声認識の有無(「1」:音声認識有り、「0」:音声認識無し)をそれぞれ示す。例えば、テキスト(A)内の「夏季」及び「合宿」の音声は、音声データの区間(1)で認識されるが、他の区間(2)〜(4)では認識されない。このため、テキスト(A)内の「夏季」及び「合宿」に対応する「音声データ区間」欄の「1」欄は、それぞれ「1」を示し、当該「音声データ区間」欄の「2」〜「4」欄は、それぞれ「0」を示す。音声認識処理部104は、音声認識処理が完了を主区間候補選択部106に通知する。
In the extracted
音声分析装置1は、音声データの各区間(1)〜(4)の音声認識の判定結果が登録された抽出単語DB133を参照することにより、各テキスト(A)〜(C)に音声データの区間(1)〜(4)を対応付ける。ここで、仮に、対応付けを上記の基準単語のみに基づいて行った場合、以下の問題が生ずる。
The
図7には、テキスト(A)及び(B)と音声データの区間(1)〜(3)の対応付けの比較例が示されている。本例において、音声データの区間(2)は、基準単語の「金曜日」(点線枠参照)の音声を含むため、「金曜日」(点線枠参照)を含むテキスト(A)に対応付けられる(丸印参照)。音声データの区間(3)は、基準単語の「3号館」(点線枠参照)の音声を含むため、「3号館」(点線枠参照)を含むテキスト(B)に対応付けられる(丸印参照)。 FIG. 7 shows a comparative example of correspondence between texts (A) and (B) and sections (1) to (3) of voice data. In this example, the section (2) of the voice data includes the voice of the reference word “Friday” (see the dotted frame), and is associated with the text (A) including “Friday” (see the dotted frame) (circle). See sign). The section (3) of the voice data includes the voice of the reference word “Building No. 3” (see the dotted frame) and is associated with the text (B) including “No. 3 Building” (see the dotted frame) (see the circle). ).
しかし、音声データの区間(1)は、基準単語の「金曜日」及び「3号館」の何れの音声も含んでいないため、音声データの区間(1)の音声の内容が、テキスト(A)の内容と共通するにも関わらず、テキスト(A)への対応付けができない。したがって、本例では、テキスト(A)に対応付けられる音声データの区間の範囲が、正確に特定されない。 However, since the voice data section (1) does not include the voices of the reference words “Friday” and “No. 3 building”, the voice content of the voice data section (1) is the text (A). Despite being in common with the content, it cannot be associated with the text (A). Therefore, in this example, the range of the voice data section associated with the text (A) is not accurately specified.
また、図8には、テキスト(A)〜(C)と音声データの区間(1)〜(4)の対応付けの他の比較例が示されている。本例において、音声データの区間(3)は、基準単語の「3号館」(点線枠参照)の音声を含むため、「3号館」(点線枠参照)を含むテキスト(B)に対応付けられる(丸印参照)。 FIG. 8 shows another comparative example in which texts (A) to (C) are associated with voice data sections (1) to (4). In this example, the section (3) of the voice data includes the voice of the reference word “Building No. 3” (refer to the dotted frame) and is therefore associated with the text (B) including “No. 3 Building” (refer to the dotted frame). (See circle).
しかし、基準単語の「金曜日」(点線枠参照)は、複数のテキスト(A),(B)及び音声データの複数の区間(2),(4)に含まれるため、音声データの区間(2),(4)を、テキスト(A),(B)の何れに対応付けるかの判定が困難である(「?」参照)。このように、基準単語が複数のテキスト(A),(B)及び音声データの複数の区間(2),(4)において重複する場合、テキスト及び音声データの区間の対応付けが困難である。 However, since the reference word “Friday” (see the dotted frame) is included in the plurality of texts (A) and (B) and the plurality of sections (2) and (4) of the voice data, the section (2 ), (4) is difficult to determine which of the texts (A), (B) is associated (see “?”). Thus, when the reference word overlaps in a plurality of texts (A) and (B) and a plurality of sections (2) and (4) of speech data, it is difficult to associate the sections of the text and speech data.
したがって、基準単語のみを用いた場合、テキスト(A)〜(C)及び音声データ(1)〜(4)の区間を的確に対応付けることができない。このため、音声分析装置1は、以下に述べるように、テキスト内の基準単語が音声認識された音声データの区間から、他の単語も音声認識された区間を、テキストに対応する主区間(第1区間)を選択する。さらに、音声分析装置1は、主区間と隣接する区間を起点として、基準単語以外の単語の音声が認識された区間の範囲を検出し、範囲内の区間を、テキストに対応する副区間(第2区間)として選択する。これにより、音声分析装置1は、音声データの主区間及び副区間をテキストに的確に対応付ける。
Therefore, when only the reference word is used, the sections of the texts (A) to (C) and the voice data (1) to (4) cannot be accurately associated. For this reason, as will be described below, the
主区間候補選択部106は、音声認識処理及び基準単語の選択処理の各完了通知を受けると、音声データの複数の区間(1)〜(4)から、基準単語の音声が認識された区間を、主区間の候補として選択する。より具体的には、主区間候補選択部106は、抽出単語DB133を参照することで、音声データの区間(1)〜(4)について、「基準フラグ」が「1」である単語の音声認識の有無を検出する。なお、主区間の候補の選択は、テキスト(A)〜(C)ごとに行われる。
When the main section
より具体的には、主区間候補選択部106は、「基準フラグ」が「1」である単語(基準単語)に対応する「音声データ区間」の「1」〜「4」欄のうち、「1」を示す欄を検出する。主区間候補選択部106は、例えば、テキスト(A)内の基準単語「金曜日」に対応する「音声データ区間」の「2」欄及び「4」欄を検出する。
More specifically, the main section
図9には、主区間の候補の選択の一例が示されている。図9は、図6に示された音声データの分割後に行われる主区間の候補の選択の様子を示す。 FIG. 9 shows an example of main section candidate selection. FIG. 9 shows how main section candidates are selected after the audio data shown in FIG. 6 is divided.
本例では、主区間候補選択部106は、テキスト(A)に対応する主区間の候補を選択する。テキスト(A)の基準単語である「金曜日」(点線枠参照)は、音声データの区間(2)及び区間(4)において音声認識される。このため、主区間候補選択部106は、音声データの区間(2),(4)を、テキスト(A)に対応する主区間の候補として選択する。
In this example, the main section
なお、テキスト(B)については、基準単語である「3号館」を含む音声データの区間は、区間(3)のみであるため、区間(3)が、テキスト(B)に対応する主区間の候補として選択される。また、テキスト(C)は、「金曜日」を含むため、テキスト(A)と同様に、音声データの区間(2),(4)が、テキスト(C)に対応する主区間の候補として選択される。主区間候補選択部106は、主区間の候補の選択処理の完了を、主区間選択部107に通知する。
As for the text (B), since the section of the audio data including the reference word “No. 3 building” is only the section (3), the section (3) is the main section corresponding to the text (B). Selected as a candidate. In addition, since the text (C) includes “Friday”, the sections (2) and (4) of the voice data are selected as candidates for the main section corresponding to the text (C), similarly to the text (A). The The main section
主区間選択部107は、主区間の候補の選択処理の完了通知を受けると、主区間の候補として選択された区間から、基準単語以外の単語の音声が認識された1以上の区間を、テキスト(A)〜(C)に対応する主区間として選択する。より具体的には、主区間選択部107は、抽出単語DB133を参照することで、主区間の候補として選択された音声データの区間(1)〜(4)について、「基準フラグ」が「0」である単語の音声認識の有無を検出する。なお、主区間の選択は、テキスト(A)〜(C)ごとに行われる。
When the main
図10には、主区間の選択の一例が示されている。図10は、図9に示された主区間の候補の選択後に行われる主区間の選択の様子を示す。 FIG. 10 shows an example of selection of the main section. FIG. 10 shows how the main section is selected after the main section candidates shown in FIG. 9 are selected.
本例では、主区間選択部107は、主区間の候補として選択された音声データの区間(2)及び区間(4)から、テキスト(A)に対応する主区間を選択する。テキスト(A)の基準単語(「金曜日」)以外の単語である「意見」及び「香川」(点線枠参照)は、音声データの区間(2)において音声認識されるが、音声データの区間(4)では音声認識されない。このため、主区間選択部107は、音声データの区間(2)を、テキスト(A)に対応する主区間として選択する(丸印参照)。また、音声データの区間(4)は、テキスト(A)と共通する基準単語以外の単語の音声が含まれないため、選択されない(×印参照)。
In this example, the main
このように、主区間選択部107は、テキスト(A)〜(C)に対応する音声データの主区間を、基準単語だけでなく、基準単語以外の単語にも基づいて選択する。したがって、音声分析装置1は、基準単語が複数のテキスト(A)〜(C)及び音声データ(1)〜(4)の複数の区間において重複する場合でも、図8に示された比較例とは異なり、テキスト及び音声データの区間の的確な対応付けが可能である。
As described above, the main
なお、テキスト(B)の基準単語である「3号館」は、音声データの区間(3)のみに含まれるため、区間(3)が、テキスト(B)に対応する主区間として選択される。テキスト(C)については、音声データの区間(4)が、テキスト(C)と共通する「次回」及び「来週」の音声を含むため、テキスト(C)に対応する主区間として選択される。 Note that “No. 3 building”, which is the reference word of the text (B), is included only in the section (3) of the audio data, so the section (3) is selected as the main section corresponding to the text (B). The text (C) is selected as the main section corresponding to the text (C) because the section (4) of the voice data includes the “next week” and “next week” voices common to the text (C).
上述したように、主区間選択部107は、主区間の候補として選択された音声データの区間(1)〜(4)から、テキスト(A)〜(C)と共通する基準単語以外の単語の音声認識の有無に基づいて、テキスト(A)〜(C)に対応する主区間を選択する。このとき、主区間選択部107は、主区間の候補から、テキスト(A)〜(C)内の複数の単語のうち、基準単語以外の単語の音声が最も多く認識された区間、または基準単語以外の単語の音声が一定数以上認識された1以上の区間を、主区間として選択してもよい。
As described above, the main
例えば、基準単語以外の単語の音声が3個以上認識された区間を、主区間として選択する場合、音声データの区間(2)は、音声認識できたテキスト(A)内の単語数が、「金曜日」を除くと、「意見」及び「香川」の2個だけであるので、主区間として選択されない。また、音声データの区間(4)は、音声認識できたテキスト(C)内の単語数が、「金曜日」を除くと、「次回」及び「来週」の2個だけであるので、主区間として選択されない。しかし、音声データの区間(3)は、音声認識できたテキスト(B)内の単語数が、「3号館」を除くと、「秋」、「試験期間」、「出入り」などの7個であるので、主区間として選択される。 For example, when a section in which three or more voices of words other than the reference word are recognized is selected as the main section, the number of words in the text (A) that can be recognized in the section (2) of the voice data is “ Excluding “Friday”, there are only two of “opinion” and “Kagawa”, so they are not selected as the main section. In addition, the section (4) of the voice data has only two words “next time” and “next week” except for “Friday” except for “Friday”. Not selected. However, in the section (3) of the speech data, the number of words in the text (B) that can be recognized by the speech is 7 such as “autumn”, “test period”, “in / out”, etc. Since there is, it is selected as the main section.
このように、基準単語以外の単語の音声が一定数以上認識された1以上の区間を主区間とすれば、主区間の選択を厳密に行うことができる。したがって、主区間の候補として選択された音声データの区間が多数存在する場合、主区間を高精度に選択することができる。この効果は、基準単語以外の単語の音声が最も多く認識された区間を主区間とする場合も、同様に得られる。 As described above, if one or more sections in which a certain number of words other than the reference word are recognized are set as the main section, the main section can be selected strictly. Therefore, when there are many sections of audio data selected as main section candidates, the main section can be selected with high accuracy. This effect can be obtained in the same way when the section in which the speech of words other than the reference word is recognized most is the main section.
なお、主区間選択部107は、主区間の選択の基準とする数値を、音声データの各区間(1)〜(4)に含まれる単語ごとに割り当ててもよい。この場合、例えば、モーラ数が大きい単語や当該テキスト(A)〜(B)のみに含まれる単語には、大きな数値を割り当て、他の単語には、小さい数値を割り当てることにより、テキスト(A)〜(B)に対応する主区間が、より正確に選択される。
The main
主区間選択部107は、選択した主区間を、当該テキスト(A)〜(C)に対応付けるために、分析結果DB135に登録する。より具体的には、主区間選択部107は、テキストの識別情報(本例ではA〜C)、及び主区間として選択した音声データの区間(1)〜(4)の識別情報(本例では1〜4)を、分析結果DB135に出力する。
The main
図11には、分析結果DB135の一例が示されている。図11において、「テキスト」は、テキストの識別情報(本例ではA〜C)を示す。また、「音声データ区間」欄の「1」〜「4」欄は、音声データの区間(1)〜(4)の各テキスト(A)〜(C)に対する対応関係の有無(「1」:対応関係有り、「0」:対応関係無し)をそれぞれ示す。
FIG. 11 shows an example of the
図11の例では、テキスト(A)に対応する「音声データ区間」欄の「1」〜「4」欄のうち、「1」欄及び「2」欄のみが「1」であるため、テキスト(A)に対応する音声データの区間は、区間(1)及び区間(2)であることが示されている。ここで、音声データの区間(1)は、上記の例において、主区間として選択されたものであるが、音声データの区間(2)は、後述する副区間として選択されたものである。 In the example of FIG. 11, among the “1” to “4” columns of the “voice data section” column corresponding to the text (A), only the “1” column and the “2” column are “1”. The sections of the audio data corresponding to (A) are shown as section (1) and section (2). Here, the section (1) of the voice data is selected as the main section in the above example, while the section (2) of the voice data is selected as the subsection described later.
また、図11の例では、上記の例に従い、テキスト(B)に対応する「音声データ区間」欄の「3」欄に、音声データの区間(3)が登録され、テキスト(C)に対応する「音声データ区間」欄の「4」欄に、音声データの区間(4)が登録されている。主区間選択部107は、主区間の登録後、主区間の選択処理の完了を副区間選択部108に通知する。
In the example of FIG. 11, according to the above example, the voice data section (3) is registered in the “3” column of the “voice data section” column corresponding to the text (B), and the text (C) is supported. The section (4) of voice data is registered in the “4” field of the “voice data section” field. After registering the main section, the main
副区間選択部108は、主区間の選択処理の完了通知を受けると、主区間と隣接する区間を起点として、テキスト(A)〜(C)内の複数の単語のうち、基準単語以外の単語の音声が認識された区間の範囲を検出する。そして、副区間選択部108は、検出した範囲内の区間を、テキスト(A)〜(C)に対応する副区間(第2区間)として選択する。つまり、副区間選択部108は、音声データの区間(1)〜(4)のうち、時系列上、主区間の前方及び後方に連なる各区間から、副区間に該当するものを検出する。
Upon receiving the notification of completion of the main section selection process, the
より具体的には、副区間選択部108は、抽出単語DB133を参照することで、主区間に隣接する区間(1)〜(4)から順次に、「基準フラグ」が「0」である単語の音声認識の有無を検出する。なお、副区間の選択は、テキスト(A)〜(C)ごとに行われる。
More specifically, the
図12には、副区間の選択の一例が示されている。図12は、図10に示された主区間の選択後に行われる副区間の選択の様子を示す。 FIG. 12 shows an example of selection of sub-intervals. FIG. 12 shows how the sub-section is selected after the main section shown in FIG. 10 is selected.
本例では、副区間選択部108は、テキスト(A)に対応する副区間を選択する。副区間選択部108は、テキスト(A)の主区間(2)に隣接する区間(1),(3)を起点として、テキスト(A)の基準単語以外の単語が音声認識された区間の範囲を検出する。
In this example, the
テキスト(A)の基準単語以外の単語である「夏季」及び「合宿」(点線枠参照)は、テキスト(A)の主区間(2)に隣接する区間(1)において音声認識される。このため、副区間選択部108は、音声データの区間(1)を、テキスト(A)に対応する副区間として選択する。(丸印参照)。
The words “summer season” and “camp” (see the dotted frame) other than the reference word of the text (A) are recognized by speech in the section (1) adjacent to the main section (2) of the text (A). For this reason, the
副区間選択部108は、副区間として選択した音声データの区間(1)にさらに隣接する区間が存在しないので、主区間の他方の隣接区間(3)について、基準単語以外の単語の音声認識の有無を検出する。しかし、音声データの区間(3)は、テキスト(A)と共通する基準単語以外の単語の音声が含まれないため、副区間として選択されない(×印参照)。このため、副区間選択部108は、副区間の範囲の検出を終了する。
Since there is no section further adjacent to the section (1) of the speech data selected as the subsection, the
このように、副区間選択部108は、テキスト(A)〜(C)に対応する音声データの副区間の範囲を、基準単語以外の単語に基づいて検出する。したがって、音声分析装置1は、基準単語の音声が認識されない音声データの区間(1)〜(4)でも、テキスト(A)〜(C)に対応付けることができる。これにより、音声分析装置1は、図7に示された比較例とは異なり、テキスト(A)〜(C)に対応付けられる音声データの区間の範囲を、正確に特定することが可能である。
As described above, the
また、テキスト(B)について、主区間である区間(3)に隣接する区間(2)及び区間(4)は、テキスト(B)と共通する単語の音声が含まれないため、副区間として選択されない。テキスト(C)については、テキスト(C)に対応する主区間(4)に隣接する区間(3)は、テキスト(C)と共通する単語の音声が含まれないため、副区間として選択されない。 In addition, for text (B), sections (2) and (4) adjacent to section (3), which is the main section, are selected as sub-sections because they do not contain the word speech common to text (B). Not. As for the text (C), the section (3) adjacent to the main section (4) corresponding to the text (C) is not selected as a sub-section because it does not include the word speech common to the text (C).
上述したように、副区間選択部108は、主区間と隣接する区間を起点として、テキスト(A)〜(C)内の基準単語以外の単語の音声が認識された区間の範囲を検出し、範囲内の区間を、テキスト(A)〜(C)に対応する副区間として選択する。このとき、副区間選択部108は、テキスト(A)〜(C)内の基準単語以外の単語の音声が一定数以上認識された1以上の区間の範囲を検出してもよい。
As described above, the
例えば、基準単語以外の単語の音声が3個以上認識された区間の範囲を検出する場合、音声データの区間(1)は、音声認識できたテキスト(A)内の単語数が、「金曜日」を除くと、「夏季」及び「合宿」の2個だけであるので、副区間として選択されない。 For example, when detecting the range of a section in which three or more speeches of words other than the reference word are recognized, the number of words in the speech (A) in which the speech data can be recognized is “Friday”. Excluding, there are only two, “summer season” and “camp”, so they are not selected as sub-intervals.
このように、基準単語以外の単語の音声が一定数以上認識された1以上の区間を副区間とすれば、副区間の範囲の検出を厳密に行うことができる。なお、副区間選択部108は、副区間の範囲の検出の基準とする数値を、音声データの各区間(1)〜(4)に含まれる単語ごとに割り当ててもよい。この場合、例えば、モーラ数が大きい単語や当該テキスト(A)〜(B)のみに含まれる単語には、大きな数値を割り当て、他の単語には、小さい数値を割り当てることにより、テキスト(A)〜(B)に対応する副区間が、より正確に選択される。
In this way, if one or more sections in which a certain number or more of speeches of words other than the reference word are recognized are set as sub-sections, the range of the sub-section can be strictly detected. Note that the
また、副区間選択部108は、副区間の範囲を検出するとき、各テキスト(A)〜(B)内の基準単語以外の単語の音声認識の数(該単語の一致数)を検出し、該検出した区間を、音声認識の数が最も多いテキストに対応する副区間として選択してもよい。
Further, when the
副区間選択部108は、選択した副区間を、当該テキスト(A)〜(C)に対応付けるために、分析結果DB135に登録する。より具体的には、主区間選択部107は、テキストの識別情報(本例ではA〜C)、及び副区間として選択した音声データの区間(1)〜(4)の識別情報(本例では1〜4)を、分析結果DB135に出力する。
The
これにより、分析結果DB135には、各テキスト(A)〜(C)と音声データの区間(1)〜(4)の対応関係が登録される。本実施例では、音声データ(1)〜(4)及びテキスト(A)〜(C)に共通する基準単語及び他の単語を用いて、関連性が高い音声データの1以上の区間(主区間及び副区間)をテキストに対応付けるので、分析結果DB135には的確な対応関係が登録される。
Thereby, in the
このようにして得られた分析結果DB135は、例えば、議事録システムの利用者が、議事録を参照する場合に用いられる。これにより、利用者は、再生された会議の音声データの内容に対応する議事録の正確な記載箇所を参照できるため、議事録システムの利便性が向上する。
The
次に、上述した音声分析方法を実行する音声分析プログラムについて述べる。図13は、実施例に係る音声分析プログラムのフローチャートである。 Next, a speech analysis program that executes the speech analysis method described above will be described. FIG. 13 is a flowchart of the speech analysis program according to the embodiment.
まず、音声データ分割部105は、音声DB134内の音声データを複数の区間(1)〜(4)に分割する(ステップSt1)。音声データの分割手法としては、例えば、図5(a)または図5(b)に示された手法が用いられる。
First, the audio
次に、文書データ分割部101は、文書DB131内の文書データを複数のテキスト(A)〜(C)に分割する(ステップSt2)。文書データの分割手法としては、上述したように、文章中の改行、字下げ(インデント)、または空行などを、テキスト間の境界として、文書データを分割する方法が挙げられる。
Next, the document
次に、単語抽出部102は、辞書DB132に基づいて、各テキスト(A)〜(C)から単語を抽出する(ステップSt3)。次に、単語抽出部102は、抽出した単語を抽出単語DB133(図4参照)に登録する(ステップSt4)。なお、ステップSt2〜St4の処理は、ステップSt1の処理の前に実行されてもよい。
Next, the
次に、音声認識処理部104は、各テキスト(A)〜(C)から単語を抽出された単語に基づいて、音声データの各区間(1)〜(4)の音声認識処理を行う(ステップSt5)。次に、音声認識処理部104は、テキスト(A)〜(C)ごとに、各単語の音声認識の有無を抽出単語DB133に登録する(ステップSt6)。
Next, the speech
次に、基準単語選択部103は、テキスト(A)〜(C)の1つを選択する(ステップSt7)。なお、以降の処理は、テキスト(A)が選択されたと仮定して述べるが、ステップSt7の処理では何れのテキスト(A)〜(C)が選択されてもよい。
Next, the reference
次に、基準単語選択部103は、選択したテキスト(A)から抽出された単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語(「金曜日」)を、基準単語として選択し、抽出単語DB133に登録する(ステップSt8)。
Next, the reference
ステップSt7の処理において、基準単語選択部103は、上述したように、選択したテキスト(A)から抽出された複数の単語から、モーラ数が最多または一定数以上である1以上の単語を、基準単語として選択してもよい。あるいは、基準単語選択部103は、選択したテキスト(A)から抽出された複数の単語から、音声認識における単語らしさを示すスコアが最多または一定値以上である1以上の単語を、基準単語として選択してもよい。
In the process of step St7, as described above, the reference
次に、主区間候補選択部106は、音声データの区間(1)〜(4)から、基準単語の音声が認識された区間を、主区間の候補として選択する(ステップSt9)。図9を参照して述べたように、主区間候補選択部106は、テキスト(A)の基準単語である「金曜日」が音声認識された音声データの区間(2)及び区間(4)を、テキスト(A)に対応する主区間の候補として選択する。
Next, the main section
次に、主区間選択部107は、主区間の候補から、テキスト(A)の複数の単語のうち、基準単語以外の単語の音声が認識された1以上の区間を、テキスト(A)に対応する主区間(第1区間)として選択する(ステップSt10)。図10を参照して述べたように、主区間選択部107は、主区間の候補の区間(2)及び区間(4)から、テキスト(A)の「意見」及び「香川」が音声認識された音声データの区間(2)を、テキスト(A)に対応する主区間として選択する。
Next, the main
ステップSt10の処理において、主区間選択部107は、上述したように、主区間の候補として選択された区間(2),(4)から、テキスト(A)の複数の単語のうち、基準単語以外の単語の音声が最も多く認識された区間を、主区間として選択してもよい。あるいは、主区間選択部107は、主区間の候補として選択された区間(2),(4)から、テキスト(A)の複数の単語のうち、基準単語以外の単語の音声が一定数以上認識された1以上の区間を、主区間として選択してもよい。
In the processing of step St10, as described above, the main
次に、主区間選択部107は、テキスト(A)と主区間の対応関係を分析結果DB135(図11参照)に登録する(ステップSt11)。これにより、音声データの区間(2)が、テキスト(A)に対応付けられる。
Next, the main
次に、副区間選択部108は、テキスト(A)に対応する主区間と隣接する区間(1),(3)を選択する(ステップSt12)。次に、副区間選択部108は、抽出単語DB133を参照することで、選択した隣接区間(1),(3)における、テキスト(A)の基準単語以外の単語の音声認識の有無を判定する(ステップSt13)。
Next, the
基準単語以外の単語の音声認識がある場合(ステップSt13のYes)、副区間選択部108は、選択した隣接区間(1)を副区間として選択する(ステップSt14)。図12を参照して述べたように、副区間選択部108は、テキスト(A)に対応する主区間の隣接区間(1),(3)から、テキスト(A)の「夏季」及び「合宿」が音声認識された音声データの区間(1)を、テキスト(A)に対応する副区間として選択する。なお、ステップSt13,St14の処理において、副区間選択部108は、上述したように、主区間と隣接する区間(1),(3)から、テキスト(A)の複数の単語のうち、基準単語以外の単語の音声が一定数以上認識された区間を、副区間として選択してもよい。
When there is speech recognition of a word other than the reference word (Yes in step St13), the
次に、副区間選択部108は、テキスト(A)と副区間の対応関係を分析結果DB135に登録する(ステップSt15)。これにより、音声データの区間(1)が、テキスト(A)に対応付けられる。
Next, the
次に、副区間選択部108は、副区間の隣接区間を選択し(ステップSt16)、再びステップSt13の処理を実行する。副区間選択部108は、ステップSt13〜St16の処理を繰り返すことで、主区間と隣接する区間を起点として、テキストの基準単語以外の単語の音声が認識された区間の範囲を検出し、範囲内の区間を、テキストに対応する副区間として選択する。
Next, the
また、基準単語以外の単語の音声認識がない場合(ステップSt13のNo)、基準単語選択部103は、全てのテキスト(A)〜(C)を選択済みであるか否かを判定する(ステップSt17)。つまり、基準単語選択部103は、上記のステップSt8〜St16の各処理が、全てのテキスト(A)〜(C)について実行済みであるか否かを判定する。
When there is no speech recognition of words other than the reference word (No in step St13), the reference
基準単語選択部103は、全てのテキスト(A)〜(C)を選択済みである場合(ステップSt17のYes)、処理を終了する。また、基準単語選択部103は、全てのテキスト(A)〜(C)を選択済みではない場合(ステップSt17のNo)、他のテキスト(B),(C)を選択する(ステップSt18)。他のテキスト(B),(C)を選択した後、選択したテキストについて、ステップSt8〜St13の各処理が、再び行われる。このようにして、音声分析プログラムの処理は実行される。
When all the texts (A) to (C) have been selected (Yes in step St17), the reference
図9、図10、及び図12では、基準単語が1つである場合を例示したが、これに限定されず、基準単語が複数個であってもよい。複数の基準単語が選択された場合、主区間候補選択部106は、全ての基準単語を含む音声データの区間を、主区間の候補として選択する。
9, 10, and 12 exemplify the case where there is one reference word, the present invention is not limited to this, and there may be a plurality of reference words. When a plurality of reference words are selected, the main section
これまで述べたように、実施例に係る音声分析方法は、以下の工程を、コンピュータ(CPU)10が実行する方法である。
工程(1):音声データを複数の区間(1)〜(4)に分割する。
工程(2):テキスト(A)〜(C)から複数の単語を抽出する。
工程(3):抽出した複数の単語に基づき、複数の区間(1)〜(4)の音声認識をそれぞれ行う。
工程(4):抽出した複数の単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択する。
工程(5):複数の区間から、基準単語の音声が認識された区間を選択する。
工程(6):該選択した区間から、複数の単語のうち、基準単語以外の単語の音声が認識された1以上の区間を、テキスト(A)〜(C)に対応する第1区間(主区間)として選択する。
工程(7):第1区間と隣接する区間を起点として、複数の単語のうち、基準単語以外の単語の音声が認識された区間の範囲を検出し、範囲内の区間を、テキスト(A)〜(C)に対応する第2区間(副区間)として選択する。
As described above, the speech analysis method according to the embodiment is a method in which the computer (CPU) 10 executes the following steps.
Step (1): The voice data is divided into a plurality of sections (1) to (4).
Step (2): Extract a plurality of words from the texts (A) to (C).
Step (3): Based on the extracted plurality of words, speech recognition in a plurality of sections (1) to (4) is performed.
Step (4): One or more words having a certain level of ease or certainty of speech recognition are selected as reference words from the extracted plurality of words.
Step (5): A section in which the voice of the reference word is recognized is selected from a plurality of sections.
Step (6): One or more sections in which the voices of words other than the reference word are recognized among the plurality of words from the selected section are defined as a first section corresponding to the texts (A) to (C) (main (Section).
Step (7): Starting from a section adjacent to the first section, a range of a section in which the voice of a word other than the reference word is recognized among a plurality of words is detected, and the section within the range is defined as text (A). To (C) are selected as the second section (sub-section).
この構成によると、テキストから音声認識が容易な基準単語、または音声認識の結果の確実性が高い基準単語を抽出し、基準単語の音声が認識された音声データの区間(1)〜(4)のうち、テキストから抽出された他の単語の音声も認識された第1区間を、テキスト(A)〜(C)に対応付ける。また、第1区間に連なる音声データの区間から、テキストから抽出された他の単語の音声が認識される第2区間の範囲を検出し、テキストに対応付ける。 According to this configuration, a reference word that is easily recognized by speech or a reference word that is highly reliable as a result of speech recognition is extracted from the text, and the sections (1) to (4) of the speech data in which the speech of the reference word is recognized. Among them, the first section in which the speech of other words extracted from the text is also recognized is associated with the texts (A) to (C). Further, a range of the second section in which the speech of another word extracted from the text is recognized is detected from the section of the speech data continuous to the first section, and is associated with the text.
したがって、音声データ及びテキストに共通する基準単語及び他の単語を用いて、関連性が高い音声データの1以上の区間をテキストに対応付けることができる。よって、実施例に係る音声分析方法によれば、音声データをテキストに的確に対応付けることができる。 Therefore, it is possible to associate one or more sections of speech data with high relevance with text using a reference word and other words common to the speech data and text. Therefore, according to the speech analysis method according to the embodiment, speech data can be accurately associated with text.
実施例に係る音声分析プログラムは、以下の処理を、コンピュータ(CPU)10に実行させるプログラムである。
処理(1):音声データを複数の区間(1)〜(4)に分割する。
処理(2):テキスト(A)〜(C)から複数の単語を抽出する。
処理(3):抽出した複数の単語に基づき、複数の区間(1)〜(4)の音声認識をそれぞれ行う。
処理(4):抽出した複数の単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択する。
処理(5):複数の区間から、基準単語の音声が認識された区間を選択する。
処理(6):該選択した区間から、複数の単語のうち、基準単語以外の単語の音声が認識された1以上の区間を、テキスト(A)〜(C)に対応する第1区間(主区間)として選択する。
処理(7):第1区間と隣接する区間を起点として、複数の単語のうち、基準単語以外の単語の音声が認識された区間の範囲を検出し、範囲内の区間を、テキスト(A)〜(C)に対応する第2区間(副区間)として選択する。
The speech analysis program according to the embodiment is a program that causes the computer (CPU) 10 to execute the following processing.
Process (1): The audio data is divided into a plurality of sections (1) to (4).
Process (2): A plurality of words are extracted from the texts (A) to (C).
Process (3): Based on the extracted plurality of words, speech recognition is performed in a plurality of sections (1) to (4).
Process (4): One or more words having a certain level of ease or certainty of speech recognition are selected as reference words from a plurality of extracted words.
Process (5): A section in which the voice of the reference word is recognized is selected from a plurality of sections.
Process (6): One or more sections in which the voices of words other than the reference word are recognized among the plurality of words from the selected section are defined as a first section corresponding to the texts (A) to (C) (main (Section).
Process (7): Starting from a section adjacent to the first section, a range of a section in which the speech of a word other than the reference word is recognized among a plurality of words is detected, and the section within the range is converted into text (A) To (C) are selected as the second section (sub-section).
実施例に係る音声分析プログラムは、上記の音声分析方法と同様の構成を含むので、上述した内容と同様の作用効果を奏する。 Since the speech analysis program according to the embodiment includes the same configuration as the speech analysis method described above, the same effects as those described above can be obtained.
また、実施例に係る音声分析装置1は、分割部(音声データ分割部)105と、抽出部(単語抽出部)102と、音声認識処理部104とを有する。音声分析装置1は、さらに、第1選択部(基準単語選択部)103と、第2選択部(主区間候補選択部)106と、第3選択部(主区間選択部)107と、第4選択部(副区間選択部)108とを有する。
The
分割部105は、音声データを複数の区間(1)〜(4)に分割する。抽出部102は、テキスト(A)〜(C)から複数の単語を抽出する。音声認識処理部104は、抽出した複数の単語に基づき、複数の区間(1)〜(4)の音声認識をそれぞれ行う。第1選択部103は、抽出した複数の単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択する。
The dividing
第2選択部106は、複数の区間から、基準単語の音声が認識された区間を選択する。第3選択部107は、該選択した区間から、複数の単語のうち、基準単語以外の単語の音声が認識された1以上の区間を、テキスト(A)〜(C)に対応する第1区間(主区間)として選択する。第4選択部108は、第1区間と隣接する区間を起点として、複数の単語のうち、基準単語以外の単語の音声が認識された区間の範囲を検出し、範囲内の区間を、テキスト(A)〜(C)に対応する第2区間(副区間)として選択する。
The
実施例に係る音声分析装置1は、上記の音声分析方法と同様の構成を含むので、上述した内容と同様の作用効果を奏する。
Since the
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、処理装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体(ただし、搬送波は除く)に記録しておくことができる。 The above processing functions can be realized by a computer. In that case, a program describing the processing contents of the functions that the processing apparatus should have is provided. By executing the program on a computer, the above processing functions are realized on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium (except for a carrier wave).
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD(Digital Versatile Disc)、CD−ROM(Compact Disc Read Only Memory)などの可搬型記録媒体の形態で販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。 When the program is distributed, for example, it is sold in the form of a portable recording medium such as a DVD (Digital Versatile Disc) or a CD-ROM (Compact Disc Read Only Memory) on which the program is recorded. It is also possible to store the program in a storage device of a server computer and transfer the program from the server computer to another computer via a network.
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。 The computer that executes the program stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, the computer reads the program from its own storage device and executes processing according to the program. The computer can also read the program directly from the portable recording medium and execute processing according to the program. Further, each time the program is transferred from the server computer, the computer can sequentially execute processing according to the received program.
上述した実施形態は本発明の好適な実施の例である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施可能である。 The above-described embodiment is an example of a preferred embodiment of the present invention. However, the present invention is not limited to this, and various modifications can be made without departing from the scope of the present invention.
なお、以上の説明に関して更に以下の付記を開示する。
(付記1) 音声データを複数の区間に分割する工程と、
テキストから複数の単語を抽出する工程と、
抽出した前記複数の単語に基づき、前記複数の区間の音声認識をそれぞれ行う工程と、
抽出した前記複数の単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択する工程と、
前記複数の区間から、前記基準単語の音声が認識された区間を選択する工程と、
該選択した区間から、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された1以上の区間を、前記テキストに対応する第1区間として選択する工程と、
前記第1区間と隣接する区間を起点として、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された区間の範囲を検出し、前記範囲内の区間を、前記テキストに対応する第2区間として選択する工程とを、コンピュータが実行することを特徴とする音声分析方法。
(付記2) 前記基準単語を選択する工程において、抽出した前記複数の単語から、モーラ数が最多または一定数以上である1以上の単語を、前記基準単語として選択することを特徴とする付記1に記載の音声分析方法。
(付記3) 前記基準単語を選択する工程において、音声認識における単語らしさを示すスコアが最多または一定値以上である前記1以上の単語を、前記基準単語として選択することを特徴とする付記1に記載の音声分析方法。
(付記4) 前記第1区間を選択する工程において、前記選択された区間から、前記複数の単語のうち、前記基準単語以外の単語の音声が最も多く認識された区間、または前記基準単語以外の単語の音声が一定数以上認識された1以上の区間を、前記第1区間として選択することを特徴とする付記1乃至3の何れかに記載の音声分析方法。
(付記5) 前記第2区間を選択する工程において、前記第1区間と隣接する区間を起点として、前記複数の単語のうち、前記基準単語以外の単語の音声が一定数以上認識された1以上の区間の範囲を検出することを特徴とする付記1乃至4の何れかに記載の音声分析方法。
(付記6) 音声データを複数の区間に分割し、
テキストから複数の単語を抽出し、
抽出した前記複数の単語に基づき、前記複数の区間の音声認識をそれぞれ行い、
抽出した前記複数の単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択し、
前記複数の区間から、前記基準単語の音声が認識された区間を選択し、
該選択した区間から、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された1以上の区間を、前記テキストに対応する第1区間として選択し、
前記第1区間と隣接する区間を起点として、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された区間の範囲を検出し、前記範囲内の区間を、前記テキストに対応する第2区間として選択する、処理とを、コンピュータに実行させることを特徴とする音声分析プログラム。
(付記7) 前記基準単語を選択する処理において、抽出した前記複数の単語から、モーラ数が最多または一定数以上である1以上の単語を、前記基準単語として選択することを特徴とする付記6に記載の音声分析プログラム。
(付記8) 前記基準単語を選択する工程において、音声認識における単語らしさを示すスコアが最多または一定値以上である前記1以上の単語を、前記基準単語として選択することを特徴とする付記6に記載の音声分析プログラム。
(付記9) 前記第1区間を選択する工程において、前記選択された区間から、前記複数の単語のうち、前記基準単語以外の単語の音声が最も多く認識された区間、または前記基準単語以外の単語の音声が一定数以上認識された1以上の区間を、前記第1区間として選択することを特徴とする付記6乃至8の何れかに記載の音声分析プログラム。
(付記10) 前記第2区間を選択する工程において、前記第1区間と隣接する区間を起点として、前記複数の単語のうち、前記基準単語以外の単語の音声が一定数以上認識された1以上の区間の範囲を検出することを特徴とする付記6乃至9の何れかに記載の音声分析プログラム。
(付記11) 音声データを複数の区間に分割する分割部と、
テキストから複数の単語を抽出する抽出部と、
抽出した前記複数の単語に基づき、前記複数の区間の音声認識をそれぞれ行う音声認識処理部と、
抽出した前記複数の単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択する第1選択部と、
前記複数の区間から、前記基準単語の音声が認識された区間を選択する第2選択部と、
該選択した区間から、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された1以上の区間を、前記テキストに対応する第1区間として選択する第3選択部と、
前記第1区間と隣接する区間を起点として、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された区間の範囲を検出し、前記範囲内の区間を、前記テキストに対応する第2区間として選択する第4選択部とを有することを特徴とする音声分析装置。
(付記12) 前記第1選択部は、抽出した前記複数の単語から、モーラ数が最多または一定数以上である1以上の単語を、前記基準単語として選択することを特徴とする付記11に記載の音声分析装置。
(付記13) 前記第1選択部は、音声認識における単語らしさを示すスコアが最多または一定値以上である前記1以上の単語を、前記基準単語として選択することを特徴とする付記11に記載の音声分析装置。
(付記14) 前記第3選択部は、前記選択された区間から、前記複数の単語のうち、前記基準単語以外の単語の音声が最も多く認識された区間、または前記基準単語以外の単語の音声が一定数以上認識された1以上の区間を、前記第1区間として選択することを特徴とする付記11乃至13の何れかに記載の音声分析装置。
(付記15) 前記第4選択部は、前記第1区間と隣接する区間を起点として、前記複数の単語のうち、前記基準単語以外の単語の音声が一定数以上認識された1以上の区間の範囲を検出することを特徴とする付記11乃至14の何れかに記載の音声分析装置。
In addition, the following additional notes are disclosed regarding the above description.
(Supplementary note 1) dividing audio data into a plurality of sections;
Extracting a plurality of words from the text;
Performing speech recognition of the plurality of sections based on the extracted plurality of words,
Selecting one or more words having a certain level of speech recognition ease or certainty as a reference word from the plurality of extracted words;
Selecting a section in which the voice of the reference word is recognized from the plurality of sections;
Selecting one or more sections from which the speech of words other than the reference word is recognized among the plurality of words as a first section corresponding to the text;
Starting from a section adjacent to the first section, a range of a section in which speech of a word other than the reference word is recognized among the plurality of words is detected, and a section in the range corresponds to the text A voice analysis method, wherein the computer executes the step of selecting as the second section.
(Supplementary Note 2) In the step of selecting the reference word, one or more words having a maximum number of mora or a certain number or more are selected as the reference word from the plurality of extracted words. The voice analysis method described in 1.
(Additional remark 3) In the process of selecting the said reference word, the said 1 or more word whose score which shows the word likeness in speech recognition is the most or more than a fixed value is selected as the said reference word. The voice analysis method described.
(Supplementary Note 4) In the step of selecting the first section, from the selected section, among the plurality of words, a section in which the voice of a word other than the reference word is most recognized, or a section other than the
(Supplementary Note 5) In the step of selecting the second section, one or more voices of words other than the reference word among the plurality of words are recognized starting from a section adjacent to the first section. The speech analysis method according to any one of
(Appendix 6) Dividing audio data into multiple sections,
Extract multiple words from text,
Based on the plurality of extracted words, perform speech recognition of the plurality of sections,
From the extracted plurality of words, one or more words having a certain level of ease or certainty of speech recognition are selected as reference words,
From the plurality of sections, select a section in which the voice of the reference word is recognized,
From the selected section, one or more sections in which the voices of words other than the reference word are recognized among the plurality of words are selected as the first section corresponding to the text,
Starting from a section adjacent to the first section, a range of a section in which speech of a word other than the reference word is recognized among the plurality of words is detected, and a section in the range corresponds to the text A speech analysis program that causes a computer to execute processing selected as the second section.
(Supplementary Note 7) In the process of selecting the reference word, one or more words having a maximum number of mora or a certain number or more are selected as the reference word from the plurality of extracted words. The voice analysis program described in 1.
(Supplementary note 8) In the supplementary note 6, the step of selecting the reference word selects, as the reference word, the one or more words having a score indicating the likelihood of a word in speech recognition or having a certain score or more. The voice analysis program described.
(Supplementary Note 9) In the step of selecting the first section, from the selected section, among the plurality of words, a section in which the voice of a word other than the reference word is most recognized, or a section other than the reference word 9. The speech analysis program according to any one of appendices 6 to 8, wherein one or more sections in which a certain number of words are recognized are selected as the first section.
(Supplementary Note 10) In the step of selecting the second section, one or more voices of words other than the reference word among the plurality of words are recognized starting from a section adjacent to the first section The speech analysis program according to any one of appendices 6 to 9, wherein the range of the section is detected.
(Supplementary Note 11) A dividing unit that divides audio data into a plurality of sections;
An extractor for extracting a plurality of words from the text;
A speech recognition processing unit that performs speech recognition of the plurality of sections based on the extracted words;
A first selection unit that selects, as a reference word, one or more words having a certain level of ease or certainty of speech recognition from the plurality of extracted words;
A second selection unit that selects a section in which the voice of the reference word is recognized from the plurality of sections;
A third selection unit that selects, from the selected section, one or more sections in which voices of words other than the reference word are recognized among the plurality of words as a first section corresponding to the text;
Starting from a section adjacent to the first section, a range of a section in which speech of a word other than the reference word is recognized among the plurality of words is detected, and a section in the range corresponds to the text A speech analysis apparatus comprising: a fourth selection unit that selects the second section.
(Supplementary note 12) The supplementary note 11 is characterized in that the first selection unit selects, as the reference word, one or more words having a maximum number of mora or a certain number or more from the plurality of extracted words. Voice analysis device.
(Supplementary note 13) The first selection unit according to Supplementary note 11, wherein the first selection unit selects, as the reference word, the one or more words having a maximum score or a certain value or more indicating a word-likeness in speech recognition. Voice analysis device.
(Additional remark 14) The said 3rd selection part is the area in which the audio | voice of words other than the said reference word was recognized most among these words from the selected area, or the audio | voice of words other than the said reference word. 14. The speech analysis apparatus according to any one of appendices 11 to 13, wherein one or more sections in which a certain number is recognized are selected as the first section.
(Additional remark 15) The said 4th selection part is the starting point of the area adjacent to the said 1st area, Of one or more areas from which the audio | voice of words other than the said reference word was recognized more than among the said several words. The speech analyzer according to any one of appendices 11 to 14, wherein a range is detected.
1 音声分析装置
10 CPU
101 文書データ分割部
102 単語抽出部(抽出部)
103 基準単語選択部(第1選択部)
104 音声認識処理部
105 音声データ分割部(分割部)
106 主区間候補選択部(第2選択部)
107 主区間選択部(第3選択部)
108 副区間選択部(第4選択部)
1
101 document
103 reference word selection unit (first selection unit)
104 voice
106 Main section candidate selection section (second selection section)
107 Main section selector (third selector)
108 Subsection selection unit (fourth selection unit)
Claims (7)
テキストから複数の単語を抽出する工程と、
抽出した前記複数の単語に基づき、前記複数の区間の音声認識をそれぞれ行う工程と、
抽出した前記複数の単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択する工程と、
前記複数の区間から、前記基準単語の音声が認識された区間を選択する工程と、
該選択した区間から、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された1以上の区間を、前記テキストに対応する第1区間として選択する工程と、
前記第1区間と隣接する区間を起点として、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された区間の範囲を検出し、前記範囲内の区間を、前記テキストに対応する第2区間として選択する工程とを、コンピュータが実行することを特徴とする音声分析方法。 Dividing the audio data into a plurality of sections;
Extracting a plurality of words from the text;
Performing speech recognition of the plurality of sections based on the extracted plurality of words,
Selecting one or more words having a certain level of speech recognition ease or certainty as a reference word from the plurality of extracted words;
Selecting a section in which the voice of the reference word is recognized from the plurality of sections;
Selecting one or more sections from which the speech of words other than the reference word is recognized among the plurality of words as a first section corresponding to the text;
Starting from a section adjacent to the first section, a range of a section in which speech of a word other than the reference word is recognized among the plurality of words is detected, and a section in the range corresponds to the text A voice analysis method, wherein the computer executes the step of selecting as the second section.
テキストから複数の単語を抽出し、
抽出した前記複数の単語に基づき、前記複数の区間の音声認識をそれぞれ行い、
抽出した前記複数の単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択し、
前記複数の区間から、前記基準単語の音声が認識された区間を選択し、
該選択した区間から、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された1以上の区間を、前記テキストに対応する第1区間として選択し、
前記第1区間と隣接する区間を起点として、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された区間の範囲を検出し、前記範囲内の区間を、前記テキストに対応する第2区間として選択する、処理とを、コンピュータに実行させることを特徴とする音声分析プログラム。 Divide audio data into multiple sections,
Extract multiple words from text,
Based on the plurality of extracted words, perform speech recognition of the plurality of sections,
From the extracted plurality of words, one or more words having a certain level of ease or certainty of speech recognition are selected as reference words,
From the plurality of sections, select a section in which the voice of the reference word is recognized,
From the selected section, one or more sections in which the voices of words other than the reference word are recognized among the plurality of words are selected as the first section corresponding to the text,
Starting from a section adjacent to the first section, a range of a section in which speech of a word other than the reference word is recognized among the plurality of words is detected, and a section in the range corresponds to the text A speech analysis program that causes a computer to execute processing selected as the second section.
テキストから複数の単語を抽出する抽出部と、
抽出した前記複数の単語に基づき、前記複数の区間の音声認識をそれぞれ行う音声認識処理部と、
抽出した前記複数の単語から、一定以上の音声認識の容易性または確実性を有する1以上の単語を、基準単語として選択する第1選択部と、
前記複数の区間から、前記基準単語の音声が認識された区間を選択する第2選択部と、
該選択した区間から、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された1以上の区間を、前記テキストに対応する第1区間として選択する第3選択部と、
前記第1区間と隣接する区間を起点として、前記複数の単語のうち、前記基準単語以外の単語の音声が認識された区間の範囲を検出し、前記範囲内の区間を、前記テキストに対応する第2区間として選択する第4選択部とを有することを特徴とする音声分析装置。 A dividing unit for dividing the audio data into a plurality of sections;
An extractor for extracting a plurality of words from the text;
A speech recognition processing unit that performs speech recognition of the plurality of sections based on the extracted words;
A first selection unit that selects, as a reference word, one or more words having a certain level of ease or certainty of speech recognition from the plurality of extracted words;
A second selection unit that selects a section in which the voice of the reference word is recognized from the plurality of sections;
A third selection unit that selects, from the selected section, one or more sections in which voices of words other than the reference word are recognized among the plurality of words as a first section corresponding to the text;
Starting from a section adjacent to the first section, a range of a section in which speech of a word other than the reference word is recognized among the plurality of words is detected, and a section in the range corresponds to the text A speech analysis apparatus comprising: a fourth selection unit that selects the second section.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014045555A JP6281330B2 (en) | 2014-03-07 | 2014-03-07 | Speech analysis method, speech analysis program, and speech analysis apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014045555A JP6281330B2 (en) | 2014-03-07 | 2014-03-07 | Speech analysis method, speech analysis program, and speech analysis apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015169834A true JP2015169834A (en) | 2015-09-28 |
JP6281330B2 JP6281330B2 (en) | 2018-02-21 |
Family
ID=54202603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014045555A Active JP6281330B2 (en) | 2014-03-07 | 2014-03-07 | Speech analysis method, speech analysis program, and speech analysis apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6281330B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000222425A (en) * | 1999-02-02 | 2000-08-11 | Hitachi Ltd | Voice retrieval system |
WO2005027092A1 (en) * | 2003-09-08 | 2005-03-24 | Nec Corporation | Document creation/reading method, document creation/reading device, document creation/reading robot, and document creation/reading program |
JP2008172582A (en) * | 2007-01-12 | 2008-07-24 | Ricoh Co Ltd | Minutes generating and reproducing apparatus |
JP2012226651A (en) * | 2011-04-21 | 2012-11-15 | Canon Inc | Information processing apparatus, information processing method, and program |
-
2014
- 2014-03-07 JP JP2014045555A patent/JP6281330B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000222425A (en) * | 1999-02-02 | 2000-08-11 | Hitachi Ltd | Voice retrieval system |
WO2005027092A1 (en) * | 2003-09-08 | 2005-03-24 | Nec Corporation | Document creation/reading method, document creation/reading device, document creation/reading robot, and document creation/reading program |
JP2008172582A (en) * | 2007-01-12 | 2008-07-24 | Ricoh Co Ltd | Minutes generating and reproducing apparatus |
JP2012226651A (en) * | 2011-04-21 | 2012-11-15 | Canon Inc | Information processing apparatus, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6281330B2 (en) | 2018-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460209B (en) | Control method for dictation and reading progress and electronic equipment | |
JP4218758B2 (en) | Subtitle generating apparatus, subtitle generating method, and program | |
US11037553B2 (en) | Learning-type interactive device | |
TWI554984B (en) | Electronic device | |
CN107305541A (en) | Speech recognition text segmentation method and device | |
JP2006190006A5 (en) | ||
US20190204998A1 (en) | Audio book positioning | |
US20080077869A1 (en) | Conference supporting apparatus, method, and computer program product | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
JP2011100355A (en) | Comment recording apparatus, comment recording method, program and recording medium | |
JP6495792B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
US20220148576A1 (en) | Electronic device and control method | |
US20140095166A1 (en) | Deep tagging background noises | |
CN104464734A (en) | Simultaneous speech processing apparatus, method and program | |
JP7265094B2 (en) | Rescoring Automatic Speech Recognition Hypotheses Using Audio-Visual Matching | |
CN111723235B (en) | Music content identification method, device and equipment | |
CN116226453B (en) | Method, device and terminal equipment for identifying dancing teaching video clips | |
CN110890095A (en) | Voice detection method, recommendation method, device, storage medium and electronic equipment | |
JP6281330B2 (en) | Speech analysis method, speech analysis program, and speech analysis apparatus | |
JP2007156286A (en) | Information recognition device and information recognizing program | |
CN115083222A (en) | Information interaction method and device, electronic equipment and storage medium | |
KR20150107344A (en) | Display apparatus and method for processing slang of display apparatus | |
TWI684964B (en) | Knowledge point mark generation system and method thereof | |
CN112231512A (en) | Song annotation detection method, device and system and storage medium | |
JP2011113426A (en) | Dictionary generation device, dictionary generating program, and dictionary generation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171016 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171024 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6281330 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |