JP2023174514A - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP2023174514A JP2023174514A JP2023050529A JP2023050529A JP2023174514A JP 2023174514 A JP2023174514 A JP 2023174514A JP 2023050529 A JP2023050529 A JP 2023050529A JP 2023050529 A JP2023050529 A JP 2023050529A JP 2023174514 A JP2023174514 A JP 2023174514A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- data
- information processing
- section
- processing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 107
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000012549 training Methods 0.000 claims abstract description 58
- 239000000945 filler Substances 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 24
- 238000010586 diagram Methods 0.000 description 37
- 238000013500 data storage Methods 0.000 description 33
- 238000012545 processing Methods 0.000 description 29
- 238000004891 communication Methods 0.000 description 20
- 230000000875 corresponding effect Effects 0.000 description 17
- 230000007717 exclusion Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000013019 agitation Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 241001125929 Trisopterus luscus Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法、プログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.
従来では、特定の番組の番組音声(音声データ)と、当該番組に予め付されている字幕テキストと、番組音声の書き起こしと、を用いて音声言語コーパスを生成して、音声認識に使用させる音響モデルを学習する技術が知られている。 Conventionally, a spoken language corpus is generated using the program audio (audio data) of a specific program, subtitle text added to the program in advance, and a transcription of the program audio, and is used for speech recognition. Techniques for learning acoustic models are known.
上述した従来の技術では、番組の音声データを用いて教師データの生成を支援することが開示されている。しかしながら、作業者が、音声データを確認して教師データを生成する際、教師データの対象となる発話を選定することは負担となる場合があった。 The above-mentioned conventional technology discloses supporting the generation of teacher data using audio data of a program. However, when a worker checks voice data and generates training data, it may be burdensome for the operator to select utterances to be used as training data.
開示の技術は、上記事情に鑑みたものであり、教師データの対象となる発話の選定を支援する、ことを目的とする。 The disclosed technology has been developed in view of the above-mentioned circumstances, and aims to support the selection of utterances to be used as training data.
開示の技術は、音声データを取得する取得部と、前記音声データに係る音声から、発話がされた区間である発話区間を検出する音声認識部と、検出された前記発話区間の発話が、教師データの候補を出力するために予め設定された1以上の条件を満たすかを判断する判断部と、前記判断部で前記条件を満たすと判断された前記発話区間における第1の発話の内容を、前記教師データの候補として出力する出力部と、を有する情報処理装置である。 The disclosed technology includes an acquisition unit that acquires voice data, a voice recognition unit that detects a speech section in which an utterance is made from the speech related to the voice data, and a speech recognition section that detects an utterance in the detected speech section. a determination unit that determines whether one or more preset conditions are met for outputting data candidates; and a content of the first utterance in the utterance section that is determined by the determination unit to satisfy the condition. The information processing apparatus includes an output unit that outputs the teacher data as a candidate.
本発明の一実施形態によると、教師データの対象となる発話の選定を支援できる。 According to an embodiment of the present invention, it is possible to support selection of utterances to be used as training data.
以下に図面を参照して、実施形態について説明する。図1は、情報処理システムのシムテム構成の一例を示す図である。 Embodiments will be described below with reference to the drawings. FIG. 1 is a diagram showing an example of a system configuration of an information processing system.
本実施形態の情報処理システム100は、情報処理装置200と、端末装置400とを含み、両者はネットワーク等を介して接続されている。
The
本実施形態の情報処理装置200は、一般的なコンピュータであってよく、音声認識部250と、生成支援部260とを含む。音声認識部250は、音声データを取得し、取得した音声データに対して音声認識処理を行って、音声データから変換された文字列を取得する。
The
なお、以下に説明では、音声データに対して音声認識処理を行って取得したデータを、認識結果データと表現する場合がある。認識結果データは、例えば、音声データに含まれる発話を特定するための識別情報である発話IDと、発話が行われている発話区間の開始時刻と、発話区間の終了時刻と、発話区間の音声データから変換された文字列(テキスト)と、が対応付けられたデータである。 Note that in the following description, data obtained by performing voice recognition processing on voice data may be expressed as recognition result data. The recognition result data includes, for example, the utterance ID which is identification information for identifying the utterance included in the audio data, the start time of the utterance section in which the utterance is being made, the end time of the utterance section, and the audio of the utterance section. The character string (text) converted from the data is associated with the data.
また、以下の説明では、発話区間の発話内容とは、発話区間の音声データと、発話区間の音声データから変換された文字列との少なくとも何れかを含むものとする。言い換えれば、発話区間の発話内容は、発話区間の音声データに対して音声認識処理を行った結果である認識結果データに含まれる。 Furthermore, in the following description, the utterance content of the utterance section includes at least one of the audio data of the utterance section and the character string converted from the audio data of the utterance section. In other words, the utterance content of the utterance section is included in recognition result data that is the result of voice recognition processing performed on the voice data of the utterance section.
生成支援部260は、認識結果データを用いて、音声認識処理の精度を高めるための教師データの生成を支援する。なお、本実施形態の教師データとは、後述する音声認識モデルに機械学習を行わせるための教師データである。
The
具体的には、生成支援部260は、発話区間毎の認識結果データのうち、発話区間における発話が、予め設定された1以上の条件を満たす発話である認識結果データを、教師データの候補に特定する。そして、生成支援部260は、教師データの候補に特定された認識結果データの一覧を、端末装置400に表示させる。
Specifically, the
端末装置400は、例えば、タブレット型端末やスマートフォン等であってもよいし、情報処理装置200と同様の一般的なコンピュータであってもよく、主に、教師データを生成する作業者等によって利用されてよい。
The
情報処理装置200は、端末装置400に表示された認識結果データの一覧において、認識結果データが選択されると、選択された認識結果データに基づき教師データを生成する。
When recognition result data is selected in the list of recognition result data displayed on the
したがって、本実施形態では、教師データを生成する作業者は、教師データの候補とされた認識結果データから、教師データの生成に用いる認識結果データを選択するだけで、音声認識処理の精度を向上させるための教師データを生成することができる。 Therefore, in this embodiment, the operator who generates the teacher data can improve the accuracy of the speech recognition process by simply selecting the recognition result data to be used for generating the teacher data from among the recognition result data that are candidates for the teacher data. It is possible to generate training data for
なお、図1の例では、情報処理装置200が音声認識部250と生成支援部260とを含むものとしたが、これに限定されない。音声認識部250と生成支援部260とは、それぞれが別々の装置によって実現されてよい。具体的には、例えば、音声認識部250は、情報処理装置200とは別の音声認識装置によって実現されてよい。
Note that in the example of FIG. 1, the
ここで、本実施形態における着目点について説明する。 Here, the points of interest in this embodiment will be explained.
図2は、重複発話について説明する第一の図である。図3は、重複発話について説明する第二の図である。図2では、例えば、話者1と話者2との発話の一部が重複した場合を示している。
FIG. 2 is a first diagram illustrating duplicate utterances. FIG. 3 is a second diagram illustrating duplicate utterances. FIG. 2 shows, for example, a case where parts of the utterances of
図2において、話者1の発話区間は、タイミングT1からタイミングT3までの区間であり、話者2の発話区間は、タイミングT2からタイミングT4までの区間である。また、タイミングT2からタイミングT3までの区間では、話者1の発話と話者2の発話とが重複している。
In FIG. 2, the speech section of
本実施形態では、このように、複数の話者の発話が重複することを重複発話と表現する場合がある。 In this embodiment, such overlapping utterances of multiple speakers may be expressed as overlapping utterances.
このような重複区間は、例えば、複数人が参加する会議等において頻発する。図3では、各種の会議における会議時間と重複発話が行われた時間(重複発話が行われた時間)との割合の例を示す図である。なお、会議時間とは、音声データの録音が開始されてから終了するまでの期間を示す。 Such overlapping sections frequently occur, for example, in meetings where multiple people participate. FIG. 3 is a diagram illustrating an example of the ratio between the meeting time and the time during which overlapping utterances were made (time during which overlapping utterances were made) in various conferences. Note that the conference time refers to the period from the start to the end of audio data recording.
図3に示すように、一般的な会議の場合、全体の発話に対する重複発話の時間的割合は、図3に示すように、全体の発話時間の5%未満である。 As shown in FIG. 3, in a typical conference, the time ratio of overlapping utterances to the total utterances is less than 5% of the total utterance time, as shown in FIG.
しかし、音声認識の学習データは、センテンス(意味を成す1つの発話)単位であるため、例えば、重複発話の時間がごく短時間であったとしても、その部分がセンテンス全体の学習に悪影響を与える可能性があり、そのセンテンス全体が学習に適さない場合がある。 However, since the training data for speech recognition is in units of sentences (single meaningful utterances), for example, even if repeated utterances occur for a very short time, that portion will have a negative impact on the learning of the entire sentence. The entire sentence may not be suitable for study.
図4は、相槌とフィラーについて説明する第一の図である。図5は、相槌とフィラーについて説明する第二の図である。 FIG. 4 is a first diagram illustrating the match and filler. FIG. 5 is a second diagram illustrating the match and filler.
会議等で行われる人同士の話し言葉では、フィラーや相槌も多発する。フィラーとは、図4に示すように、「あの」、「えーと」等の場繋ぎ的な表現の言葉、または驚いたときや落胆したときなどに発する感動詞のことである。 Fillers and compliments often occur in conversations between people at meetings and the like. As shown in FIG. 4, fillers are words that are used as fillers such as "um" and "um", or interjections that are uttered when surprised or disappointed.
フィラー自体は音声認識の学習への悪影響はほぼ無視できるものの、教師データ等においては不要な情報である。 Although the filler itself has almost negligible negative effects on speech recognition learning, it is unnecessary information in teacher data and the like.
一方、相槌は受け取り側の意図を示すため、教師データ等において意味はあるが、必要以上多く発生するため、全ての相槌について作業者が確認することは大きな負担になる。 On the other hand, since apologies indicate the intention of the recipient, they are meaningful in teacher data, etc., but since they occur more often than necessary, it becomes a heavy burden for the operator to check all the pouts.
図5では、複数種類の会議における発話長をヒストグラム化した図の例である。図5から、ヒストグラム1~6に示すいずれの会議においても、発話長が1秒未満の発話の頻度が最も高いことがわかる。発話長が1秒未満の発話とは、相槌を含む発話であることを強く示す。
FIG. 5 is an example of a histogram of utterance lengths in multiple types of conferences. From FIG. 5, it can be seen that in all the meetings shown in
このように、人同士の会話の中には、相槌のように単調な発話が多く発生するため、これら全ての音声データに対して作業者が確認することは大きな負担になることがわかる。 As described above, in conversations between people, many monotonous utterances like mutual exchanges occur, so it can be seen that it is a heavy burden for the worker to check all of this voice data.
本実施形態では、これらの点に着目し、複数人の会話を録音した音声データに含まれる発話区間毎の認識結果データのうち、発話が重複発話、相槌、フィラーである発話区間の認識結果データを、教師データの候補から除外する。本実施形態では、このように、教師データの候補を選別することで、教師データの生成にかかる作業者の負荷を削減することができる。言い換えれば、本実施形態では、効率的に教師データを生成することができる。 In this embodiment, focusing on these points, among the recognition result data for each utterance section included in audio data of recorded conversations of multiple people, recognition result data for utterance sections where the utterance is a duplicate utterance, a compliment, or a filler. are excluded from training data candidates. In this embodiment, by selecting candidates for teacher data in this way, it is possible to reduce the burden on the worker involved in generating the teacher data. In other words, in this embodiment, teacher data can be efficiently generated.
なお、本実施形態における、複数人の会話を録音した音声データとは、話者の口元とマイクとの距離が一定の距離以上離れている状態で録音された音声データであってよい。 Note that in this embodiment, the audio data obtained by recording a conversation between multiple people may be audio data recorded while the distance between the speaker's mouth and the microphone is a certain distance or more.
以下の説明では、話者の口元とマイクとの距離が一定の距離以上離れている状態を「Far Field(遠方界)」と表現する場合がある。また、以下の説明では、話者の口元と、音声データを取得するマイクとの距離が一定の距離以上である状態で取得された音声データを、Far Fieldにおいて取得された音声データと表現する場合がある。音声データの取得方法の詳細は後述する。 In the following description, a state in which the distance between the speaker's mouth and the microphone is a certain distance or more may be expressed as a "Far Field." In addition, in the following explanation, audio data acquired when the distance between the speaker's mouth and the microphone that acquires the audio data is a certain distance or more is expressed as audio data acquired in the Far Field. There is. Details of how to obtain audio data will be described later.
次に、図6乃至図8を参照して、音声データから重複発話を除外した場合と、比較例とについて説明する。 Next, a case where duplicate utterances are excluded from audio data and a comparative example will be described with reference to FIGS. 6 to 8.
図6は、音声データからの重複発話の除外について説明する第一の図である。図6では、図2の例を参照して、重複発話の除外について説明する。 FIG. 6 is a first diagram illustrating the removal of duplicate utterances from audio data. In FIG. 6, exclusion of duplicate utterances will be explained with reference to the example of FIG.
図2の例では、話者1の発話区間は、タイミングT1からタイミングT3までの区間であり、話者2の発話区間は、タイミングT2からタイミングT4までの区間である。また、話者1と話者2との重複発話の区間は、タイミングT2からタイミングT3までの区間である。
In the example of FIG. 2, the speech section of
そこで、本実施形態では、タイミングT1からタイミングT4までの音声データにおける発話区間毎の認識結果データのうち、発話が重複していない発話区間の認識結果データを抽出し、教師データの候補とする。なお、以下の説明では、他の話者の発話と重複していない発話を、単独発話と表現する。 Therefore, in the present embodiment, recognition result data for utterance sections in which utterances do not overlap among the recognition result data for each utterance section in the audio data from timing T1 to timing T4 is extracted and used as training data candidates. Note that in the following explanation, an utterance that does not overlap with the utterances of other speakers will be expressed as an independent utterance.
図7は、比較例を示す図である。図7では、タイミングT1からタイミングT3までの区間(話者1の発話区間)の音声データと、タイミングT2からタイミングT4までの区間(話者2の発話区間)の音声データに対して音声認識処理を行った場合を示している。
FIG. 7 is a diagram showing a comparative example. In FIG. 7, voice recognition processing is performed on audio data in an interval from timing T1 to timing T3 (
この場合、タイミングT1からタイミングT3までの区間(話者1の発話区間)の音声データと、タイミングT2からタイミングT4までの区間(話者2の発話区間)の音声データのそれぞれは、重複発話を含む音声データとなる。
In this case, the audio data in the interval from timing T1 to timing T3 (
重複発話を含む音声データは、音韻が不明瞭であり、音声認識によって取得した文字列が不正確となる場合がある。また、重複発話を含む音声データに対して音声認識処理を行った場合、音韻が不明瞭であるため、認識結果データに含まれる発話内容が不正確である可能性が高い。このため、この認識結果データを教師データとして音声認識モデルを学習させても、音声認識の精度向上に対して寄与しない可能性がある。さらに、重複発話を単一発話に分離する技術も高難度であり、高い精度の担保が困難である。 Speech data that includes repeated utterances has ambiguous phonemes, and character strings obtained through speech recognition may be inaccurate. Furthermore, when voice recognition processing is performed on voice data that includes repeated utterances, the utterance content included in the recognition result data is likely to be inaccurate because the phonemes are unclear. Therefore, even if a speech recognition model is trained using this recognition result data as training data, there is a possibility that it will not contribute to improving the accuracy of speech recognition. Furthermore, the technology for separating duplicate utterances into single utterances is also highly difficult, making it difficult to ensure high accuracy.
図8は、音声データからの重複発話の除外について説明する第二の図である。本実施形態では、単独発話となるタイミングT1からタイミングT2まで発話区間の認識結果データと、タイミングT3からタイミングT4までの発話区間の認識結果データとを、教師データの候補とする。 FIG. 8 is a second diagram illustrating the exclusion of duplicate utterances from audio data. In this embodiment, the recognition result data of the utterance section from timing T1 to timing T2, which is a single utterance, and the recognition result data of the utterance section from timing T3 to timing T4 are used as training data candidates.
また、本実施形態では、話者1の話者2の重複発話であるタイミングT2からタイミングT3までの発話区間の認識結果データを、教師データの候補から除外する。
Furthermore, in this embodiment, the recognition result data of the utterance section from timing T2 to timing T3, which is the overlapping utterance of
このようにすることで、本実施形態では、音韻が明瞭な音声データと、精度の高い音声認識処理によって取得した文字列とが対応付けられた認識結果データを教師データの候補とし、教師データを生成する作業者等に提示することができる。 By doing so, in this embodiment, recognition result data in which speech data with clear phonemes and character strings obtained through highly accurate speech recognition processing are associated are candidates for training data, and the training data is It can be presented to the worker who generates it.
次に、図9及び図10を参照して、音声データからの相槌及びフィラーの除外について説明する。 Next, with reference to FIGS. 9 and 10, the exclusion of compliments and fillers from audio data will be described.
図9は、音声データからの相槌及びフィラーの除外について説明する図である。図9(A)は、話者1の発話中に、話者2が相槌や短い発話(フィラー)を散発的に行った場合を示しており、図9(B)は、メインの話者である話者1に対して、話者2が相槌や短い発話(フィラー)を返す場合を示している。
FIG. 9 is a diagram illustrating the exclusion of compliments and fillers from audio data. Figure 9(A) shows a case where
図9(A)の例では、話者2の相槌やフィラーは、話者1の発話と重複している。しかしながら、相槌やフィラーは、上述したように、会話中に頻発するため、相槌やフィラーが重複している発話区間を重複発話として、教師データの候補から除外すると、教師データの候補となる認識結果データのデータ量が大幅に減少する。また、メインの話者の発話と重複する相槌やフィラーは、ノイズとして捉えることもできる。
In the example of FIG. 9A,
そこで、本実施形態では、話者1の発話と話者2の相槌やフィラーが重複した場合は、重複発話とせず、相槌やフィラーのみの音声データに対して音声認識処理を行って取得した認識結果データを、教師データの候補から除外する。
Therefore, in this embodiment, when an utterance of
具体的には、本実施形態では、図9(A)の話者1の発話(メインの話者)を示す音声データと対応する認識結果データのみを教師データの候補とし、話者2の発話である相槌やフィラーを示す音声データと対応する認識結果データは、教師データの候補から除外する。 Specifically, in this embodiment, only the recognition result data corresponding to the voice data indicating the utterance of speaker 1 (the main speaker) in FIG. Recognition result data corresponding to voice data indicating a compliment or filler is excluded from the training data candidates.
したがって、図9(A)の例では、話者1の発話区間の認識結果データのみが教師データの候補となる。
Therefore, in the example of FIG. 9A, only the recognition result data of the utterance section of
また、本実施形態では、図9(B)に示すように、メインの話者である話者1に対して、話者2による相槌やフィラーが続いた場合、相槌や孤立したフィラーを示す音声データと対応する認識結果データを教師データの候補から除外する。
In addition, in this embodiment, as shown in FIG. 9B, when
具体的には、本実施形態では、図9(B)のメインの話者である話者1の発話区間の認識結果データのみを、教師データの候補とし、話者2の発話区間の認識結果データは、教師データの候補から除外する。
Specifically, in this embodiment, only the recognition result data of the utterance section of
さらに、本実施形態では、会話中における孤立した相槌と、孤立したフィラーに相当する音声データと対応する認識結果データも、教師データの候補から除外する。 Furthermore, in this embodiment, recognition result data corresponding to voice data corresponding to isolated exchanges and isolated fillers during a conversation are also excluded from the training data candidates.
ここで、図10を参照して、孤立した相槌、孤立したフィラーについて説明する。図10は、孤立した相槌、孤立したフィラーについて説明する図である。図10(A)は、孤立した相槌について説明する図であり、図10(B)は、孤立したフィラーについて説明する図である。 Now, with reference to FIG. 10, isolated fillers and isolated fillers will be explained. FIG. 10 is a diagram illustrating an isolated match and an isolated filler. FIG. 10(A) is a diagram illustrating an isolated filler, and FIG. 10(B) is a diagram illustrating an isolated filler.
本実施形態における、孤立した相槌、孤立したフィラーとは、発話が連続している発話区間内で、フィラーや相槌以外の発話がない状態をいう。 In this embodiment, an isolated compliment or an isolated filler refers to a state in which there is no utterance other than a filler or a compliment within an utterance section in which utterances are continuous.
図10(A)に示すように、発話区間K1における発話内容は、「ああ、そうだね」であり、相槌「ああ」の他に、「そうだね」という発話も含まれる。したがって、発話区間K1の認識結果データは、教師データの候補の対象となる。 As shown in FIG. 10(A), the content of the utterance in the utterance section K1 is "Ah, that's right," and includes the utterance "Ah, that's right" as well as the utterance "Ah, right." Therefore, the recognition result data of the utterance section K1 is a candidate for teacher data.
また、発話区間K2における発話内容は、「ああ」であり、発話区間K3における発話内容は、「そうだね」である。この場合、発話区間K2は、発話内容が相槌のみであり、他の発話が含まれないため、孤立した相槌となる。したがって、発話区間K2の認識結果データは、教師データの候補から除外される。 Further, the utterance content in the utterance section K2 is "Ah", and the utterance content in the utterance section K3 is "I see." In this case, the utterance section K2 contains only a mutual comment and does not include any other utterances, so it becomes an isolated compliment. Therefore, the recognition result data of the utterance section K2 is excluded from the training data candidates.
また、図10(B)では、発話区間K4における発話内容は、「あのー、これでいいですか」であり、フィラー「あのー」の他に、「これでいいですか」という発話も含まれる。したがって、発話区間K4の認識結果データは、教師データの候補となる。 Furthermore, in FIG. 10B, the content of the utterance in the utterance section K4 is "Um, is this okay?" and includes the filler "Um," as well as the utterance "Is this okay?" Therefore, the recognition result data of the utterance section K4 is a candidate for teacher data.
また、発話区間K5における発話内容は、「あのー」であり、発話区間K6における発話内容は、「これでいいですか」である。この場合、発話区間K5は、発話内容がフィラーのみであり、他の発話が含まれないため、孤立したフィラーとなる。したがって、発話区間K5の認識結果データは、教師データの候補から除外される。 Further, the utterance content in the utterance section K5 is "umm", and the utterance content in the utterance section K6 is "Is this okay?". In this case, the utterance section K5 contains only filler utterances and does not include other utterances, so it becomes an isolated filler. Therefore, the recognition result data of the utterance section K5 is excluded from the training data candidates.
このように、本実施形態では、複数人による発話を録音した音声データのうち、音声データが特定の条件を満たす発話区間の認識結果データを、教師データの候補とする。言い換えれば、本実施形態では、複数人による発話のうち、予め設定された1以上の条件(特定の条件)を満たす発話区間の発話内容を、教師データの候補とする。なお、特定の条件は、情報処理システム100のユーザによって予め設定されていてよい。情報処理システム100のユーザとは、例えば情報処理装置200の管理者等であってもよいし、端末装置400のユーザ(教師データを生成する作業者)であってもよい。
In this manner, in the present embodiment, recognition result data of a utterance section in which the voice data satisfies a specific condition, out of voice data recorded as utterances by a plurality of people, is used as a candidate for training data. In other words, in this embodiment, among the utterances by a plurality of people, the content of utterances in a utterance section that satisfies one or more preset conditions (specific conditions) is used as a candidate for training data. Note that the specific conditions may be set in advance by the user of the
特定の条件とは、以下のうちの何れか1つである。 The specific condition is any one of the following.
・メインの話者の発話であり、且つ、複数人の発話が重複していない単独発話であること(以下、条件1と呼ぶ。)
・メインの話者の発話ではなく、且つ、孤立した相槌又は孤立したフィラーのみからなる発話ではないこと(以下、条件2と呼ぶ。)
・一部に重複発話を含むメインの話者の発話において、単独発話となる部分が存在すること(以下、条件3と呼ぶ。)
本実施形態では、この条件の何れか1つを満たす発話区間の認識結果データを、教師データの候補とする。
-The utterance is from the main speaker and is a single utterance without overlapping utterances from multiple people (hereinafter referred to as condition 1).
・It is not an utterance by the main speaker, nor is it an utterance consisting only of isolated compliments or isolated fillers (hereinafter referred to as condition 2).
・In the main speaker's utterance, which includes some overlapping utterances, there is a portion that is a single utterance (hereinafter referred to as condition 3).
In this embodiment, recognition result data of an utterance section that satisfies any one of these conditions is used as a candidate for training data.
以下に、図11を参照して、複数人の発話を録音した音声データと、特定の条件を満たすとされる発話区間との関係を具体的に説明する。 Below, with reference to FIG. 11, the relationship between audio data recorded from multiple people's utterances and utterance sections that satisfy a specific condition will be specifically described.
図11は、音声データと、特定の条件を満たすとされる発話区間との関係を示す図である。 FIG. 11 is a diagram showing the relationship between audio data and utterance sections that satisfy a specific condition.
図11では、複数人の発話を録音した音声データが示す音声波形10と、発話区間毎の音声データから変換された文字列とを対応付けて示している。また、図11において、領域11は、メインの話者である話者1の発話を示し、領域12は、メインの話者ではない話者2の発話を示す。
In FIG. 11, an
図11において、話者1による発話区間K10、K12は、特定の条件のうち、条件1を満たす。したがって、発話区間K10、K12の認識結果データは、教師データの候補とされる。また、話者1の発話区間K14は、話者2の発話区間K15と一部が重複している。したがって、本実施形態では、発話区間K14のうち、発話区間K15と重複していない部分のみが条件3を満たす発話区間となる。また、この発話区間の認識結果データは、教師データの候補とされる。
In FIG. 11, utterance sections K10 and K12 by
また、話者1の発話区間K16の発話内容は、相槌であるが、条件1を満たす。したがって、発話区間K16の認識結果データは、教師データの候補とされる。
Further, the content of the utterance of
また、図11において、発話区間K11、K13、K17は、話者2による孤立した相槌であり、特定の条件である条件1~3の何れも満たさない。したがって、発話区間K11、K13、K17の認識結果データは、教師データの候補から除外される。
Furthermore, in FIG. 11, utterance sections K11, K13, and K17 are isolated responses by
さらに、発話区間K15は、重複発話であり、特定の条件である条件1~3の何れも満たさない。したがって、発話区間K15の認識結果データは、教師データの候補から除外される。
Furthermore, the utterance section K15 is a duplicate utterance and does not satisfy any of the
本実施形態の情報処理システム100において、情報処理装置200は、このようにして、教師データの候補となる認識結果データを特定し、教師データの候補を端末装置400に表示させる。そして、本実施形態の情報処理装置200は、端末装置400のユーザに選択された認識結果データを用いて、教師データを生成する。
In the
以下に、本実施形態の情報処理システム100の有する各装置について説明する。図12は、情報処理装置のハードウェア構成の一例を示す図である。
Each device included in the
情報処理装置200は、コンピュータによって構築されており、図12に示されているように、CPU201、ROM202、RAM203、HD204、HDD(Hard Disk Drive)コントローラ205、ディスプレイ206、外部機器接続I/F(Interface)208、ネットワークI/F209、バスラインB1、キーボード211、ポインティングデバイス212、DVD-RW(Digital Versatile Disk Rewritable)ドライブ214、メディアI/F216を備えている。
The
これらのうち、CPU201は、情報処理装置200全体の動作を制御する。ROM202は、IPL等のCPU201の駆動に用いられるプログラムを記憶する。RAM203は、CPU201のワークエリアとして使用される。HD204は、プログラム等の各種データを記憶する。HDDコントローラ205は、CPU201の制御にしたがってHD204に対する各種データの読み出し又は書き込みを制御する。
Among these, the
ディスプレイ(表示装置)206は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F208は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F209は、通信ネットワークを利用してデータ通信をするためのインターフェースである。バスラインB1は、図12に示されているCPU201等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
A display (display device) 206 displays various information such as a cursor, menu, window, characters, or images. External device connection I/
また、キーボード211は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス212は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ214は、着脱可能な記録媒体の一例としてのDVD-RW213に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F216は、フラッシュメモリ等の記録メディア215に対するデータの読み出し又は書き込み(記憶)を制御する。
Further, the
図13は、端末装置のハードウェア構成の一例を示す図である。図13では、端末装置400がスマートフォンである場合のハードウェア構成を示す。
FIG. 13 is a diagram illustrating an example of the hardware configuration of a terminal device. FIG. 13 shows a hardware configuration when the
図13に示されているように、端末装置400は、CPU401、ROM402、RAM403、EEPROM404、CMOSセンサ405、撮像素子I/F406、加速度・方位センサ407、メディアI/F409、GPS受信部411を備えている。
As shown in FIG. 13, the
これらのうち、CPU401は、端末装置400全体の動作を制御する。ROM402は、CPU401やIPL等のCPU401の駆動に用いられるプログラムを記憶する。RAM403は、CPU401のワークエリアとして使用される。EEPROM404は、CPU401の制御にしたがって、スマートフォン用プログラム等の各種データの読み出し又は書き込みを行う。
Among these, the
CMOS(Complementary Metal Oxide Semiconductor)センサ405は、CPU401の制御に従って被写体(主に自画像)を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、CMOSセンサではなく、CCD(Charge Coupled Device)センサ等の撮像手段であってもよい。撮像素子I/F406は、CMOSセンサ405の駆動を制御する回路である。加速度・方位センサ407は、地磁気を検知する電子磁気コンパスやジャイロコンパス、加速度センサ等の各種センサである。メディアI/F409は、フラッシュメモリ等の記録メディア408に対するデータの読み出し又は書き込み(記憶)を制御する。GPS受信部411は、GPS衛星からGPS信号を受信する。
A CMOS (Complementary Metal Oxide Semiconductor)
また、端末装置400は、遠距離通信回路412、CMOSセンサ413、撮像素子I/F414、マイク415、スピーカ416、音入出力I/F417、ディスプレイ418、外部機器接続I/F(Interface)419、近距離通信回路420、近距離通信回路420のアンテナ420a、及びタッチパネル421を備えている。
The
これらのうち、遠距離通信回路412は、アンテナ412aにより、通信ネットワークを介して、他の機器と通信する回路である。CMOSセンサ413は、CPU401の制御に従って被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。撮像素子I/F414は、CMOSセンサ413の駆動を制御する回路である。マイク415は、音を電気信号に変える内蔵型の回路である。スピーカ416は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。
Among these, the long-
音入出力I/F417は、CPU401の制御に従ってマイク415及びスピーカ416との間で音信号の入出力を処理する回路である。ディスプレイ418は、被写体の画像や各種アイコン等を表示する液晶や有機EL(Electro Luminescence)などの表示手段の一種である。外部機器接続I/F419は、各種の外部機器を接続するためのインターフェースである。近距離通信回路420は、NFC(Near Field Communication)やBluetooth(登録商標)等の通信回路である。タッチパネル421は、利用者がディスプレイ418を押下することで、端末装置400を操作する入力手段の一種である。
The sound input/output I/
また、端末装置400は、バスライン410を備えている。バスライン410は、図13に示されているCPU401等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
The
次に、図14を参照して、本実施形態の情報処理システム100の有する各装置の機能について説明する。図14は、情報処理システムの有する各装置の機能構成を説明する図である。
Next, with reference to FIG. 14, the functions of each device included in the
はじめに、情報処理装置200の機能構成について説明する。本実施形態の情報処理装置200は、音声認識部250、生成支援部260、通信制御部265、音声データ記憶部270、認識結果データ記憶部280、教師データ記憶部290を含む。音声認識部250、生成支援部260は、情報処理装置200の有するCPU201がHD204等に格納されたプログラムを読み出して実行することで実現される。音声データ記憶部270、認識結果データ記憶部280、教師データ記憶部290は、HD204等が有する記憶領域によって実現される。
First, the functional configuration of the
本実施形態の情報処理装置200において、音声データ記憶部270は、情報処理装置200が取得した音声データが格納される。認識結果データ記憶部280は、音声認識部250による音声認識処理の結果である認識結果データが格納される。認識結果データ記憶部280の詳細は後述する。
In the
なお、認識結果データ記憶部280において、認識結果データは、発話区間毎の発話IDによって特定される音声データと対応付けられて格納されていてもよい。また、本実施形態では、音声データ記憶部270に格納された音声データに対し、発話区間毎の発話IDが付与されていてもよい。本実施形態では、発話区間毎の認識結果データと、発話区間毎の音声データとが発話IDによって対応付けられていればよい。
Note that in the recognition result
また、認識結果データ記憶部280において、認識結果データは、教師データの候補とされたか否かを示す情報と対応付けられて格納されていてよい。言い換えれば、認識結果データ記憶部280において、認識結果データは、後述する判断部261による判断結果を示す情報と対応付けられて格納されていてよい。
Further, in the recognition result
教師データ記憶部290は、後述する生成部263により生成された教師データが格納される。教師データは、音声データと、音声データから変換された文字列とが対応付けられたデータであってよい。
The teacher
音声認識部250は、取得部251、区間検出定部252、音声認識モデル253、学習部254を含む。取得部251は、音声データを取得する。取得部251が取得する音声データは、音声データ記憶部270から読み出された音声データであってもよいし、情報処理システム100の外部装置から取得した音声データであってもよい。取得部251は、情報処理システム100の外部装置から音声データを取得した場合には、取得した音声データを音声データ記憶部270に格納してよい。
The
区間検出定部252は、取得された音声データに係る音声から発話区間を検出する。発話区間とは、発話が行われている区間を示す。本実施形態の区間検出部252は、音声データにおける発話区間を検出すると、特定された発話区間に対して発話IDを付与し、発話区間の開始時刻と終了時刻とを、発話IDとを対応付けてよい。
The
音声認識モデル253は、話者の口元とマイク等の集音装置との距離が一定の距離以上離れている状態において取得された音声データに対し、音声認識処理を行う音声認識器であってよく、音声認識処理の結果として文字列(テキスト)を取得する。言い換えれば、本実施形態の音声認識モデル253は、Far Fieldにおいて取得された音声データに対し、音声認識を行って、音声データを文字列に変換する音声認識器であってよい。音声認識モデル253の詳細は後述する。
The
音声認識モデル253によって取得された文字列は、発話ID、発話区間の開始時刻及び終了時刻と対応付けられた認識結果データとして認識結果データ記憶部280に格納されてよい。
The character string acquired by the
Far Fieldにおいて取得された音声データとは、具体的には、例えば、バウンダリーマイクのような卓上マイクを用いて収音した音声データである。 Specifically, the audio data acquired in the Far Field is, for example, audio data collected using a tabletop microphone such as a boundary microphone.
学習部254は、教師データ記憶部290に格納された教師データが入力されると、音声認識モデル253を学習させる。
The
生成支援部260は、判断部261、出力部262、生成部263を含む。判断部261は、認識結果データに含まれる発話IDで特定される発話区間における発話が、特定の条件の何れか1つを満たすか否かを判断する。言い換えれば、判断部261は、特定の条件を示す情報に基づき、認識結果データを教師データの候補とするか否かを判断する。なお、特定の条件を示す情報は、判断部261において保持されていてよい。
The
出力部262は、判断部261による判断の結果を示す情報と共に、認識結果データを端末装置400に出力する。言い換えれば、判断部261は、教師データの候補とされた認識結果データと、教師データの候補から除外された認識結果データとを、端末装置400に出力する。
The
生成部263は、端末装置400における操作に応じて、認識結果データから教師データを生成し、教師データ記憶部290に格納する。具体的には、生成部263は、端末装置400において認識結果データの選択が行われると、選択された認識結果データに含まれる、音声データから変換された文字列と、認識結果データと対応する音声データとを対応付けた教師データを生成する。
The
通信制御部265は、情報処理装置200と外部装置との通信を制御する。具体的には、通信制御部265は、情報処理装置200と端末装置400との通信を制御する。
The
次に、端末装置400の機能構成について説明する。端末装置400は、入力受付部450、通信制御部460、表示制御部470を含む。
Next, the functional configuration of the
入力受付部450は、端末装置400に対する各種の入力を受け付ける。具体的には、入力受付部450は、端末装置400に表示された教師データの候補に対する選択を受け付ける。通信制御部460は、端末装置400と外部装置との通信を制御する。表示制御部470は、端末装置400のディスプレイ418における各種の表示を制御する。具体的には、表示制御部470は、ディスプレイ418に、教師データの候補とされた認識結果データと、教師データの候補から除外された認識結果データとを含む一覧画面を表示させる。
The
次に、図15を参照して、本実施形態の認識結果データ記憶部280について説明する。図15は、認識結果データ記憶部の一例を示す図である。
Next, with reference to FIG. 15, the recognition result
本実施形態の認識結果データ記憶部280に格納された認識結果データは、情報の項目として、発話ID、開始時刻、終了時刻、発話内容を含み、項目「発話ID」と、項目「開始時刻」、「終了時刻」、「テキスト」が対応付けられている。
The recognition result data stored in the recognition result
項目「発話ID」の値は、開始時刻と終了時刻により特定される発話区間に取得された音声データを特定するための識別情報である。 The value of the item "utterance ID" is identification information for specifying the audio data acquired in the speech section specified by the start time and end time.
項目「開始時刻」、「終了時刻」の値は、それぞれ、発話区間の開始時刻と、発話区間の終了時刻とを示す。項目「テキスト」の値は、発話IDによって特定される音声データに対して、音声認識モデル253が音声認識処理を行って取得した文字列である。言い換えれば、項目「テキスト」の値は、音声データから変換された文字列を示す。
The values of the items "start time" and "end time" indicate the start time and end time of the speech section, respectively. The value of the item "text" is a character string obtained by the
なお、認識結果データ記憶部280では、各認識結果データに対し、判断部261による判断結果を示す情報が付与されてよい。
Note that in the recognition result
次に、図16を参照して、本実施形態の情報処理装置200の処理について説明する。図16は、情報処理装置の処理を説明するフローチャートである。
Next, with reference to FIG. 16, processing of the
本実施形態の情報処理装置200は、音声認識部250の取得部251により、音声データを取得する(ステップS1601)。続いて、音声認識部250は、区間検出定部252により、発話区間を検出する(ステップS1602)。続いて、音声認識部250は、音声認識モデル253による音声認識処理により、検出された発話区間と対応する音声データから文字列を取得する(ステップS1603)。なお、この時点で、発話ID、発話区間の開始時刻及び終了時刻、音声データから変換された文字列とが対応付けられた認識結果データが認識結果データ記憶部280に格納されてよい。
The
なお、図16のステップS1601からステップS1603までの処理は、図16のステップS1604以降の処理とは別に、独立したタイミングで実行されてもよい。言い換えれば、本実施形態では、音声認識部250の処理は、ステップS1604以降に示す生成支援部260の処理が実行される前に実行されていればよい。
Note that the processing from step S1601 to step S1603 in FIG. 16 may be executed at an independent timing, apart from the processing from step S1604 onward in FIG. In other words, in the present embodiment, the processing by the
次に、情報処理装置200は、生成支援部260の判断部261により、発話区間における発話を抽出する(ステップS1604)。言い換えれば、判断部261は、認識結果データに含まれる発話IDで特定される発話区間における音声データを抽出する。
Next, the
続いて、判断部261は、抽出された発話がメインの話者の発話であるか否かを判断する(ステップS1605)。具体的には、判断部261は、抽出された音声データの音量が、他の発話区間の音量よりも小さい場合に、発話がメインの話者の発話であると判断してよい。なお、音声データの音量の大小は相対的であることが考えられるが、絶対的であってもよい。
Next, the determining
ステップS1605において、抽出された発話がメインの話者の発話でない場合、情報処理装置200は、後述するステップS1610へ進む。
In step S1605, if the extracted utterance is not the utterance of the main speaker, the
ステップS1605において、抽出された発話がメインの話者の発話であると判断された場合、判断部261は、発話が単独発話であるか否かを判断する(ステップS1606)。つまり、判断部261は、ステップS1606において、抽出された発話区間の発話が、特定の条件のうちの条件1を満たすか否かを判断する。
If it is determined in step S1605 that the extracted utterance is the utterance of the main speaker, the
具体的には、判断部261は、音声データに対する音声認識処理を行ったときの確信度に基づき、発話が単独発話であるか否かを判断してよい。例えば、発話が重複発話である場合、音声が不明瞭になり確信度が下がる。このため、本実施形態では、確信度が所定の閾値より高い場合に、この音声データが示す発話が単独発話であると判断し、確信度が閾値未満である場合に、この音声データが示す発話が重複発話であると判断してよい。なお、確信度とは、予測または出力がどのくらい確実であるかの統計的な尺度を示す値であってよい。
Specifically, the
ステップS1606において、発話が単独発話である場合、判断部261は、この発話が条件1を満たすものとし、この発話区間を特定する発話IDを含む認識結果データを、教師データの候補に選択し(ステップS1607)、後述するステップS1613へ進む。言い換えれば、判断部261は、条件1を満たす発話を第1の発話として、第1の発話の発話内容を教師データの候補に選択する。
In step S1606, if the utterance is a solo utterance, the
具体的には、判断部261は、この発話区間を特定する発話IDを含む認識結果データに対してフラグを立てる。フラグは、認識結果データ記憶部280において、認識結果データと紐付けられて格納されてもよい。
Specifically, the
また、ステップS1606において、発話が単独発話ではなかった場合、判断部261は、この発話の中に、重複発話ではない部分が含まれるか否かを判定する(ステップS1608)。言い換えれば、判断部261は、この発話に単独発話となる部分が含まれるか否かを判断する。つまり、判断部261は、ステップS1604で抽出された発話が、条件3を満たすか否かを判断する。
Further, in step S1606, if the utterance is not a single utterance, the
ステップS1608において、単独発話となる部分が含まれない場合、つまり、ステップS1604で抽出された発話が条件3を満たさない場合、生成支援部260は、後述するステップS1612へ進む。
In step S1608, if a portion that is a single utterance is not included, that is, if the utterance extracted in step S1604 does not satisfy
ステップS1608において、単独発話となる部分が含まれる場合、つまり、ステップS1604で抽出された発話が条件3を満たす場合、判断部261は、ステップS1604で抽出した発話から、単独発話となる部分を抽出し(ステップS1609)、ステップS1607へ進む。言い換えれば、判断部261は、条件3を満たす発話を第1の発話として、第1の発話の発話内容を教師データの候補に選択する。
このとき、メインの話者の発話と重複している発話が、孤立した相槌又はフィラーの場合、単独発話の抽出を行わずに、メインの話者の発話をそのまま第1の発話とする。
In step S1608, if a portion that is a solo utterance is included, that is, if the utterance extracted in step S1604 satisfies
At this time, if the utterance that overlaps with the utterance of the main speaker is an isolated compliment or filler, the utterance of the main speaker is directly used as the first utterance without extracting the independent utterance.
なお、判断部261は、ステップS1606と同様に、音声認識処理を行ったときの確信度に基づき、単独発話となる部分を抽出してよい。
Note that, similarly to step S1606, the
また、ここでは、判断部261は、ステップS1604で抽出した発話のうち、ステップS1609で抽出された単独発話に対応する発話内容のみを、教師データの候補とする。
Further, here, the
ステップS1606において、抽出された発話がメインの話者の発話でないと判断された場合、判断部261は、この発話が単独発話であるか否かを判断する(ステップS1610)。ステップS1610において、単独発話ではないと判断された場合、生成支援部260は、後述するステップS1612へ進む。
If it is determined in step S1606 that the extracted utterance is not the utterance of the main speaker, the determining
ステップS1610において、単独発話と判断された場合、判断部261は、ステップS1604で抽出された発話が、孤立した相槌又はフィラーであるか否かを判断する(ステップS1611)。つまり、判断部261は、ステップS1604で抽出した発話が条件2を満たすか否かを判断している。また、判断部261は、抽出された発話と対応する音声データの特徴量に基づき、発話が孤立した相槌又はフィラーであるか否かを判断してよい。
If it is determined in step S1610 that the utterance is an isolated utterance, the
ステップS1611において、発話が孤立した相槌又はフィラーではないと判断された場合、判断部261は、ステップS1604で抽出された発話が条件2を満たすものとして、ステップS1607へ進む。言い換えれば、判断部261は、条件2を満たす発話を第1の発話として、第1の発話の発話内容を教師データの候補に選択する。
If it is determined in step S1611 that the utterance is not an isolated compliment or filler, the
ステップS1611において、発話が孤立した相槌又はフィラーであると判断された場合、判断部261は、ステップS1604で抽出された発話は特定の条件を満たさないものとし、この発話と対応する認識結果データを、教師データの候補から除外し(ステップS1612)、後述するステップS1613へ進む。言い換えれば、判断部261は、抽出された発話を、特定の条件を満たしていない第2の発話とする。
If it is determined in step S1611 that the utterance is an isolated compliment or filler, the
情報処理装置200は、ステップS1602で検出された全ての発話区間について、ステップS1604からステップS1612までの処理を実行したか否かを判定する(ステップS1613)。ステップS1613において、全ての発話区間に対して処理が実行されていない場合、情報処理装置200は、ステップS1604へ戻る。
The
ステップS1613において、全ての発話区間に対して処理が実行されていた場合、出力部262は、端末装置400に対して、認識結果データと、判断部261による判断の結果とを端末装置400に出力し(ステップS1614)、処理を終了する。
In step S1613, if the process has been executed for all speech sections, the
なお、図16の例では、音声データに含まれる全ての発話区間を検出した後に、各発話区間と対応する音声データが示す発話が、特定の条件を満たすか否かを判断しているが、処理の順番は、これに限定されない。本実施形態では、例えば、音声データに含まれる発話区間が検出される度に検出された発話区間と対応する音声データが示す発話が、特定の条件を満たすか否かが判断されてもよい。 Note that in the example of FIG. 16, after all speech sections included in the audio data are detected, it is determined whether the utterance indicated by the audio data corresponding to each speech section satisfies a specific condition. The order of processing is not limited to this. In this embodiment, for example, each time a speech section included in audio data is detected, it may be determined whether the speech indicated by the audio data corresponding to the detected speech section satisfies a specific condition.
また、図16では、抽出された発話がメインの話者による発話であるか否かを判断した後に、発話が単独発話であるか否かを判断しているが、処理の順番はこれに限定されない。例えば、本実施形態では、発話が抽出された後に、発話が単独発話である否かを判断した後に、発話がメインの話者による発話であるか否かが判断されてもよい。 In addition, in FIG. 16, it is determined whether the extracted utterance is an utterance by the main speaker, and then it is determined whether the utterance is a solo utterance, but the order of processing is limited to this. Not done. For example, in the present embodiment, after the utterance is extracted, it may be determined whether the utterance is a solo utterance, and then it may be determined whether the utterance is uttered by the main speaker.
また、本実施形態では、発話が特定の条件を満たす場合に、この発話と対応する認識結果データを教師データの候補とするものとしたが、本実施形態では、発話がメインの話者の発話である場合に、この発話と対応する発話区間の認識結果データを教師データの候補としてもよい。言い換えれば、発話が重複しているか、発話が孤立した相槌フィラーであるか、に関わらず、発話がメインの話者の発話である場合には、この発話内容を教師データの候補としてもよい。 Furthermore, in this embodiment, when an utterance satisfies a specific condition, the recognition result data corresponding to this utterance is selected as a candidate for training data. In this case, the recognition result data of the utterance section corresponding to this utterance may be used as a candidate for the teacher data. In other words, regardless of whether the utterances are duplicated or are isolated fillers, if the utterance is uttered by the main speaker, this utterance content may be used as a candidate for training data.
次に、図17を参照し、端末装置400の表示例について説明する。図17は、教師データの候補の表示例を示す図である。
Next, a display example of the
図17に示す画面171は、図16のステップS1614において、端末装置400に出力されるデータに基づき、端末装置400に表示される画面(第1の画面)の一例である。なお、画面171は、情報処理装置200の有するディスプレイ206に表示されてもよい。
A
画面171は、表示領域172、173、174を含む。表示領域172には、認識結果データと、フラグとが対応付けられて表示される。フラグは、判断部261による判断結果を示す情報である。
表示領域173は、端末装置400のユーザによって、表示領域172に表示された認識結果データが選択されたか否かを示す情報が表示される。表示領域174は、画面171に表示させるページを操作するための操作ボタンが表示される。
In the
表示領域172では、発話ID「0010」、「0012」、「0014」、「0016」を含む認識結果データに対して、フラグ「1」が付与されている。このため、図17の例では、発話ID「0010」、「0012」、「0014」、「0016」のそれぞれで特定される発話(第1の発話)の発話内容が、教師データの候補とされたことがわかる。
In the
なお、発話ID「0014」で特定される発話は、一部に重複発話を含むメインの話者の発話において、単独発話となる部分が存在する発話である。したがって、表示領域172では、発話ID「0014」で特定される発話において、重複発話ではない部分(単独発話の部分)の発話内容が教師データの候補とされる。
Note that the utterance identified by the utterance ID "0014" is an utterance in which there is a portion that is a single utterance among the utterances of the main speaker that include overlapping utterances. Therefore, in the
また、表示領域172では、発話ID「0011」、「0013」、「0015」、「0017」を含む認識結果データに対して、フラグ「1」は付与されていない。このため、図17の例では、発話ID「0011」、「0013」、「0015」、「0017」のそれぞれで特定される発話(第2の発話)の発話内容は、教師データの候補から除外されたことがわかる。
Furthermore, in the
本実施形態では、このように、教師データの候補とされた認識結果データと、教師データの候補から除外された認識結果データとを、端末装置400のユーザに対して把握させることができる。
In this embodiment, in this way, the user of the
また、表示領域173では、発話ID「0010」、「0012」、「0014」、「0016」を含む認識結果データと対応付けて、「○」が表示されている。したがって、図17の例では、端末装置400のユーザによって、発話ID「0010」、「0012」、「0014」、「0016」のそれぞれで特定される発話(第1の発話)の発話内容が、教師データに選択されたことがわかる。
Furthermore, in the
なお、図17の例では、教師データの候補とされた第1の発話の発話内容が教師データに選択されているが、画面171では、教師データの候補から除外された第2の発話の発話内容を教師データに選択することもできる。
Note that in the example of FIG. 17, the utterance content of the first utterance that is a candidate for teacher data is selected as the teacher data, but in the
また、画面171では、表示領域172に表示された認識結果データに含まれる発話IDが、端末装置400のユーザによって選択されると、発話IDで特定される発話区間の音声データが再生されてもよい。このように、音声データを再生することで、端末装置400のユーザは、簡単な操作で、教師データの候補とされた発話区間の発話内容が正しいか否かを確認できる。また、端末装置400のユーザは、音声データから取得された文字列が正しいか否かを確認した後に、教師データを選択できる。
In addition, on the
また、本実施形態では、認識結果データにフラグ「1」が付与された発話区間を、表示領域173においてあらかじめ選択された状態(「○」が付与された状態)として、画面171を表示してもよい。この場合、表示領域173では、ユーザの操作によって選択が解除されてもよい。また、本実施形態では、認識結果データにフラグ「1」が付与された発話区間を、表示領域173において未選択の状態(「○」が付与されていない状態)として、画面171を表示してもよい。
Furthermore, in the present embodiment, the
また、本実施形態では、画面171において、端末装置400のユーザが、音声データから変換された文字列を選択することで、選択された文字列を修正するための編集画面が表示されてもよい。これにより、ユーザは、音声データから変換された文字列に誤りがある場合に、この文字列を修正できる。
Further, in the present embodiment, when the user of the
また、画面171には、教師データの生成を情報処理装置200に対して指示するための操作ボタンが設けられていてもよい。情報処理装置200は、画面171において、教師データに用いる認識結果データの選択が完了した後に、この操作ボタンが選択されると、ユーザによって選択された認識結果データに含まれる発話内容を用いて教師データを生成してよい。
Further, the
ここで、情報処理装置200の生成支援部260による教師データの生成について説明する。情報処理装置200の生成支援部260は、生成部263により、教師データとする認識結果データが選択されると、認識結果データ記憶部280から、選択された認識結果データに含まれる、音声データから変換された文字列を取得する。また、生成部263は、選択された認識結果データに含まれる発話IDと対応付けられた音声データを音声データ記憶部270から取得する。そして、生成部263は、取得した音声データを入力データとし、文字列を正解データとした教師データを生成し、教師データ記憶部290に格納する。
Here, generation of teacher data by the
このように、本実施形態では、特定の条件を満たす発話のみが教師データの候補として端末装置400のユーザに提示し、ユーザに選択された教師データの候補を用いて教師データを生成するため、精度の高い教師データの作成できる。また、本実施形態によれば、ユーザは、提示された教師データの候補を選択するだけで、教師データを生成でき、教師データの生成を支援することができる。
In this way, in this embodiment, only utterances that meet specific conditions are presented to the user of the
次に、図18を参照して、教師データの候補を出力する際の別の表示例について説明する。図18は、教師データの候補の表示例を示す他の図である。 Next, with reference to FIG. 18, another display example when outputting training data candidates will be described. FIG. 18 is another diagram showing a display example of training data candidates.
図18に示す画面181は、表示領域182、183、174、操作ボタン184を含む。表示領域182は、音声認識処理が行われた音声データの波形が表示される。表示領域183は、音声データから変換された文字列が、発話区間毎に、音声データの波形と対応付けられて表示される。
本実施形態の表示領域183では、フラグ「1」が付与されている認識結果データに含まれる発話内容を強調表示させてもよい。言い換えれば、表示領域183では、認識結果データが教師データの候補とされている場合と、教師データの候補から除外されている場合とで、発話内容の表示態様を異ならせてよい。
In the
具体的には、表示領域183では、発話区間K10、K12、K14、K17と対応する発話内容が強調表示されている。したがって、端末装置400のユーザは、発話区間K10、K12、K14、K17と対応する発話内容が、教師データの候補の選択された認識結果データの発話内容であることを認識できる。
Specifically, in the
なお、発話区間K14における発話は一部が重複発話であるため、単独発話である部分「メール通知」が教師データの候補とされており、音声データから変換された文字列のうち、「メール通知」のみが強調表示されている。 Note that some of the utterances in the utterance section K14 are overlapping utterances, so the single utterance "email notification" is considered a candidate for teacher data, and among the character strings converted from the audio data, "email notification" ' is highlighted.
また、表示領域183では、発話区間における発話が単独発話であるか、重複発話であるか、孤立した相槌又はフィラーであるか、等の発話の種類に応じて、発話内容の表示態様を異ならせてもよい。また、表示領域183では、メインの話者による発話であるか否かに応じて、発話内容の表示態様を異ならせてもよい。
In addition, in the
図18の例では、発話区間K16は、メインの話者による発話であり、かつ、孤立した相槌である。また、発話区間K17は、メインの話者以外の話者による発話であり、かつ、孤立した相槌である。このため、発話区間K16の発話内容と、発話区間K17の発話内容とでは、表示態様が異なっている。このように、表示態様を異ならせることで、端末装置400のユーザに対して、発話の種類を把握させることができる。
In the example of FIG. 18, the utterance section K16 is an utterance by the main speaker and is an isolated compliment. Furthermore, the utterance section K17 is an utterance by a speaker other than the main speaker, and is an isolated compliment. Therefore, the utterance contents in the utterance section K16 and the utterance contents in the utterance section K17 are displayed differently. By changing the display mode in this way, the user of the
また、表示領域183において、発話区間毎に発話内容が選択可能であってよい。この場合、表示領域183では、ユーザによって発話内容が選択されると、発話区間が枠線で囲まれ、教師データの対象として選択されたことが視認できるようになる。
Further, in the
また、画面181では、音声データから変換された文字列を選択することで、文字列を修正するための編集画面が表示されてよい。このようにすることで、表示領域183に表示された文字列に誤りがある場合には、誤りのある文字列を修正できる。なお、編集画面を表示させるために文字列を選択する操作は、教師データにする発話内容を選択する操作とは異なる操作であることが好ましい。
Further, on the
次に、図19を参照して、複数人の発話を録音した音声データの取得方法について説明する。 Next, with reference to FIG. 19, a method for acquiring audio data obtained by recording the utterances of a plurality of people will be described.
図19は、音声データの取得方法を説明する図である。なお、図19に示す例は、音声データの取得方法の一例であり、複数人の発話を録音した音声データは、他の方法によって取得されてもよい。 FIG. 19 is a diagram illustrating a method of acquiring audio data. Note that the example shown in FIG. 19 is an example of a method for acquiring audio data, and audio data obtained by recording the utterances of multiple people may be acquired by other methods.
図19では、会議中の音声データを録音する場合を示している。具体的には、図19では、会議室R1のテーブル110に配置された卓上マイク500により、会議の参加者P1~P6のそれぞれの発話を音声データとして収集する。
FIG. 19 shows a case where audio data during a conference is recorded. Specifically, in FIG. 19, the
卓上マイク500は、一般的な集音装置であってよく、集音した音声データを記憶する記憶装置と、音声データを情報処理装置200へ送信する通信装置とを含んでもよい。
The
卓上マイク500で収集された音声データは、情報処理装置200に送信されて、音声認識部250による音声認識処理が行われる。
The voice data collected by the
ここで、卓上マイク500は、会議室R1に設置されたテーブル110の中央に配置されており、参加者P1~P6の口元から所定の距離以上離れた位置に配置されていてよい。
Here, the
したがって、卓上マイク500が取得する音声データは、Far Fieldで取得された音声データである。
Therefore, the audio data acquired by the
本実施形態では、このようにして、複数人の発話を含む音声データを取得し、この音声データに対して音声認識処理が行われる。 In this embodiment, voice data including utterances by a plurality of people is acquired in this way, and voice recognition processing is performed on this voice data.
以上に説明したように、本実施形態では、音声データを発話区間毎に文字列に変換する音声認識を行い、この発話区間における発話が特定の条件を満たすか否かを判定した結果と共に、音声認識結果の認識結果データを認識結果データ記憶部280に格納する。
As explained above, in this embodiment, voice recognition is performed to convert voice data into a character string for each utterance section, and the result of determining whether or not the utterance in this utterance section satisfies a specific condition is recognized. The recognition result data of the recognition result is stored in the recognition result
このようにすることで、教師データを作成する作業者は、認識結果データ記憶部280に保持された発話区間毎の音声認識の結果を確認するだけでよく、作業負荷を軽減できる。したがって、本実施形態では、教師データの生成にかかるコストを削減することができる。
By doing so, the worker who creates the teacher data only needs to check the speech recognition results for each utterance section held in the recognition result
さらに、本実施形態では、教師データを効率的に生成することができるため、音声認識モデル253の学習に対して、十分な教師データを提供することができ、音声認識モデル253による音声認識の精度を向上させることができる。
Furthermore, in this embodiment, since training data can be efficiently generated, sufficient training data can be provided for the learning of the
本実施形態では、このように教師データの生成を支援することで、精度の高い教師データを容易に生成することができ、機械学習における音声認識の精度の向上に寄与することができる。 In the present embodiment, by supporting the generation of teacher data in this way, highly accurate teacher data can be easily generated, which can contribute to improving the accuracy of speech recognition in machine learning.
ここで、本実施形態の音声認識モデル253について説明する。本実施形態の音声認識モデル253には、DNN(Deep Neural Network)等により構成されてよく、さらに、End-to-Endモデルであってよい。
Here, the
End-to-Endモデルとは、1つのニューラルネットワークを介し、入力された音声を文字に直接変換するモデルである。End-to-Endモデルは、音響モデル、言語モデル、発音辞書といった複数の部品を個々に最適化して組み合わせた従来の音声認識モデルと比較して、構造がシンプルなため、実装が容易、応答速度が速い等のメリットがある。 The End-to-End model is a model that directly converts input speech into characters via one neural network. The End-to-End model has a simpler structure, making it easier to implement and faster response times than traditional speech recognition models that combine multiple parts such as acoustic models, language models, and pronunciation dictionaries by individually optimizing them. It has the advantage of being fast.
さらに、End-to-Endモデルは、複数の部品を個々に最適化した従来の音声認識モデルと比較して、話し言葉のように非文法的で揺らぎが大きい音声データから効率的に学習することができる。話し言葉のように非文法的で揺らぎが大きい音声データとは、例えば、Far Fieldで取得された音声データである。 Furthermore, compared to conventional speech recognition models that individually optimize multiple parts, the End-to-End model can learn more efficiently from ungrammatical and highly fluctuating speech data such as spoken words. can. Audio data that is ungrammatical and has large fluctuations, such as spoken words, is, for example, audio data acquired in the Far Field.
したがって、本実施形態の手法によって生成された教師データは、音声認識モデル253をEnd-to-Endモデルとした場合の学習において、有用な教師データとなる。
Therefore, the teacher data generated by the method of this embodiment becomes useful teacher data in learning when the
さらに、従来の音声認識モデルでは、前段で音響的な処理(ノイズキャンセル等)を行うフロントエンドを実装することが多いが、End-to-Endモデルの場合は、ノイズキャンセル等を行わず、ノイズを含んだ音声データをそのまま用いて学習を行うことが容易にできる。 Furthermore, in conventional speech recognition models, a front end that performs acoustic processing (noise cancellation, etc.) is often implemented in the previous stage, but in the case of an end-to-end model, noise cancellation is not performed, and noise Learning can be easily performed using audio data containing .
したがって、音声認識モデル253をEnd-to-Endモデルとした場合には、本実施形態の手法によって生成された教師データを用いて音声認識モデル253を学習させることで、音声認識の精度を向上させることができる。
Therefore, when the
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。 Each function of the embodiments described above can be realized by one or more processing circuits. Here, the term "processing circuit" as used herein refers to a processor programmed to execute each function by software, such as a processor implemented by an electronic circuit, or a processor designed to execute each function explained above. This includes devices such as ASICs (Application Specific Integrated Circuits), DSPs (digital signal processors), FPGAs (field programmable gate arrays), and conventional circuit modules.
また、実施形態に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。 Additionally, the devices described in the embodiments are merely illustrative of one of a plurality of computing environments for implementing the embodiments disclosed herein.
ある実施形態では、情報処理装置200は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。同様に、情報処理装置200は、互いに通信するように構成された複数のコンピューティングデバイスを含むことができる。
In some embodiments,
さらに、情報処理システム100は、開示された処理ステップを様々な組み合わせで共有するように構成できる。例えば、情報処理装置200によって実行されるプロセスは、他の情報処理装置によって実行され得る。同様に、情報処理装置200の機能は、他の情報処理装置によって実行することができる。また、情報処理装置と他の情報処理装置の各要素は、1つの情報処理装置にまとめられていても良いし、複数の装置に分けられていても良い。
Further,
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。 Although the present invention has been described above based on each embodiment, the present invention is not limited to the requirements shown in the above embodiments. These points can be changed without detracting from the gist of the present invention, and can be determined appropriately depending on the application thereof.
本発明の態様は、例えば、以下のとおりである。
<1>
音声データを取得する取得部と、
前記音声データに係る音声から、発話がされた区間である発話区間を検出する音声認識部と、
検出された前記発話区間の発話が、教師データの候補を出力するために予め設定された1以上の条件を満たすかを判断する判断部と、
前記判断部で前記条件を満たすと判断された前記発話区間における第1の発話の内容を、前記教師データの候補として出力する出力部と、
を有する情報処理装置。
<2>
前記出力部は、
前記第1の発話の内容を、前記教師データの候補として表示する第1の画面を出力する、
<1>に記載の情報処理装置。
<3>
前記第1の発話の内容は、生成する教師データの対象の発話の内容として前記第1の画面に選択可能に表示され、
前記情報処理装置は、さらに、
ユーザにより前記第1の画面で選択された前記第1の発話の内容に基づいて、教師データを生成する生成部を有する
<2>に記載の情報処理装置。
<4>
前記第1の画面は、前記判断部で前記条件を満たさないと判断された前記発話区間における第2の発話の内容をさらに含み、さらに、該第2の発話の内容を、前記教師データに使用する発話の内容として選択可能であり、
前記生成部は、ユーザにより前記第1の画面において前記第2の発話の内容が選択された場合、該第2の発話の内容に基づいて、前記教師データを生成する、
<2>又は<3>に記載の情報処理装置。
<5>
前記第1の画面は、前記第1の発話の内容及び前記第2の発話の内容のうち、前記第1の発話の内容が前記教師データの候補であることを識別可能に表示する画面である、
<4>に記載の情報処理装置。
<6>
前記第1の画面は、前記第1の発話の内容と、前記第2の発話の内容と、に対応した音声データを再生可能な画面である、
<4>又は<5>に記載の情報処理装置。
<7>
前記発話区間における発話の内容には、少なくとも、当該発話区間に対応した音声データと、当該音声データを変換した文字列と、が含まれる
<1>乃至<6>の何れか一項に記載の情報処理装置。
<8>
前記音声データは、メインの話者を含む複数の話者の会話の音声に係る音声データである、
<1>乃至<7>の何れか一項に記載の情報処理装置。
<9>
前記1以上の条件は、前記メインの話者による発話であることを含む、
<8>に記載の情報処理装置。
<10>
前記1以上の条件は、前記メインの話者の発話であって、他の発話と時間的に重複していない発話であること、を含む、
<8>又は<9>に記載の情報処理装置。
<11>
前記1以上の条件は、前記メインの話者の発話ではなく、且つ、相槌又はフィラーのみからなる発話ではないことを含む、
<8>乃至<10>の何れか一項に記載の情報処理装置。
<12>
前記1以上の条件は、一部に他の発話と時間的に重複している発話を含む前記メインの話者の発話であって、且つ、他の発話と時間的に重複していない部分があること、を含む、
<8>乃至<11>の何れか一項に記載の情報処理装置。
<13>
前記出力部は、
前記判断部により、検出された前記発話区間の発話が、一部に他の発話と時間的に重複している発話を含む前記メインの話者の発話であって、且つ、他の発話と時間的に重複していない部分があると判断された場合に、当該メインの話者の発話において、前記他の発話と時間的に重複していない部分の発話の内容を、前記教師データの候補として出力する
<12>に記載の情報処理装置。
<14>
前記1以上の条件は、ユーザによって設定される、<1>乃至<13>の何れか一項に請求項1記載の情報処理装置。
<15>
情報処理装置による情報処理方法であって、前記情報処理装置が、
音声データを取得し、
前記音声データに係る音声から、発話がされた区間である発話区間を検出し、
検出された前記発話区間の発話が、教師データの候補を出力するために予め設定された1以上の条件を満たすかを判断し、
前記条件を満たすと判断された前記発話区間における第1の発話の内容を、前記教師データの候補として出力する、情報処理方法。
<16>
音声データを取得し、
前記音声データに係る音声から、発話がされた区間である発話区間を検出し、
検出された前記発話区間の発話が、教師データの候補を出力するために予め設定された1以上の条件を満たすかを判断し、
前記条件を満たすと判断された前記発話区間における第1の発話の内容を、前記教師データの候補として出力する、処理を情報処理装置に実行させる、プログラム。
Aspects of the present invention are, for example, as follows.
<1>
an acquisition unit that acquires audio data;
a speech recognition unit that detects a speech section that is a speech section from the speech related to the speech data;
a determination unit that determines whether the detected utterance in the utterance section satisfies one or more preset conditions for outputting training data candidates;
an output unit that outputs the content of the first utterance in the utterance section that is determined to satisfy the condition by the determination unit as a candidate for the teacher data;
An information processing device having:
<2>
The output section is
outputting a first screen that displays the content of the first utterance as a candidate for the teacher data;
The information processing device according to <1>.
<3>
The content of the first utterance is selectably displayed on the first screen as the content of the utterance targeted for the teacher data to be generated;
The information processing device further includes:
The information processing device according to <2>, further comprising a generation unit that generates teacher data based on the content of the first utterance selected by the user on the first screen.
<4>
The first screen further includes the content of a second utterance in the utterance section that is determined by the determination unit to not satisfy the condition, and further includes the content of the second utterance that is used for the teacher data. can be selected as the content of the utterance,
The generation unit generates the teacher data based on the content of the second utterance when the content of the second utterance is selected by the user on the first screen.
The information processing device according to <2> or <3>.
<5>
The first screen is a screen that visibly displays that the content of the first utterance among the content of the first utterance and the content of the second utterance is a candidate for the teacher data. ,
The information processing device according to <4>.
<6>
The first screen is a screen that can reproduce audio data corresponding to the content of the first utterance and the content of the second utterance,
The information processing device according to <4> or <5>.
<7>
The content of the utterance in the utterance section includes at least audio data corresponding to the utterance section and a character string obtained by converting the audio data. Information processing device.
<8>
The audio data is audio data related to the audio of conversations of multiple speakers including the main speaker.
The information processing device according to any one of <1> to <7>.
<9>
The one or more conditions include that the utterance is by the main speaker;
The information processing device according to <8>.
<10>
The one or more conditions include that the utterance is an utterance of the main speaker and does not temporally overlap with other utterances;
The information processing device according to <8> or <9>.
<11>
The one or more conditions include that the utterance is not an utterance of the main speaker and is not an utterance consisting only of compliments or fillers;
The information processing device according to any one of <8> to <10>.
<12>
The condition of 1 or more is that the utterance of the main speaker includes a part of the utterance that overlaps in time with other utterances, and the part that does not overlap in time with other utterances. including
The information processing device according to any one of <8> to <11>.
<13>
The output section is
The judgment unit determines that the detected utterances in the utterance section are utterances of the main speaker that include some utterances that overlap in time with other utterances, and are different in time from other utterances. If it is determined that there is a portion that does not overlap temporally, the content of the utterance of the main speaker's utterance that does not overlap temporally with the other utterances is used as a candidate for the training data. The information processing device according to <12>, which outputs.
<14>
The information processing apparatus according to
<15>
An information processing method using an information processing device, the information processing device comprising:
Get audio data,
detecting an utterance interval that is an utterance interval from the audio related to the audio data;
determining whether the detected utterance in the utterance section satisfies one or more preset conditions for outputting training data candidates;
An information processing method that outputs the content of a first utterance in the utterance section that is determined to satisfy the condition as a candidate for the teacher data.
<16>
Get audio data,
detecting an utterance interval that is an utterance interval from the audio related to the audio data;
determining whether the detected utterance in the utterance section satisfies one or more preset conditions for outputting training data candidates;
A program that causes an information processing device to execute a process of outputting content of a first utterance in the utterance section that is determined to satisfy the condition as a candidate for the teacher data.
100 情報処理システム
200 情報処理装置
250 音声認識部
260 生成支援部
261 判断部
262 出力部
263 生成部
280 認識結果データ記憶部
290 教師データ記憶部
400 端末装置
100
Claims (16)
前記音声データに係る音声から、発話がされた区間である発話区間を検出する音声認識部と、
検出された前記発話区間の発話が、教師データの候補を出力するために予め設定された1以上の条件を満たすかを判断する判断部と、
前記判断部で前記条件を満たすと判断された前記発話区間における第1の発話の内容を、前記教師データの候補として出力する出力部と、
を有する情報処理装置。 an acquisition unit that acquires audio data;
a speech recognition unit that detects a speech section that is a speech section from the speech related to the speech data;
a determination unit that determines whether the detected utterance in the utterance section satisfies one or more preset conditions for outputting training data candidates;
an output unit that outputs the content of the first utterance in the utterance section that is determined to satisfy the condition by the determination unit as a candidate for the teacher data;
An information processing device having:
前記第1の発話の内容を、前記教師データの候補として表示する第1の画面を出力する、
請求項1に記載の情報処理装置。 The output section is
outputting a first screen that displays the content of the first utterance as a candidate for the teacher data;
The information processing device according to claim 1.
前記情報処理装置は、さらに、
ユーザにより前記第1の画面で選択された前記第1の発話の内容に基づいて、教師データを生成する生成部を有する請求項2に記載の情報処理装置。 The content of the first utterance is selectably displayed on the first screen as the content of the utterance targeted for the teacher data to be generated;
The information processing device further includes:
The information processing apparatus according to claim 2, further comprising a generation unit that generates teacher data based on the content of the first utterance selected by the user on the first screen.
前記生成部は、ユーザにより前記第1の画面において前記第2の発話の内容が選択された場合、該第2の発話の内容に基づいて、前記教師データを生成する、
請求項3に記載の情報処理装置。 The first screen further includes the content of a second utterance in the utterance section that is determined by the determination unit to not satisfy the condition, and further includes the content of the second utterance that is used for the teacher data. can be selected as the content of the utterance,
The generation unit generates the teacher data based on the content of the second utterance when the content of the second utterance is selected by the user on the first screen.
The information processing device according to claim 3.
請求項4に記載の情報処理装置。 The first screen is a screen that visibly displays that the content of the first utterance among the content of the first utterance and the content of the second utterance is a candidate for the teacher data. ,
The information processing device according to claim 4.
請求項4に記載の情報処理装置。 The first screen is a screen that can reproduce audio data corresponding to the content of the first utterance and the content of the second utterance,
The information processing device according to claim 4.
請求項1に記載の情報処理装置。 2. The information processing device according to claim 1, wherein the content of the utterance in the utterance section includes at least audio data corresponding to the utterance section and a character string obtained by converting the audio data.
請求項1に記載の情報処理装置。 The audio data is audio data related to the audio of conversations of multiple speakers including the main speaker.
The information processing device according to claim 1.
請求項8に記載の情報処理装置。 The one or more conditions include that the utterance is by the main speaker;
The information processing device according to claim 8.
請求項8に記載の情報処理装置。 The one or more conditions include that the utterance is an utterance of the main speaker and does not temporally overlap with other utterances;
The information processing device according to claim 8.
請求項8に記載の情報処理装置。 The one or more conditions include that the utterance is not an utterance of the main speaker and is not an utterance consisting only of compliments or fillers;
The information processing device according to claim 8.
請求項8に記載の情報処理装置。 The condition of 1 or more is that the utterance of the main speaker includes a part of the utterance that overlaps in time with other utterances, and the part that does not overlap in time with other utterances. including
The information processing device according to claim 8.
前記判断部により、検出された前記発話区間の発話が、一部に他の発話と時間的に重複している発話を含む前記メインの話者の発話であって、且つ、他の発話と時間的に重複していない部分があると判断された場合に、当該メインの話者の発話において、前記他の発話と時間的に重複していない部分の発話の内容を、前記教師データの候補として出力する
請求項12に記載の情報処理装置。 The output section is
The judgment unit determines that the detected utterances in the utterance section are utterances of the main speaker that include some utterances that overlap in time with other utterances, and are different in time from other utterances. If it is determined that there is a portion that does not overlap temporally, the content of the utterance of the main speaker's utterance that does not overlap temporally with the other utterances is used as a candidate for the training data. The information processing device according to claim 12, wherein the information processing device outputs.
音声データを取得し、
前記音声データに係る音声から、発話がされた区間である発話区間を検出し、
検出された前記発話区間の発話が、教師データの候補を出力するために予め設定された1以上の条件を満たすかを判断し、
前記条件を満たすと判断された前記発話区間における第1の発話の内容を、前記教師データの候補として出力する、情報処理方法。 An information processing method using an information processing device, the information processing device comprising:
Get audio data,
detecting an utterance interval that is an utterance interval from the audio related to the audio data;
determining whether the detected utterance in the utterance section satisfies one or more preset conditions for outputting training data candidates;
An information processing method that outputs the content of a first utterance in the utterance section that is determined to satisfy the condition as a candidate for the teacher data.
前記音声データに係る音声から、発話がされた区間である発話区間を検出し、
検出された前記発話区間の発話が、教師データの候補を出力するために予め設定された1以上の条件を満たすかを判断し、
前記条件を満たすと判断された前記発話区間における第1の発話の内容を、前記教師データの候補として出力する、処理を情報処理装置に実行させる、プログラム。 Get audio data,
detecting an utterance interval that is an utterance interval from the audio related to the audio data;
determining whether the detected utterance in the utterance section satisfies one or more preset conditions for outputting training data candidates;
A program that causes an information processing device to execute a process of outputting content of a first utterance in the utterance section that is determined to satisfy the condition as a candidate for the teacher data.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18/198,848 US20230386508A1 (en) | 2022-05-26 | 2023-05-18 | Information processing apparatus, information processing method, and non-transitory recording medium |
CN202310588240.7A CN117133279A (en) | 2022-05-26 | 2023-05-24 | Information processing device, information processing method, storage medium, and computer device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022086243 | 2022-05-26 | ||
JP2022086243 | 2022-05-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023174514A true JP2023174514A (en) | 2023-12-07 |
Family
ID=89030296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023050529A Pending JP2023174514A (en) | 2022-05-26 | 2023-03-27 | Information processing device, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023174514A (en) |
-
2023
- 2023-03-27 JP JP2023050529A patent/JP2023174514A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10276164B2 (en) | Multi-speaker speech recognition correction system | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
KR102072730B1 (en) | Determining hotword suitability | |
CN110473525B (en) | Method and device for acquiring voice training sample | |
US10409547B2 (en) | Apparatus for recording audio information and method for controlling same | |
JP5756555B1 (en) | Utterance evaluation apparatus, utterance evaluation method, and program | |
CN110149805A (en) | Double-directional speech translation system, double-directional speech interpretation method and program | |
JPWO2008114811A1 (en) | Information search system, information search method, and information search program | |
JP6716300B2 (en) | Minutes generation device and minutes generation program | |
CN111868823A (en) | Sound source separation method, device and equipment | |
JP2006330170A (en) | Recording document preparation support system | |
CN110111778A (en) | A kind of method of speech processing, device, storage medium and electronic equipment | |
WO2016206647A1 (en) | System for controlling machine apparatus to generate action | |
JP2019215502A (en) | Server, sound data evaluation method, program, and communication system | |
WO2018043137A1 (en) | Information processing device and information processing method | |
JP2023174514A (en) | Information processing device, information processing method, and program | |
JPWO2014087571A1 (en) | Information processing apparatus and information processing method | |
CN110890095A (en) | Voice detection method, recommendation method, device, storage medium and electronic equipment | |
JP2021076715A (en) | Voice acquisition device, voice recognition system, information processing method, and information processing program | |
JP2011199698A (en) | Av equipment | |
JP5573402B2 (en) | CONFERENCE SUPPORT DEVICE, CONFERENCE SUPPORT METHOD, CONFERENCE SUPPORT PROGRAM, AND RECORDING MEDIUM | |
US20230386508A1 (en) | Information processing apparatus, information processing method, and non-transitory recording medium | |
CN117133279A (en) | Information processing device, information processing method, storage medium, and computer device | |
JP4877112B2 (en) | Voice processing apparatus and program | |
US20230260505A1 (en) | Information processing method, non-transitory recording medium, information processing apparatus, and information processing system |