JP2015082087A - Information processing device, program, and method - Google Patents
Information processing device, program, and method Download PDFInfo
- Publication number
- JP2015082087A JP2015082087A JP2013221341A JP2013221341A JP2015082087A JP 2015082087 A JP2015082087 A JP 2015082087A JP 2013221341 A JP2013221341 A JP 2013221341A JP 2013221341 A JP2013221341 A JP 2013221341A JP 2015082087 A JP2015082087 A JP 2015082087A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- importance
- threshold
- feature value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000010365 information processing Effects 0.000 title claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims abstract description 136
- 238000001514 detection method Methods 0.000 claims abstract description 55
- 230000005236 sound signal Effects 0.000 claims description 74
- 238000012545 processing Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 description 38
- 238000000605 extraction Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 7
- 239000006185 dispersion Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 239000000872 buffer Substances 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 244000241235 Citrullus lanatus Species 0.000 description 1
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
- 238000006748 scratching Methods 0.000 description 1
- 230000002393 scratching effect Effects 0.000 description 1
Images
Landscapes
- Navigation (AREA)
Abstract
Description
本発明は、情報処理装置、プログラム、及び方法に関する。 The present invention relates to an information processing apparatus, a program, and a method.
近年、音声を文字列に変換する音声認識の技術が開発されている。音声認識では、例えばユーザが何らかの語句を発話し、音声を入力すると、その音声から発話されている語句が認識され文字列に変換される。ユーザは音声認識の技術を利用することで、例えばキーボードやタッチパネルなどを用いなくとも、発話により情報を入力することができる。 In recent years, a speech recognition technique for converting speech into a character string has been developed. In the speech recognition, for example, when a user speaks a certain phrase and inputs a speech, the phrase spoken from the speech is recognized and converted into a character string. A user can input information by utterance without using a keyboard or a touch panel, for example, by using a voice recognition technique.
これに関し、比較的長い音声や、人間同士の自然な対話音声であっても、実用上十分な要約を生成することのできる発話内容要約システムを提供する技術が知られている。また、同一の話者の発声様態が多様に変化する場合の音声や話者が変わった場合の音声を良好に認識する技術が知られている。音声のイントネーションパターンまたは音の高低を用いて音声をテキストに変換するための方法および装置を提供する技術が知られている。ワードスポッティングにより語句を音声認識する場合に、音声でない部分が語句の一部として認識されることを防止する技術が知られている。(例えば、特許文献1〜特許文献4を参照) In this regard, there is known a technique for providing an utterance content summarization system capable of generating a practically sufficient summary even with relatively long speech or natural dialogue speech between humans. In addition, there is known a technique for satisfactorily recognizing a voice when the utterance mode of the same speaker changes variously and a voice when the speaker changes. Techniques for providing a method and apparatus for converting speech to text using speech intonation patterns or pitches are known. A technique for preventing a non-speech part from being recognized as a part of a word when a word is recognized by word spotting is known. (For example, see Patent Documents 1 to 4)
この様な音声を文字列に変換する音声認識の技術において、所定の音声区間の音声の重要度を評価することが考えられる。例えば、会話の中で発話された語句などの重要度を適切に評価することができれば、音声認識された文字列の中から重要な単語を抽出することが可能となる。ユーザは抽出した重要な単語を用いて、例えば、会話の内容のメモや予定表等を簡便に作成することができる。この様な所定の音声区間の音声の重要度の評価を行うために、音声の重要度を評価するための指標として、例えば、音声の強度、抑揚、話速などの音声の発話の仕方を特徴付ける値を利用することが考えられる。しかしながら、音声の発話の仕方を特徴付ける特徴値は、発話を行う発話者によって、或いは同一の発話者であっても居る環境、及び体調などによってさまざまな値を示す。そのため、例えば、発話者が異なる音声、或いは同一の発話者であっても居る環境、及び体調などが異なる状況で得られた音声の重要度を、個々の音声に合わせて適切に評価することのできる技術は無かった。1つの側面では、本発明は、個々の音声に合わせて適切に重要度の評価を行うことのできる技術を提供することを目的とする。 In the speech recognition technology for converting such speech into a character string, it is conceivable to evaluate the importance of speech in a predetermined speech section. For example, if it is possible to appropriately evaluate the importance of a phrase uttered in a conversation, it is possible to extract an important word from a character string that has been speech-recognized. The user can easily create, for example, a memo of a conversation content, a schedule, etc. using the extracted important words. In order to evaluate the importance of the speech in such a predetermined speech section, as an index for evaluating the importance of the speech, for example, characterizing the speech utterance method such as speech strength, intonation, speech speed, etc. It is conceivable to use the value. However, the characteristic values that characterize the speech utterance method have various values depending on the utterer who makes the utterance or the environment in which the same utterer is present and the physical condition. For this reason, for example, the importance of voices obtained in different voices, or in environments where the same talker is present and in different physical conditions, can be appropriately evaluated according to the individual voices. There was no technology that could be done. In one aspect, an object of the present invention is to provide a technique capable of appropriately evaluating importance in accordance with individual voices.
本発明の一つの態様の情報処理装置は、特徴値算出部、不要語検出部、閾値設定部、及び音声区間重要度算出部を含む。特徴値算出部は、音声を特徴付ける第1の特徴値を、入力される音声信号の所定の音声区間に関して算出する。不要語検出部は、入力される音声信号に含まれている複数の単語のうちから、不要語を検出する。閾値設定部は、不要語が含まれている音声区間の音声を特徴付ける第2の特徴値を用いて閾値を設定する。音声区間重要度算出部は、閾値を用いて、各音声区間の音声の重要度を算出する。 An information processing apparatus according to one aspect of the present invention includes a feature value calculation unit, an unnecessary word detection unit, a threshold setting unit, and a speech segment importance calculation unit. The feature value calculation unit calculates a first feature value that characterizes the speech with respect to a predetermined speech section of the input speech signal. The unnecessary word detection unit detects an unnecessary word from a plurality of words included in the input audio signal. The threshold value setting unit sets the threshold value using a second feature value that characterizes the voice in the voice section including the unnecessary word. The voice section importance level calculation unit calculates the voice importance level of each voice section using a threshold value.
音声認識技術において所定の音声区間の音声の重要度を評価する際に、個々の音声に合わせて適切に重要度を評価することができる。 When evaluating the importance of speech in a predetermined speech section in speech recognition technology, it is possible to appropriately evaluate the importance according to individual speech.
以下、図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、複数の図面において対応する要素には同一の符号を付した。 Hereinafter, some embodiments of the present invention will be described in detail with reference to the drawings. In addition, the same code | symbol was attached | subjected to the corresponding element in several drawing.
上述のように、音声を文字列に変換する音声認識の技術が開発されている。音声認識では、例えばユーザが何らかの語句を発声し、音声を入力すると、その音声の発音を認識し文字列に変換する。この様な音声認識において、更に、音声中の重要な部分を抽出することができれば便利である。例えば、知人との電話で、待ち合わせの日取りや場所を決める会話をしたとする。この場合に、会話中に登場した語句が認識され文字列に変換されるだけでなく、登場した語句のうちで重要な単語(例えば、ここでは待ち合わせの日取り、場所など)を抽出し、ユーザに提示する。このような事ができれば、それらの重要と判定された単語を用いて、ユーザは容易に予定表に予定を登録したり、会話の内容のメモを作成したりすることが可能になり、便利である。或いは、別の例として、録音した音声中の重要な部分を抽出することができれば、録音した音声の中から重要な部分を掻い摘んで要約等を作成することが可能となり、ユーザが例えば議事録等を作成する際にかかる時間を短縮することが可能となる。そのため、音声中の所定の音声区間の重要度を評価することは有用である。 As described above, a speech recognition technique for converting speech into a character string has been developed. In speech recognition, for example, when a user utters a certain phrase and inputs speech, the pronunciation of the speech is recognized and converted into a character string. In such voice recognition, it is convenient if an important part in the voice can be extracted. For example, suppose you have a conversation with an acquaintance who decides the date and place of a meeting. In this case, not only the words that appear in the conversation are recognized and converted into character strings, but also the important words (for example, the date of meeting and the place here) are extracted from the words that appear, and the user To present. If such a thing can be done, it will be possible for the user to easily register a schedule in the schedule or create a note of the contents of the conversation using those words determined to be important. is there. Alternatively, as another example, if an important part in the recorded voice can be extracted, it is possible to create a summary or the like by scratching the important part from the recorded voice. It is possible to reduce the time taken to create the file. Therefore, it is useful to evaluate the importance of a predetermined speech section in speech.
音声中の所定の音声区間の重要度を評価するために、音声中の発話者の話し方を特徴付ける値(以降、特徴値とも呼ぶ)を用いることが考えられる。特徴値としては、例えば、音声の強度(パワー)、抑揚、及び話速などを用いることが考えられる。例えば、音声の強度(パワー)を用いる場合について述べると、一般に、発話者は、発話者が重要だと思っている内容を話すときには重要ではない内容を話しているときよりも大きな声を出す傾向がある。そのため、例えば、音声強度に対して閾値を設定し、音声中の或る音声区間が閾値以上の音声強度で話された場合には重要であると判定し、閾値よりも小さな音声強度で話された場合には重要ではないと判定する。例えば、この様に構成することで、音声中の音声区間の重要度を評価することが考えられる。即ち、例えば、音声の強度、抑揚、及び話速などの発話者の話し方を特徴付ける特徴値に対して閾値を設定し、その閾値を用いて特徴値を評価することで、音声中の音声区間の重要度を評価することが考えられる。また更に、音声認識により音声から認識された単語に対応する音声区間の重要度を評価することで、単語の重要度を評価することも考えられる。 In order to evaluate the importance of a predetermined speech section in the speech, it is conceivable to use a value that characterizes how the speaker in the speech speaks (hereinafter also referred to as a feature value). As the feature value, for example, it is conceivable to use sound intensity (power), intonation, speech speed, and the like. For example, in the case of using voice strength (power), in general, a speaker tends to speak louder than when speaking what is not important when speaking what the speaker thinks important. There is. Therefore, for example, a threshold is set for the voice intensity, and it is determined that the voice is important when a certain voice segment in the voice is spoken with a voice intensity higher than the threshold, and the voice is spoken with a voice intensity lower than the threshold. It is determined that it is not important. For example, by configuring in this way, it is conceivable to evaluate the importance of a speech section in speech. That is, for example, by setting a threshold value for a feature value that characterizes a speaker's way of speaking, such as voice strength, intonation, and speech speed, and evaluating the feature value using the threshold value, It is possible to evaluate the importance. Furthermore, it is also conceivable to evaluate the importance of a word by evaluating the importance of a speech section corresponding to a word recognized from speech by speech recognition.
しかしながら、この様な重要度の評価において用いる特徴値(例えば、音声の強度、抑揚、及び話速)は、発話者によって、或いは、同一の発話者であっても、その体調や気分、又は居る環境などによってさまざまな値を取り得る。そのため、例えば、発話者が異なる音声、或いは同一の発話者であっても、その体調や気分、又は居る環境などが異なる状況で得られた音声に対して、特定の値を閾値として用いて重要度を評価しようとしても、その重要度に十分な確度が得られない可能性がある。 However, the characteristic values (for example, the sound intensity, intonation, and speaking speed) used in the evaluation of such importance are determined by the speaker, or even if they are the same speaker, their physical condition and mood. It can take various values depending on the environment. Therefore, for example, it is important to use a specific value as a threshold for voices with different speakers or voices obtained in different situations such as the physical condition, mood, or environment of the same speaker. Even if the degree is evaluated, there is a possibility that sufficient accuracy cannot be obtained.
例えば、大きな声で早口で話し、抑揚も大きくつけて話す傾向のある人物が発話した音声と、小さな声でゆっくりと話し、抑揚も小さくつけて話す傾向のある人物が発話した音声とを、同じ閾値で評価しようとしても、その重要度を高い信頼性で得ることは難しい。そのため、例えば、個々の音声に対して、その音声に適した個別の閾値を設定し、重要度の評価を行うことのできる技術が望まれる。 For example, a voice spoken by a person who tends to speak loudly and speaks with high inflection and a voice spoken by a person who tends to speak slowly with low voice and speak with little inflection are the same. Even if it tries to evaluate with a threshold value, it is difficult to obtain the importance with high reliability. Therefore, for example, a technique capable of setting an individual threshold suitable for each voice and evaluating the importance for each voice is desired.
そこで、いくつかの実施形態では、音声中に登場する不要語を発話している音声区間の特徴値に基づいて閾値を設定することで、個々の音声に適した個別の閾値を設定し、重要度を評価することを可能とする。 Therefore, in some embodiments, by setting a threshold value based on the feature value of a voice section in which an unnecessary word appearing in the voice is spoken, an individual threshold value suitable for each voice is set. It is possible to evaluate the degree.
まず、不要語について説明する。一般に、話し言葉には、書き言葉には登場しない単語が登場する。例えば、発話者の言いよどみの際に発声される「いや」、「あの」、「えー」、や「えーと」などの単語を含む間投詞(感動詞)は、書き言葉では一般には登場しない単語であるが、話し言葉には数多く登場する。また、これらの単語は話の内容とは無関係であることが多く、相手に情報を伝える上では不要であることが多い。そのため、これらの単語は、発話される際に発話者により強調して発話されにくい傾向がある。この様な発話される際に発話者により強調して発話されにくい傾向のある単語を、以降の説明では不要語と呼ぶ。不要語は、発話する際に発話者により強調して発話されにくい傾向のある単語であれば、上述の間投詞に分類される単語の他にも、例えば、「だから」などの接続詞に分類される単語等を含んでいてもよい。 First, unnecessary words will be described. In general, words that do not appear in written language appear in spoken language. For example, interjections (impression verbs) that contain words such as “no”, “that”, “e”, and “e” that are uttered when the speaker speaks are words that do not generally appear in written language. Many appear in spoken language. In addition, these words are often unrelated to the content of the story, and are often unnecessary to convey information to the other party. Therefore, when these words are uttered, they tend to be emphasized by the speaker and difficult to utter. Words that tend to be emphasized by a speaker and difficult to utter when such a utterance is spoken are referred to as unnecessary words in the following description. If the unnecessary word is a word that tends to be emphasized by a speaker and difficult to speak when speaking, in addition to the word classified as an interjection as described above, the unnecessary word is classified as a conjunction such as “So”. It may contain words and the like.
以下で例示するいくつかの実施形態では、これらの発話する際に発話者により強調されにくい傾向がある不要語を発話している音声区間の音声から特徴値を取得し、その特徴値に基づいて閾値を算出する。そして、得られた閾値を用いて、音声中の音声区間の重要度の評価を行う。ここで、重要度の評価に用いる閾値は、個々の音声に基づいて動的に算出されるため、複数の音声に対して特定の閾値を用いて重要度を算出する場合と比較して、高い確度で重要度を評価することができる。 In some embodiments exemplified below, a feature value is obtained from a voice of a voice section that utters an unnecessary word that tends not to be emphasized by a speaker when speaking, and based on the feature value. Calculate the threshold. Then, using the obtained threshold value, the importance of the speech section in the speech is evaluated. Here, since the threshold value used for the importance evaluation is dynamically calculated based on each voice, it is higher than the case where the importance is calculated using a specific threshold for a plurality of voices. Importance can be evaluated with accuracy.
図1は、いくつかの実施形態に係る情報処理装置1の機能ブロック構成を例示する図である。情報処理装置1は、例えば、制御部100及び記憶部110を含んでいる。制御部100は、例えば、音声認識部111、特徴値算出部112、不要語検出部113、不要語音声切出部114、閾値設定部115、音声区間重要度算出部116、及び単語重要度算出部117などの機能部101を含んでいる。情報処理装置1の記憶部110は、例えば、プログラム120、並びに後述する辞書情報300、及び不要語辞書情報400を記憶している。情報処理装置1の制御部100は、プログラム120を読み出して実行することで例えば音声認識部111、特徴値算出部112、不要語検出部113、及び不要語音声切出部114などの機能部101として機能する。また、情報処理装置1の制御部100は、プログラム120を読み出して実行することで例えば、閾値設定部115、音声区間重要度算出部116、及び単語重要度算出部117などの機能部101として機能する。これらの各機能部101の詳細及び記憶部110に格納されている情報130の詳細については後述する。
FIG. 1 is a diagram illustrating a functional block configuration of an information processing apparatus 1 according to some embodiments. The information processing apparatus 1 includes a control unit 100 and a storage unit 110, for example. The control unit 100 includes, for example, a
図2は、図1の機能部101の各部によって実行される重要度算出の流れを例示する図である。例えば、マイクなどの音声入力装置から、或いは記憶部110に格納されている音声データから制御部100へと音声信号が入力されると、音声認識部111は、入力されている音声信号に対して音声認識を行い、発話されている文字列を認識する処理を実行する。続いて、音声認識部111は、認識した文字列と、例えば記憶部110に記憶されている辞書情報300に登録されている単語とのマッチングを行い、音声中で発話されている単語を検出する。音声認識部111は、単語を検出した場合、検出した単語を不要語検出部113及び単語重要度算出部117に随時出力する。特徴値算出部112は、制御部100に入力されている音声信号に対して、所定の音声区間毎に例えば、音声の強度、抑揚、及び話速などの発話者の話し方を特徴付ける特徴値を算出する処理を実行し、得られた特徴値を音声区間重要度算出部116に出力する。
FIG. 2 is a diagram illustrating a flow of importance calculation executed by each unit of the
不要語検出部113は、例えば、音声認識部111から単語が入力されると、入力された単語が、発話する際に発話者により強調されにくい傾向のある不要語であるか否かを判定する。そして、不要語検出部113は、判定結果である不要語検出情報を不要語音声切出部114へと出力する。なお、不要語か否かの判定は、例えば、音声認識部111から入力された単語と一致する単語が、記憶部110に格納されている不要語辞書情報400に登録されているか否かにより判定されてよい。
For example, when a word is input from the
不要語音声切出部114は、例えば、制御部100に入力されている音声信号を記憶部110にバッファリングする。そして、不要語音声切出部114は、不要語検出部113から不要語であることを示す不要語検出情報が入力された際に、その不要語が発話されている音声区間の音声データを、バッファリングした音声データから切り出す。続いて、不要語音声切出部114は、切り出した音声データを閾値設定部115へと出力する。
The unnecessary word
閾値設定部115は、例えば、不要語音声切出部114から入力された、不要語が発話されている音声区間の音声の特徴値を算出する。そして、閾値設定部115は、例えば、算出された不要語が発話されている音声区間の音声の特徴値を基に、重要度の評価に用いる閾値を算出し、音声区間重要度算出部116へと出力する。音声区間重要度算出部116は、閾値設定部115から得られた閾値と、特徴値算出部112で算出された所定の音声区間に対する特徴値とを用いて、その所定の音声区間の重要度を算出し、得られた所定の音声区間の重要度を単語重要度算出部117に出力する。単語重要度算出部117は、例えば、音声区間重要度算出部116で算出された所定の音声区間毎の重要度を用いて、音声認識部111で検出された単語の重要度を算出し、単語を、その単語の重要度とともに出力する。音声区間重要度算出部116は、例えば、重要度が付加された単語を記憶部110に出力し、記憶する。
For example, the threshold
以上のようにして、いくつかの実施形態においては不要語が発話されている音声区間の音声に対して算出された特徴値に基づいて閾値を設定し、音声の重要度を評価する。従って、個々の音声に対して、その音声に適した個別の閾値を設定し、重要度の評価を行うことができる。以下、各機能部による処理の詳細を説明する。 As described above, in some embodiments, a threshold is set based on a feature value calculated for speech in a speech section in which an unnecessary word is uttered, and speech importance is evaluated. Therefore, for each voice, an individual threshold value suitable for the voice can be set, and the importance can be evaluated. Details of processing by each functional unit will be described below.
図3は、辞書情報300を例示する図である。図3の例では辞書情報300には、単語情報301が登録されている。単語情報301は、例えば、単語と、その読み(読み仮名)とを含み、これらの情報は単語情報301により対応付けられている。音声認識部111は、例えば、音声から音声認識された文字列と、辞書情報300に登録されている単語情報301の読みとが一致するか否かを判定し、一致する単語を特定することで、音声中で発話されている単語を検出してもよい。また、音声認識部111は、音声認識された文字列中の複数の単語の相互関係から、音声中の単語の検出精度を向上させる処理を実行してもよい。或いは、既知の音声認識技術で用いられる音声中の単語を検出する技術を、いくつかの実施形態における音声からの単語の検出に利用してもよい。なお、辞書情報300には、後述する不要語辞書情報400に登録されている不要語も登録されている。
FIG. 3 is a diagram illustrating the
図4は、不要語辞書情報400を例示する図である。図4の例では不要語辞書情報400には、不要語情報401が登録されている。不要語情報401は、例えば、発話される際に発話者により強調されにくい傾向がある単語である不要語を含む。不要語は、例えば、接続詞及び間投詞に分類される単語などを含んでいてよい。不要語検出部113は、例えば、音声認識部111から入力される単語と、記憶部110に記憶されている不要語辞書情報400の不要語情報401に含まれる不要語とが一致するか否かを判定し、一致する場合に、不要語を検出したと判定してもよい。
FIG. 4 is a diagram illustrating unnecessary
図5は、不要語検出部113によって実行される不要語検出処理の動作フローを例示する図である。図5の不要語検出処理の動作フローは、例えば、不要語検出部113が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、音声認識部111で検出された単語が不要語検出部113へと入力される度に、図5の不要語検出処理は開始する。
FIG. 5 is a diagram illustrating an operation flow of an unnecessary word detection process executed by the unnecessary
ステップS501において、不要語検出部113は、音声認識部111から入力された単語を読み込む。ステップS502において不要語検出部113は、ステップS501で読み込んだ単語が、不要語辞書情報400に存在するか否かを判定する。単語が不要語辞書情報400に存在する場合(ステップS502がYES)、不要語検出部113は不要語を検出したことを示す不要語検出情報を不要語音声切出部114に出力し、本動作フローは終了する。一方、読み込んだ単語が不要語辞書情報400に存在していない場合(ステップS502がNO)、不要語検出部113は不要語を検出していないことを示す不要語検出情報を不要語音声切出部114に出力し、本動作フローは終了する。一実施形態においては、不要語検出部113は、不要語を検出した場合には不要語検出情報として「1」を、一方、検出していない場合には不要語検出情報として「0」を不要語音声切出部114に出力するように構成してもよい。
In step S <b> 501, the unnecessary
図6は、不要語音声切出部114によって実行される不要語音声切出処理の動作フローを例示する図である。図6の不要語音声切出処理の動作フローは、例えば、不要語音声切出部114が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、不要語検出部113から出力された不要語検出情報が不要語音声切出部114に入力される度に、図6の不要語音声切出処理は開始する。なお、一実施形態において、不要語音声切出部114は、制御部100に入力されている音声信号を記憶部110にバッファリングする処理も実行する。それにより、記憶部110には、制御部100に現在入力されている音声信号から例えば3秒間分などの所定の期間遡った時点までの音声データがバッファリングされる。
FIG. 6 is a diagram exemplifying an operation flow of the unnecessary word sound extraction process executed by the unnecessary word
ステップS601において不要語音声切出部114は、不要語検出部113から入力された不要語検出情報を読み込む。ステップS602において不要語音声切出部114は、読み込んだ不要語検出情報が、不要語を検出したことを表しているか否かを判定する。一実施形態においては、不要語音声切出部114は、不要語検出情報の値が「1」である場合には、不要語を検出したことを表していると判定し、「0」である場合には不要語を検出していないことを表していると判定してもよい。不要語検出情報が不要語を検出していないことを表している場合(ステップS602がNO)、本動作フローは終了する。一方、不要語検出情報が不要語を検出したことを表している場合(ステップS602がYES)、フローはステップS603へと進む。ステップS603において不要語音声切出部114は、記憶部110にバッファリングしている音声データから、ステップS601で読み込んだ不要語検出情報において不要語として検出された単語の音声区間を切り出して閾値設定部115へと出力する。一実施形態においては、不要語を検出したことを表す不要語検出情報が入力された時刻から所定の期間遡った時刻までの音声区間の音声データを切り出し、閾値設定部115へと出力する。不要語音声切出部114が、閾値設定部115へと切り出した音声データを出力すると、本動作フローは終了する。
In step S <b> 601, the unnecessary word
なお、上記の不要語が発話されている音声区間である可能性の高い所定の期間の長さは、例えば、記憶部110にバッファリングされている音声データの時間長を超えない範囲に設定される。一実施形態においては、この所定の期間の長さは、ステップS601で検出された不要語の文字列の長さ又は音節数と、一般的な話速の平均速度などに基づいて不要語が発話されている音声区間の長さを見積もることで設定されてよい。 Note that the length of the predetermined period that is likely to be a speech section in which the unnecessary word is spoken is set to a range that does not exceed the time length of the speech data buffered in the storage unit 110, for example. The In one embodiment, the length of the predetermined period is determined based on the length of the character string or the number of syllables of the unnecessary word detected in step S601 and the average speed of the general speaking speed. It may be set by estimating the length of the voice section being used.
図7は、以上の図3から図6を参照して述べた処理による不要語が発話されている音声区間の音声データの切り出しを例示する図である。図7において、tは、例えば、音声信号の入力が開始してからの経過時間である。音声認識結果701は、入力される音声信号に対して音声認識部111が音声認識を実行した結果を示しており、図示されるように入力された音声から単語が時系列に沿って順次検出されている。なお、図7の例では、「いや」の単語が検出された状況を示している。不要語検出情報702は、ステップS503又はステップS504にて不要語検出部113から出力される不要語検出情報であり、音声中で認識された単語に対する不要語検出情報が時系列に沿って示されている。なお、図7の例では、不要語検出情報の値:1は検出された単語が不要語であることを表しており、0は不要語ではないことを表している。例えば、図7では、音声認識された「いや」に対して「1」が判定されており、これは、「いや」が不要語であることを表している。音声信号703は、不要語音声切出部114によって例えば記憶部110にバッファリングされている音声信号を表している。
FIG. 7 is a diagram exemplifying extraction of voice data in a voice section in which an unnecessary word is uttered by the processing described with reference to FIGS. 3 to 6 above. In FIG. 7, for example, t is an elapsed time from the start of input of the audio signal. A
図7に示す例では、音声信号は現在単語「いや」が発話し終わったタイミングに位置している。この単語「いや」が発話し終わったタイミングで、音声認識部111は、音声認識結果701として単語「いや」を検出しており、その認識結果に対して、不要語検出部113が単語「いや」が不要語であることを示す「1」を出力している。この場合に、不要語音声切出部114は、不要語である「いや」が発話されている音声区間の音声データの切り出しを行うが、現在、音声信号は不要語「いや」を発話し終わっているタイミングである。そのため、「いや」が発話されている音声区間の音声データを切り出すためには、音声データを遡って切り出しを行う必要がある。そこで、一実施形態においては、現在入力されている音声信号の位置から例えば3秒間分などの所定の期間遡った時点までの音声データを記憶部110などにバッファリングしている。そして、不要語音声切出部114は不要語が検出されたタイミングで、バッファリングしておいた音声データから所定期間遡って音声データを切り出す。図7では、例えば、この様にして不要語「いや」の音声区間の音声データを切り出している。
In the example shown in FIG. 7, the audio signal is positioned at the timing when the word “No” is finished speaking. The
図8は、閾値設定部115によって実行される閾値設定処理の動作フローを例示する図である。図8の閾値設定処理の動作フローは、例えば、閾値設定部115が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に、閾値設定処理は開始する。なお、図8では、特徴値として、音声の強度(パワー)を用いる場合を例示する。
FIG. 8 is a diagram illustrating an example of the operation flow of the threshold setting process executed by the
ステップS801において閾値設定部115は、不要語音声切出部114から入力される不要語が発話されている音声区間の音声信号の音声データを読み込む。ステップS802で閾値設定部115は、読み込んだ音声データに含まれる音声信号の強度を算出する。音声信号の強度は、例えば以下の式1で得ることができる。
ここで、Pは求めたい音声の強度である。xは音声信号をサンプリングしたときの各サンプルの値である。Nは、強度を算出する音声区間において行ったサンプリング数である。例えば、8kHzでサンプリングを行い、強度を算出する音声区間が20msecであるとする。この場合、8000サンプル/sec×0.2sec=160サンプル(N=160)である。なお、ステップS802で強度を算出する音声区間は、例えば、不要語音声切出部114が切り出す音声データの長さであってもよい。
Here, P is the intensity of the desired voice. x is the value of each sample when the audio signal is sampled. N is the number of samplings performed in the speech interval for calculating the intensity. For example, it is assumed that sampling is performed at 8 kHz and the voice section for calculating the intensity is 20 msec. In this case, 8000 samples / sec × 0.2 sec = 160 samples (N = 160). Note that the voice section for which the strength is calculated in step S802 may be, for example, the length of the voice data cut out by the unnecessary word
続いて、ステップS803において閾値設定部115は、平均強度を算出する。上述のように図8の動作フローは、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に実行され、その都度ステップS802にて入力された音声データに含まれる不要語を発話している音声区間の音声信号の強度が算出される。ステップS803では、この切り出した音声データが閾値設定部115へと入力される度にステップS802で算出される音声強度の平均値を、平均強度として算出する。
Subsequently, in step S803, the
平均強度は、例えば、以下の式2で算出されてよい。
Pua(t)=αPu(t)+(1-α)Pua(t-1) ・・・式2
The average intensity may be calculated by, for example, the following formula 2.
Pua (t) = αPu (t) + (1-α) Pua (t-1) Equation 2
ここで、tは、例えば、音声信号の入力が開始してから現在までに図8の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部113によって検出された回数である。Pua(t)は、求めたい平均強度である。Pu(t)は、ステップS802で算出した強度である。Pua(t-1)は、前回の図8の動作フローの実行時(即ち、t−1回目の実行時)に算出された平均強度の値である。なお、例えば、音声信号の入力が開始した以降に図8の動作フローが初めて実行される場合には、ステップS803では上記式2の計算を行わず、ステップS802で算出された強度をそのまま平均強度として用いてもよい。或いは、別の実施形態では、音声信号の入力が開始した以降に図8の動作フローが初めて実行される場合には、予め設定した所定値をPua(t-1)として用いてもよい。αは、前回の図8の動作フローの実行で算出された平均強度に、今回の図8の動作フローの実行でステップS802において算出された強度をどれくらい寄与させるかを表す寄与係数であり、例えば0.01などであってよい。
Here, t is, for example, the number of times that the operation flow of FIG. 8 has been executed from the start of the input of the audio signal to the present. That is, t is, for example, the number of times that an unnecessary word has been detected by the unnecessary
ステップS804において閾値設定部115は、標準偏差を算出する。上述のように図8の動作フローは、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に実行され、その都度ステップS802にて入力された音声データに含まれる不要語を発話している音声区間の音声信号の強度が算出される。ステップS804では、この切り出した音声データが閾値設定部115へと入力される度にステップS802で算出される音声強度の標準偏差を算出する。
In step S804, the
閾値設定部115は、まず、切り出した音声データが閾値設定部115へと入力される度にステップS802で算出される音声強度の分散値を算出する。分散値は、例えば、以下の式3で算出されてよい。
σ2(t)=β(Pu(t)-Pua(t))2+(1-β)σ2(t-1) ・・・式3
First, the
σ 2 (t) = β (Pu (t) -Pua (t)) 2 + (1-β) σ 2 (t-1)
ここで、tは、例えば、音声信号の入力が開始してから現在までに図8の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部113によって検出された回数である。σ2(t)は、求めたい分散値である。Pu(t)は、ステップS802で算出した強度である。Pua(t)は、ステップS803で算出した平均強度である。σ2(t-1)は、前回の図8の動作フローの実行時にステップS804で算出された分散値である。βは、前回の図8の動作フローの実行で算出された分散値に、今回の図8の動作フローの実行でステップS802において算出された強度の平均強度からの差分を、どれくらい寄与させるかを表す寄与係数である。βは、例えば0.01などであってよい。そして、閾値設定部115は、得られた分散値の正の平方根をとり、音声強度の標準偏差:σを算出する。
Here, t is, for example, the number of times that the operation flow of FIG. 8 has been executed from the start of the input of the audio signal to the present. That is, t is, for example, the number of times that an unnecessary word has been detected by the unnecessary
ステップS805において、閾値設定部115は、ステップS803で算出した平均強度:Pua(t)と、ステップS804で算出した標準偏差:σとを用いて閾値を設定し、設定した閾値を音声区間重要度算出部116に出力し、本動作フローは終了する。なお、ステップS805において設定する閾値は、音声信号の重要度を何段階で評価したいか等のユーザの目的に応じて、様々な値を設定することができる。以下の説明では、閾値として第1の閾値:Pua(t)+σ、及び第2の閾値:Pua(t)+1.5σの2つの閾値を設定する場合を例示する。しかしながら、設定される閾値の値及び数は、これに限定されるものではない。例えば、ステップS805で設定する閾値の数は1つであってもよいし、2つ以上の複数の閾値が設定されてもよい。また閾値の値には、例えば、Pua(t)+0.5σ、Pua(t)+0.8σ、Pua(t)+1.3σ、Pua(t)+2.0σというように、標準偏差:σに所定の正の倍率を掛けた値を、平均強度に加算した様々な値が設定されてよい。なお、ここで、正の倍率を掛けたσを平均強度に加算して閾値を設定する理由は、例えば、後述するように発話者が重要だと思っている内容を話す場合、音声強度が強くなる傾向があるためである。
In step S805, the
図9は、特徴値算出部112によって実行される特徴値算出処理の動作フローを例示する図である。図9の特徴値算出処理の動作フローは、例えば、特徴値算出部112が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、例えば、マイクなどの音声入力装置から、或いは記憶部110に格納されている音声データからの制御部100への音声信号の入力が開始すると、図9の動作フローは開始する。なお、図9の例では、特徴値として、音声の強度(パワー)を用いる場合を例示する。
FIG. 9 is a diagram illustrating an operation flow of the feature value calculation process executed by the feature
ステップS901において特徴値算出部112は、入力されている音声信号を所定期間にわたって読み込む。ステップS902において特徴値算出部112は、読み込んだ所定期間の音声信号の強度:Pを算出する。音声の強度:Pは、例えば、上述の式1により算出することができる。
In step S901, the feature
ステップS903で特徴値算出部112は、ステップS902で算出した強度を、音声区間重要度算出部116に出力し、フローはステップS901へと戻る。以上のようにして、特徴値算出部112は、入力される音声信号の所定期間毎の音声強度を算出し、音声区間重要度算出部116に出力する。
In step S903, the feature
図10は、音声区間重要度算出部116によって実行される重要度算出処理の動作フローを例示する図である。図10の重要度算出処理の動作フローは、例えば、音声区間重要度算出部116が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、例えば、閾値設定部115から閾値が音声区間重要度算出部116に入力されている状態で、特徴値算出部112から特徴値が入力されると、図10の動作フローは開始する。
FIG. 10 is a diagram illustrating an operation flow of importance calculation processing executed by the speech section
ステップS1001において音声区間重要度算出部116は、入力された特徴値及び閾値を読み込む。特徴値は、例えば、特徴値算出部112から入力される所定区間の音声信号の強度:Pである。また、閾値は、例えば、閾値設定部115で設定した閾値であり、ここでは、閾値として第1の閾値:Pua(t)+σ、及び第2の閾値:Pua(t)+1.5σの2つの閾値が入力されているものとする。
In step S1001, the speech interval
ステップS1002で音声区間重要度算出部116は、特徴値算出部112から入力される特徴値が、第1の閾値以上であるか否かを判定する。即ち、音声区間重要度算出部116は、P ≧ Pua + σを満たすか否かを判定する。所定区間の音声信号の強度:Pが不要語が検出された音声区間の音声信号の平均強度に標準偏差:σを加算した第1の閾値よりも小さい場合(ステップS1002がNO)、フローはステップS1003へと進む。ステップS1003において音声区間重要度算出部116は、重要度の評価値:1を出力して本動作フローは終了する。一方、所定区間の音声信号の強度:Pが不要語が検出された音声区間の音声信号の平均強度に標準偏差:σを加算した第1の閾値以上である場合(ステップS1002がYES)、フローはステップS1004へと進む。
In step S <b> 1002, the speech section importance
ステップS1004において音声区間重要度算出部116は、特徴値算出部112から入力される特徴値が、第2の閾値以上であるか否かを判定する。即ち、例えば、音声区間重要度算出部116は、P ≧ Pua + 1.5σを満たすか否かを判定する。所定区間の音声信号の強度:Pが不要語が検出された音声区間の音声信号の平均強度に標準偏差の1.5倍値:1.5σを加算した第2の閾値よりも小さい場合(ステップS1004がNO)、フローはステップS1005へと進む。ステップS1005において音声区間重要度算出部116は、重要度の評価値:2を出力して本動作フローは終了する。一方、所定区間の音声信号の強度:Pが不要語が検出された音声区間の音声信号の平均強度に標準偏差の1.5倍値:1.5σを加算した第2の閾値以上である場合(ステップS1004がYES)、フローはステップS1006へと進む。ステップS1006において音声区間重要度算出部116は、重要度の評価値:3を出力して本動作フローは終了する。
In step S <b> 1004, the speech section importance
以上の処理で出力される、音声信号の強度に基づいて算出された所定区間の音声信号に対する重要度の評価値は、値が大きいほど重要である可能性が高いことを示しており、所定区間の音声信号の重要性を評価するための指標として用いることができる。強度に基づく所定区間の音声信号に対する重要度の評価値について、図11を参照し更に説明する。 The importance evaluation value for the audio signal in the predetermined interval calculated based on the intensity of the audio signal output by the above processing indicates that the higher the value, the higher the possibility that it is important. It can be used as an index for evaluating the importance of the voice signal. The importance evaluation value for the audio signal in a predetermined section based on the intensity will be further described with reference to FIG.
図11は、特徴値が音声信号の強度である場合における重要度の評価について説明する図である。図11には、不要語の音声区間における音声強度の分布が示されている。上述のように、一般に、発話者は、発話者が重要だと思っている内容を話すときには重要ではないと思っている内容を話しているときよりも大きな声を出す傾向がある。そして、例えば、間投詞などの不要語は、一般に、話の内容とは無関係な単語であることが多く、相手に情報を伝える上では不要であることが多い。そのため、これらの単語は、発話者にとって重要ではない内容に相当し、発話される際に発話者により強調されにくい傾向がある。即ち、不要語を発話している音声区間の音声信号の強度は、例えば、発話者が重要だと思っている内容を話しているときの音声信号の強度と比較して小さい値をとる傾向がある。そのため、例えば、発話者が不要語を話している音声区間から得られた音声信号の平均強度は、音声信号が重要であるか否かの判定で用いる閾値を定める上での基準値として用いることができる。また、発話者が不要語を話している際中の音声区間から得られた音声信号の強度の標準偏差は、例えば、発話者が不要語を話す際に基準値からどの程度強度に強弱をつけて話すか等の発話者の話し方の特徴を表わしている。そのため、この音声信号の強度の標準偏差は、重要度の判定に用いる閾値を、基準値からどの程度離れて大きい音声強度に設定するかを定める上での指標として用いることができる。例えば、所定区間の音声信号の音声強度が、基準となる不要語の音声信号の平均強度に標準偏差を加算した値以上の音声強度である場合には、その音声区間は、その発話者が不要語を話している時よりも顕著に大きな声で発話していることになる。従って、重要である可能性が高いと判定できる。 FIG. 11 is a diagram for explaining the evaluation of the importance when the feature value is the strength of the audio signal. FIG. 11 shows the distribution of speech intensity in the speech section of unnecessary words. As described above, generally speaking, a speaker tends to speak louder when speaking what the speaker thinks is important than when speaking what is not important. For example, unnecessary words such as interjections are generally words that are unrelated to the content of the story, and are often unnecessary for conveying information to the other party. For this reason, these words correspond to contents that are not important to the speaker, and tend not to be emphasized by the speaker when speaking. That is, the intensity of the voice signal in the voice section where the unnecessary word is uttered tends to take a small value compared to the intensity of the voice signal when, for example, the speaker is talking about what is considered important. is there. Therefore, for example, the average intensity of the voice signal obtained from the voice section in which the speaker is speaking an unnecessary word should be used as a reference value for determining a threshold value used in determining whether or not the voice signal is important. Can do. In addition, the standard deviation of the intensity of the speech signal obtained from the speech segment when the speaker is speaking an unnecessary word is, for example, how much intensity is increased from the reference value when the speaker speaks an unnecessary word. This shows the characteristics of the speaker's way of speaking. Therefore, the standard deviation of the intensity of the audio signal can be used as an index for determining how far the threshold used for determining the importance is set to a high audio intensity from the reference value. For example, when the voice intensity of a voice signal in a predetermined section is equal to or greater than the value obtained by adding the standard deviation to the average intensity of the voice signal of an unnecessary word as a reference, that voice section does not require the speaker You are speaking louder than when speaking a language. Therefore, it can be determined that there is a high possibility of being important.
例えば、以上のような観点から、図8から図11に示す例では、発話者が、平均強度に標準偏差を加算した値よりも大きな強度で話している場合に、音声区間重要度算出部116が評価値:1よりも大きい評価値:2を出力するように構成している。また、更に、発話者が、平均強度に標準偏差の1.5倍を加算した値よりも大きな強度で話している場合には、音声区間重要度算出部116が評価値:2よりも大きい評価値:3を出力するように構成している。また、評価値は、本実施形態においては値が大きいほど重要である可能性が高いことを示すように構成している。
For example, from the above viewpoint, in the example shown in FIGS. 8 to 11, when the speaker is speaking at an intensity greater than the value obtained by adding the standard deviation to the average intensity, the speech interval
以上で述べたように、不要語を発話している音声区間から得られた音声信号の平均強度と、その標準偏差から、音声信号の重要度を判定する閾値を動的に算出し、重要度を評価することができる。ここで、閾値の設定に用いられる平均強度及び標準偏差は、発話者の音声信号に基づいて算出されている。従って、例えば、発話を記録した2つの音声データがある場合に、それぞれの音声データに対して個別に閾値を設定し、重要度の評価を行うことができる。従って、例えば発話者によって話し方に違いがある場合や、または、同一の発話者が、居る環境や体調などに応じて話し方を変えている場合であっても、個々の音声データに対して個別に適切な閾値を設定し、音声信号の重要度を評価することができる。 As described above, the threshold for determining the importance of the speech signal is dynamically calculated from the average intensity of the speech signal obtained from the speech section that utters the unnecessary word and its standard deviation. Can be evaluated. Here, the average intensity and the standard deviation used for setting the threshold are calculated based on the speech signal of the speaker. Therefore, for example, when there are two audio data in which utterances are recorded, it is possible to individually set a threshold value for each audio data and evaluate the importance. Therefore, for example, even when there is a difference in the way of speaking by the speaker, or even when the same speaker changes the way of speaking according to the environment and physical condition, the individual voice data is individually An appropriate threshold can be set to evaluate the importance of the audio signal.
続いて、図12から図14を参照して、特徴値として音声の抑揚を用いる場合の例を述べる。なお、特徴値として音声の抑揚を用いる場合、一実施形態においては、上記図8の閾値設定処理の動作フローの代わりに、以下で述べる図12の閾値設定処理を実行する。また、図9の特徴値算出処理の動作フローの代わりに、以下で述べる図13の特徴値算出処理の動作フローを実行する。以下、これらの処理の詳細について述べる。 Next, an example in which speech inflection is used as a feature value will be described with reference to FIGS. When speech inflection is used as the feature value, in one embodiment, the threshold setting process of FIG. 12 described below is executed instead of the operation flow of the threshold setting process of FIG. Further, instead of the operation flow of the feature value calculation process of FIG. 9, the operation flow of the feature value calculation process of FIG. 13 described below is executed. Details of these processes will be described below.
図12は、閾値設定部115によって実行される閾値設定処理を例示する図である。図12の閾値設定処理の動作フローは、例えば、閾値設定部115が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に、図12の閾値設定処理は開始する。
FIG. 12 is a diagram illustrating a threshold setting process executed by the
ステップS1201において閾値設定部115は、不要語音声切出部114から入力される不要語が発話されている音声区間の音声信号の音声データを読み込む。ステップS1202で閾値設定部115は、読み込んだ音声データに含まれる音声信号の抑揚を算出する。音声信号の抑揚は、例えば読み込まれた音声信号の音声区間において、最も高い音と最も低い音との周波数の差分を算出することで得ることができる。
In step S <b> 1201, the
続いて、ステップS1203において閾値設定部115は、平均抑揚を算出する。上述のように図12の動作フローは、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に実行され、その都度ステップS1202にて不要語を発話している音声区間の音声信号の抑揚が算出される。ステップS1203では、この切り出した音声データが閾値設定部115へと入力される度にステップS1202で算出される音声の抑揚の平均値を、平均抑揚として算出する。
Subsequently, in step S1203, the
平均抑揚は、例えば、以下の式4で算出されてよい。
Iua(t)=αIu(t)+(1-α)Iua(t-1) ・・・式4
ここで、tは、例えば、音声信号の入力が開始してから現在までに図12の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部113によって検出された回数である。Iua(t)は、求めたい平均抑揚である。Iu(t)は、ステップS1202で算出した抑揚である。Iua(t-1)は、前回の図12の動作フローの実行時(即ち、t−1回目の実行時)に算出された平均抑揚の値である。なお、例えば、音声信号の入力が開始した以降に図12の動作フローが初めて実行される場合には、ステップS1203では上記式4の計算を行わず、ステップS1202で算出された抑揚をそのまま平均抑揚として用いてもよい。或いは、別の実施形態では、音声信号の入力が開始した以降に図12の動作フローが初めて実行される場合には、予め設定した所定値をIua(t-1)として用いてもよい。αは、前回の図12の動作フローの実行で算出された平均抑揚に、今回の図12の動作フローの実行でステップS1202において算出された抑揚をどれくらい寄与させるかを表す寄与係数であり、例えば0.01などであってよい。
For example, the average intonation may be calculated by Equation 4 below.
Iua (t) = αIu (t) + (1-α) Iua (t-1) Equation 4
Here, t is, for example, the number of times that the operation flow of FIG. 12 has been executed from the start of the input of the audio signal to the present. That is, t is, for example, the number of times that an unnecessary word has been detected by the unnecessary
ステップS1204において閾値設定部115は、標準偏差を算出する。上述のように図12の動作フローは、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に実行され、その都度ステップS1202にて不要語を発話している音声区間の音声信号の抑揚が算出される。ステップS1204では、この切り出した音声データが閾値設定部115へと入力される度にステップS1202で算出される抑揚の標準偏差を算出する。
In step S1204, the
閾値設定部115は、まず、切り出した音声データが閾値設定部115へと入力される度にステップS1202で算出される抑揚の分散値を算出する。分散値は、例えば、以下の式5で算出されてよい。
σ2(t)=β(Iu(t)-Iua(t))2+(1-β)σ2(t-1) ・・・式5
First, the threshold
σ 2 (t) = β (Iu (t) −Iua (t)) 2 + (1-β) σ 2 (t-1) Equation 5
ここで、tは、例えば、音声信号の入力が開始してから現在までに図12の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部113によって検出された回数である。σ2(t)は、求めたい抑揚の分散値である。Iu(t)は、ステップS1202で算出した抑揚である。Iua(t)は、ステップS1203で算出した平均抑揚である。σ2(t-1)は、前回の図12の動作フローの実行時(即ち、t−1回目の実行時)にステップS1204で算出された分散値である。βは、前回の図12の動作フローの実行で算出された分散値に、今回の図12の動作フローの実行でステップS1202において算出された抑揚の平均抑揚からの差分を、どれくらい寄与させるかを表す寄与係数である。βは、例えば0.01などであってよい。そして、閾値設定部115は、得られた分散値の正の平方根をとり、抑揚の標準偏差:σを算出する。
Here, t is, for example, the number of times that the operation flow of FIG. 12 has been executed from the start of the input of the audio signal to the present. That is, t is, for example, the number of times that an unnecessary word has been detected by the unnecessary
ステップS1205において、閾値設定部115は、ステップS1203で算出した平均抑揚:Iua(t)と、ステップS1204で算出した標準偏差:σとを用いて閾値を設定し、その閾値を音声区間重要度算出部116へと出力し、本動作フローは終了する。なお、ステップS1205において設定する閾値は、音声信号の重要度を何段階で評価したいか等のユーザの目的に応じて、様々な値を設定することができる。以下の説明では、閾値として第1の閾値:Iua(t)+σ、及び第2の閾値:Iua(t)+1.5σの2つの閾値を設定する場合を例示する。しかしながら、設定される閾値の値及び数は、これに限定されるものではない。例えば、ステップS1203で設定する閾値の数は1つであってもよいし、2つ以上の複数の閾値が設定されてもよい。また閾値の値には、例えば、Iua(t)+0.5σ、Iua(t)+0.8σ、Iua(t)+1.3σ、Iua(t)+2.0σというように、標準偏差:σに所定の正の倍率を掛けた値を、平均抑揚に加算した様々な値が設定されてよい。なお、ここで、正の倍率を掛けたσを平均抑揚に加算して閾値を設定する理由は、例えば、後述するように発話者が重要だと思っている内容を話す場合、抑揚が大きくなる傾向があるためである。
In step S1205, the threshold
図13は、特徴値として音声の抑揚を用いる場合に特徴値算出部112によって実行される特徴値算出処理の動作フローを例示する図である。図13の特徴値算出処理の動作フローは、例えば、特徴値算出部112が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、例えば、マイクなどの音声入力装置から、或いは記憶部110に格納されている音声データからの制御部100への音声信号の入力が開始すると、図13の動作フローは開始する。
FIG. 13 is a diagram illustrating an operation flow of a feature value calculation process executed by the feature
ステップS1301において特徴値算出部112は、入力されている音声信号を所定期間にわたって読み込む。ステップS1302において特徴値算出部112は、読み込んだ所定期間の音声信号の抑揚:Iを算出する。抑揚:Iは、例えば、読み込んだ所定期間の音声信号において、最も高い音と最も低い音との周波数の差分を算出することで得られてもよい。
In step S1301, the feature
ステップS1303で特徴値算出部112は、ステップS1302で算出した抑揚:Iを、音声区間重要度算出部116に出力し、フローはステップS1301へと戻る。以上のようにして、特徴値算出部112は、入力される音声信号の所定期間毎の抑揚を算出し、音声区間重要度算出部116に出力する。
In step S1303, the feature
また、特徴値として音声の抑揚を用いる場合、音声区間重要度算出部116は、図10の動作フローにおいて、図12の動作フローで設定した閾値と、図13の動作フローで算出した抑揚:Iとを用いて重要度の算出を行う。
When speech inflection is used as the feature value, the speech interval
まず、ステップS1001において音声区間重要度算出部116は、入力された特徴値及び閾値を読み込む。特徴値は、例えば、図13の動作フローで算出した所定区間の音声信号の抑揚:Iである。また、閾値は、例えば、図12の動作フローにおいて閾値設定部115が設定した閾値であり、ここでは、閾値として第1の閾値:Iua(t)+σ、及び第2の閾値:Iua(t)+1.5σの2つが入力されているものとする。
First, in step S1001, the speech section
ステップS1002で音声区間重要度算出部116は、特徴値算出部112から入力される特徴値が、第1の閾値以上であるか否かを判定する。即ち、音声区間重要度算出部116は、I ≧ Iua + σを満たすか否かを判定する。所定区間の音声信号の抑揚:Iが不要語が検出された音声区間の音声信号の平均抑揚に標準偏差:σを加算した第1の閾値よりも小さい場合(ステップS1002がNO)、フローはステップS1003へと進む。ステップS1003において音声区間重要度算出部116は、重要度の評価値:1を出力して本動作フローは終了する。一方、所定区間の音声信号の抑揚:Iが不要語が検出された音声区間の音声信号の平均抑揚に標準偏差:σを加算した第1の閾値以上である場合(ステップS1002がYES)、フローはステップS1004へと進む。
In step S <b> 1002, the speech section importance
ステップS1004において音声区間重要度算出部116は、特徴値算出部112から入力される特徴値が、第2の閾値以上であるか否かを判定する。即ち、例えば、音声区間重要度算出部116は、I ≧ Iua + 1.5σを満たすか否かを判定する。所定区間の音声信号の抑揚:Iが不要語が検出された音声区間の音声信号の平均抑揚に標準偏差の1.5倍値:1.5σを加算した第2の閾値よりも小さい場合(ステップS1004がNO)、フローはステップS1005へと進む。ステップS1005において音声区間重要度算出部116は、重要度の評価値:2を出力して本動作フローは終了する。一方、所定区間の音声信号の抑揚:Iが不要語が検出された音声区間の音声信号の平均抑揚に標準偏差の1.5倍値:1.5σを加算した第2の閾値以上である場合(ステップS1004がYES)、フローはステップS1006へと進む。ステップS1006において音声区間重要度算出部116は、重要度の評価値:3を出力して本動作フローは終了する。
In step S <b> 1004, the speech section importance
以上の処理で出力される、音声信号の抑揚に基づいて算出された所定区間の音声信号に対する重要度の評価値は、値が大きいほど重要である可能性が高いことを示しており、所定区間の音声信号の重要性を評価するための指標として用いることができる。抑揚に基づく、所定区間の音声信号に対する重要度の評価値について、図14を参照し更に説明する。 The importance evaluation value for the audio signal in the predetermined interval calculated based on the inflection of the audio signal output by the above processing indicates that the higher the value, the higher the possibility that it is important. It can be used as an index for evaluating the importance of the voice signal. The importance evaluation value for the audio signal in the predetermined section based on the inflection will be further described with reference to FIG.
図14は、特徴値が音声信号の抑揚である場合における重要度の評価について説明する図である。図14には、不要語の音声区間における抑揚の分布が示されている。一般に、発話者は、発話者が重要だと思っている内容を話すときには重要ではないと思っている内容を話しているときよりも大きく抑揚をつけて話す傾向がある。そして、例えば、間投詞などの不要語は、一般に、話の内容とは無関係な単語であることが多く、相手に情報を伝える上では不要であることが多い。そのため、これらの単語は、発話者にとって重要ではない内容に相当し、発話される際に発話者により強調されにくい傾向がある。即ち、不要語を発話している音声区間の音声信号の抑揚は、例えば、発話者が重要だと思っている内容を話しているときの音声信号の抑揚と比較して小さい傾向がある。そのため、例えば、発話者が不要語を話している音声区間から得られた音声信号の平均抑揚は、音声信号が重要であるか否かの判定で用いる閾値を定める上での基準値として用いることができる。また、発話者が不要語を話している際中の音声区間から得られた音声信号の抑揚の標準偏差は、例えば、発話者が不要語を話す際に基準値からどの程度抑揚をつけて話すか等の発話者の話し方の特徴を表わしている。そのため、この音声信号の抑揚の標準偏差は、重要度の判定に用いる閾値を、基準値からどの程度離れて大きい抑揚に設定するかを定める上での指標として用いることができる。例えば、所定区間の音声信号の抑揚が、基準となる不要語の音声信号の平均抑揚に標準偏差を加算した値以上の抑揚である場合には、その音声区間は、その発話者が不要語を話している時よりも顕著に大きく抑揚をつけて発話していることになる。従って、重要である可能性が高いと判定できる。 FIG. 14 is a diagram for explaining the evaluation of the importance when the feature value is an inflection of an audio signal. FIG. 14 shows the distribution of intonation in the speech section of unnecessary words. In general, a speaker tends to speak with greater inflection when speaking what the speaker thinks is important than when speaking what is not important. For example, unnecessary words such as interjections are generally words that are unrelated to the content of the story, and are often unnecessary for conveying information to the other party. For this reason, these words correspond to contents that are not important to the speaker, and tend not to be emphasized by the speaker when speaking. That is, the inflection of the speech signal in the speech section in which an unnecessary word is uttered tends to be smaller than, for example, the inflection of the speech signal when speaking what the speaker thinks is important. Therefore, for example, the average inflection of the speech signal obtained from the speech section in which the speaker is speaking an unnecessary word should be used as a reference value for determining the threshold value used in determining whether the speech signal is important. Can do. In addition, the standard deviation of the inflection of the speech signal obtained from the speech segment during which the speaker is speaking an unnecessary word is, for example, how much the inflection is added from the reference value when the speaker speaks an unnecessary word. It represents the characteristics of the speaker's way of speaking such as watermelon. Therefore, the standard deviation of the inflection of the speech signal can be used as an index for determining how far the threshold used for determining the importance is set to a large inflection from the reference value. For example, when the inflection of the speech signal in a predetermined section is an inflection greater than the value obtained by adding the standard deviation to the mean inflection of the speech signal of the reference unnecessary word, the speech Speaking with inflection significantly larger than when speaking. Therefore, it can be determined that there is a high possibility of being important.
例えば、以上のような観点から、図12から図14に示す例では、発話者が、平均抑揚に標準偏差を加算した値よりも大きな抑揚をつけて話している場合に、音声区間重要度算出部116が評価値:1よりも大きい評価値:2を出力するように構成している。また、更に、発話者が、平均抑揚に標準偏差 の1.5倍を加算した値よりも大きな抑揚をつけて話している場合には、音声区間重要度算出部116が評価値:2よりも大きい評価値:3を出力するように構成している。なお、ここでは評価値は、値が大きいほど重要である可能性が高いことを示している。
For example, from the above viewpoint, in the example shown in FIGS. 12 to 14, when the speaker is speaking with an inflection larger than the value obtained by adding the standard deviation to the average intonation, the speech interval importance calculation is performed. The
以上で述べたように、不要語を発話している音声区間から得られた音声信号の平均抑揚と、その標準偏差から、音声信号の重要度を判定する閾値を動的に算出し、重要度を評価することができる。ここで、閾値の設定に用いられる平均抑揚及び標準偏差は、入力される音声信号に基づいて算出されている。従って、例えば、発話を記録した2つの音声データがある場合、それぞれの音声データに対して個別に閾値を設定し、重要度の評価を行うことができる。そのため、例えば発話者によって話し方に違いがある場合や、または、同一の発話者が、居る環境や体調などに応じて話し方を変えている場合であっても、個々の音声データに対して個別に適切な閾値を設定し、音声信号の重要度を評価することができる。 As described above, the threshold value for determining the importance level of the speech signal is dynamically calculated from the average inflection of the speech signal obtained from the speech section speaking the unnecessary word and its standard deviation. Can be evaluated. Here, the average intonation and standard deviation used for setting the threshold are calculated based on the input audio signal. Therefore, for example, when there are two audio data in which utterances are recorded, it is possible to individually set a threshold for each audio data and evaluate the importance. Therefore, for example, even when there is a difference in the way of speaking depending on the speaker, or even when the same speaker changes the way of speaking according to the environment and physical condition, the individual voice data is individually An appropriate threshold can be set to evaluate the importance of the audio signal.
続いて、図15から図19を参照して、特徴値として音声の話速を用いる場合の例を述べる。なお、特徴値として音声の話速を用いる場合、一実施形態においては、上記図8の閾値設定処理の動作フローの代わりに、以下で述べる図15の閾値設定処理を実行する。また、図9の特徴値算出処理の動作フローの代わりに、以下で述べる図16の特徴値算出処理の動作フローを実行する。更に、図10の重要度算出処理の動作フローの代わりに、図17の重要度算出処理の動作フローを実行する。以下、これらの処理の詳細について述べる。 Next, an example in which the speech speed of speech is used as the feature value will be described with reference to FIGS. When speech speed is used as the feature value, in one embodiment, the threshold setting process of FIG. 15 described below is executed instead of the operation flow of the threshold setting process of FIG. Further, instead of the operation flow of the feature value calculation process of FIG. 9, the operation flow of the feature value calculation process of FIG. 16 described below is executed. Furthermore, instead of the operation flow of the importance calculation process of FIG. 10, the operation flow of the importance calculation process of FIG. 17 is executed. Details of these processes will be described below.
図15は、実施形態に係る閾値設定処理を例示する図である。図15の閾値設定処理の動作フローは、例えば、閾値設定部115が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に、閾値設定処理は開始する。
FIG. 15 is a diagram illustrating a threshold setting process according to the embodiment. The operation flow of the threshold setting process in FIG. 15 is implemented, for example, when the
ステップS1501において閾値設定部115は、不要語音声切出部114から入力される不要語が発話されている音声区間の音声信号の音声データを読み込む。ステップS1502で閾値設定部115は、読み込んだ音声データに含まれる音声信号の話速を算出する。音声信号の話速は、例えば読み込まれた音声信号の音声区間において1秒間当りのモーラ数(mora/sec)を算出することで得られてよい。ここで、モーラとは、例えば、韻律学または音韻論上の単位であり、1短音節に相当するとされる音の長さである。
In step S <b> 1501, the
続いて、ステップS1503において閾値設定部115は、平均話速を算出する。上述のように図15の動作フローは、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に実行され、その都度ステップS1502にて不要語を発話している音声区間の音声信号の話速が算出される。ステップS1503では、この切り出した音声データが閾値設定部115へと入力される度にステップS1502で算出される音声の話速の平均値を、平均話速として算出する。
Subsequently, in step S1503, the
平均話速は、例えば、以下の式6で算出されてよい。
Mua(t)=αMu(t)+(1-α)Mua(t-1) ・・・式6
ここで、tは、例えば、音声信号の入力が開始してから現在までに図15の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部113によって検出された回数である。Mua(t)は、求めたい平均話速である。Mu(t)は、ステップS1502で算出した話速である。Mua(t-1)は、前回の図15の動作フローの実行時(即ち、t−1回目の実行時)に算出された平均話速の値である。なお、例えば、音声信号の入力が開始した以降に図15の動作フローが初めて実行される場合には、ステップS1503では上記式6の計算を行わず、ステップS1502で算出された話速をそのまま平均話速として用いてもよい。或いは、別の実施形態では、音声信号の入力が開始した以降に図15の動作フローが初めて実行される場合には、予め設定した所定値をMua(t-1)として用いてもよい。αは、前回の図15の動作フローの実行で算出された平均話速に、今回の図15の動作フローの実行でステップS1502において算出された話速をどれくらい寄与させるかを表す寄与係数であり、例えば0.01などであってよい。
The average speech speed may be calculated by, for example, the following formula 6.
Mua (t) = αMu (t) + (1-α) Mua (t-1) Equation 6
Here, t is, for example, the number of times that the operation flow of FIG. 15 has been executed from the start of input of the audio signal to the present. That is, t is, for example, the number of times that an unnecessary word has been detected by the unnecessary
ステップS1504において閾値設定部115は、標準偏差を算出する。上述のように図15の動作フローは、不要語音声切出部114が切り出した音声データが閾値設定部115へと入力される度に実行され、その都度ステップS1502にて不要語を発話している音声区間の音声信号の話速が算出される。ステップS1504では、この切り出した音声データが閾値設定部115へと入力される度にステップS1502で算出される話速の標準偏差を算出する。
In step S1504, the
閾値設定部115は、まず、切り出した音声データが閾値設定部115へと入力される度にステップS1502で算出される話速の分散値を算出する。分散値は、例えば、以下の式7で算出されてよい。
σ2(t)=β(Mu(t)-Mua(t))2+(1-β)σ2(t-1) ・・・式7
The
σ 2 (t) = β (Mu (t) -Mua (t)) 2 + (1-β) σ 2 (t-1) Equation 7
ここで、tは、例えば、音声信号の入力が開始してから現在までに図15の動作フローが実行された回数である。即ち、tは、例えば、音声信号の入力が開始してから現在までに不要語が不要語検出部113によって検出された回数である。σ2(t)は、求めたい話速の分散値である。Mu(t)は、ステップS1502で算出した話速である。Mua(t)は、ステップS1503で算出した平均話速である。σ2(t-1)は、前回の図15の動作フローの実行時(即ち、t−1回目の実行時)にステップS1504で算出された分散値である。βは、前回の図15の動作フローの実行で算出された分散値に、今回の図15の動作フローの実行でステップS1502において算出された話速の平均話速からの差分を、どれくらい寄与させるかを表す寄与係数である。βは、例えば0.01などであってよい。そして、閾値設定部115は、得られた分散値の正の平方根をとり、話速の標準偏差:σを算出する。
Here, t is, for example, the number of times that the operation flow of FIG. 15 has been executed from the start of input of the audio signal to the present. That is, t is, for example, the number of times that an unnecessary word has been detected by the unnecessary
ステップS1505において、閾値設定部115は、ステップS1503で算出した平均話速:Mua(t)と、ステップS1504で算出した標準偏差:σと用いて閾値を設定し、設定した閾値を音声区間重要度算出部116に出力し、本動作フローは終了する。なお、ステップS1505において設定する閾値は、音声信号の重要度を何段階で評価したいか等のユーザの目的に応じて、様々な値を設定することができる。以下の説明では、閾値として第1の閾値:Mua(t) − σ、及び第2の閾値:Mua(t) −1.5σの2つの閾値を設定する場合を例示する。しかしながら、設定される閾値の値及び数は、これに限定されるものではない。例えば、ステップS1503で設定する閾値の数は1つであってもよいし、2つ以上の複数の閾値が設定されてもよい。また閾値の値には、例えば、Mua(t) −0.5σ、Mua(t) −0.8σ、Mua(t) −1.3σ、Mua(t) −2.0σというように、標準偏差:σに所定の正の倍率を掛けた値を、平均話速から減算した様々な値が設定されてよい。なお、ここで、正の倍率を掛けたσを平均話速から減算して閾値を設定する理由は、例えば、後述するように発話者が重要だと思っている内容を話す場合、話速が遅くなる傾向があるためである。
In step S1505, the
図16は、特徴値として音声の話速を用いる場合に特徴値算出部112によって実行される特徴値算出処理の動作フローを例示する図である。図16の特徴値算出処理の動作フローは、例えば、特徴値算出部112が、記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、例えば、マイクなどの音声入力装置から、或いは記憶部110に格納されている音声データからの制御部100への音声信号の入力が開始すると、図16の動作フローは開始する。
FIG. 16 is a diagram illustrating an operation flow of the feature value calculation process executed by the feature
ステップS1601において特徴値算出部112は、入力されている音声信号を所定期間にわたって読み込む。ステップS1602において特徴値算出部112は、読み込んだ所定期間の音声信号の話速:Mを算出する。話速:Mは、例えば、読み込んだ所定期間の音声信号において1秒間当りのモーラ数(mora/sec)を算出することで得られてもよい。
In step S1601, the feature
ステップS1603で特徴値算出部112は、ステップS1602で算出した話速:Mを、音声区間重要度算出部116に出力し、フローはステップS1601へと戻る。以上のようにして、特徴値算出部112は、入力される音声信号の所定期間毎の話速を算出し、音声区間重要度算出部116に出力する。
In step S1603, the feature
また、特徴値として音声の話速を用いる場合、音声区間重要度算出部116は、図17の動作フローにおいて、図15の動作フローで設定した閾値と、図16の動作フローで算出した話速:Mとを用いて重要度の算出を行う。
Also, in the case where speech speed is used as the feature value, the speech interval
まず、ステップS1701において音声区間重要度算出部116は、入力された特徴値及び閾値を読み込む。特徴値は、例えば、図16の動作フローで算出した所定区間の音声信号の話速:Mである。また、閾値は、例えば、図15の動作フローにおいて閾値設定部115が設定した閾値であり、ここでは、閾値として第1の閾値:Mua(t)−σ、及び第2の閾値:Mua(t)−1.5σの2つが入力されているものとする。
First, in step S1701, the speech section importance
ステップS1702で音声区間重要度算出部116は、特徴値算出部112から入力される特徴値が、第1の閾値以下であるか否かを判定する。即ち、例えば、音声区間重要度算出部116は、M ≦ Mua - σを満たすか否かを判定する。所定区間の音声信号の話速:Mが不要語が検出された音声区間の音声信号の平均話速:Muaから標準偏差:σを減算した第1の閾値よりも大きい場合(ステップS1702がNO)、フローはステップS1703へと進む。ステップS1703において音声区間重要度算出部116は、重要度の評価値:1を出力して本動作フローは終了する。一方、所定区間の音声信号の話速:Mが不要語が検出された区間の音声信号の平均話速Muaから標準偏差:σを減算した第1の閾値以下である場合(ステップS1702がYES)、フローはステップS1704へと進む。
In step S <b> 1702, the speech section importance
ステップS1704において音声区間重要度算出部116は、特徴値算出部112から入力される特徴値が、第2の閾値以下であるか否かを判定する。即ち、例えば、音声区間重要度算出部116は、M ≦ Mua - 1.5σを満たすか否かを判定する。所定区間の音声信号の話速:Mが不要語が検出された音声区間の音声信号の平均話速:Muaから標準偏差の1.5倍値:1.5σを減算した第2の閾値よりも大きい場合(ステップS1704がNO)、フローはステップS1705へと進む。ステップS1705において音声区間重要度算出部116は、重要度の評価値:2を出力して本動作フローは終了する。一方、所定区間の音声信号の話速:Mが不要語が検出された区間の音声信号の平均話速:Muaから標準偏差の1.5倍値:1.5σを減算した第2の閾値以下である場合(ステップS1704がYES)、フローはステップS1706へと進む。ステップS1706において音声区間重要度算出部116は、重要度の評価値:3を出力して本動作フローは終了する。
In step S1704, the speech section importance
以上の処理で出力される、音声信号の話速に基づいて算出された所定区間の音声信号に対する重要度の評価値は、値が大きいほど重要である可能性が高いことを示しており、所定区間の音声信号の重要性を評価するための指標として用いることができる。話速に基づく、所定区間の音声信号に対する重要度の評価値について、図18を参照し更に説明する。 The importance evaluation value for the speech signal in the predetermined section calculated based on the speech speed of the speech signal output by the above processing indicates that the higher the value, the more likely it is to be important. It can be used as an index for evaluating the importance of the speech signal in the section. The importance evaluation value for the audio signal in a predetermined section based on the speech speed will be further described with reference to FIG.
図18は、特徴値が音声信号の話速である場合における重要度の評価について説明する図である。図18には、不要語の音声区間における話速の分布が示されている。一般に、発話者は、発話者が重要だと思っている内容を話すときには重要ではないと思っている内容を話しているときよりもゆっくりと話す傾向がある。そして、例えば、間投詞などの不要語は、一般に、話の内容とは無関係な単語であることが多く、相手に情報を伝える上では不要であることが多い。そのため、これらの単語は、発話者にとって重要ではない内容に相当し、発話される際に発話者により強調されにくい傾向がある。即ち、不要語を発話している音声区間の音声信号の話速は、例えば、発話者が重要だと思っている内容を話しているときの音声信号の話速と比較して速い傾向がある。そのため、例えば、発話者が不要語を話している音声区間から得られた音声信号の平均話速は、音声信号が重要であるか否かの判定で用いる閾値を定める上での基準値として用いることができる。また、発話者が不要語を話している際中の音声区間から得られた音声信号の話速の標準偏差は、例えば、発話者が不要語を話す際に基準値からどの程度話速に変化をつけて話すか等の発話者の話し方の特徴を表わしている。そのため、この音声信号の話速の標準偏差は、重要度の判定に用いる閾値を、基準値からどの程度離れて遅い話速に設定するかを定める上での指標として用いることができる。例えば、所定区間の音声信号の話速が、基準となる不要語の音声信号の平均話速から標準偏差を減算した値以下の話速である場合には、その音声区間は、その発話者が不要語を話している時よりも顕著にゆっくりと発話していることになる。従って、重要である可能性が高いと判定できる。 FIG. 18 is a diagram for explaining the evaluation of the importance when the feature value is the speech speed of the audio signal. FIG. 18 shows the speech speed distribution in the speech section of unnecessary words. In general, a speaker tends to speak more slowly when speaking what the speaker thinks important than when speaking what is not important. For example, unnecessary words such as interjections are generally words that are unrelated to the content of the story, and are often unnecessary for conveying information to the other party. For this reason, these words correspond to contents that are not important to the speaker, and tend not to be emphasized by the speaker when speaking. In other words, the speech speed of the speech signal in the speech section where the unnecessary word is spoken tends to be higher than the speech speed of the speech signal when speaking, for example, what the speaker thinks is important. . Therefore, for example, the average speech speed of a speech signal obtained from a speech section in which a speaker is speaking an unnecessary word is used as a reference value for determining a threshold used in determining whether or not the speech signal is important. be able to. In addition, the standard deviation of the speech speed of the speech signal obtained from the speech segment when the speaker is speaking unnecessary words, for example, changes from the reference value to the speech rate when the speaker speaks unnecessary words. It expresses the characteristics of the speaker's way of speaking, such as whether or not to speak. For this reason, the standard deviation of the speech speed of the voice signal can be used as an index for determining how far the threshold used for determining the importance is set to a slower speech speed than the reference value. For example, when the speech speed of a speech signal in a predetermined section is a speech speed that is equal to or less than the value obtained by subtracting the standard deviation from the average speech speed of the speech signal of an unnecessary word as a reference, the speech section Speaking significantly more slowly than when speaking unnecessary words. Therefore, it can be determined that there is a high possibility of being important.
例えば、以上のような観点から、図15から図18に示す例では、発話者が、平均話速から標準偏差を減算した値よりも遅い話速で話している場合に、音声区間重要度算出部116が評価値:1よりも大きい評価値:2を出力するように構成している。また、更に、発話者が、平均話速から標準偏差の1.5倍の値を減算した値よりも遅い話速で話している場合には、音声区間重要度算出部116が評価値:2よりも大きい評価値:3を出力するように構成している。なお、ここでは評価値は、値が大きいほど重要である可能性が高いことを示している。
For example, from the above viewpoint, in the example shown in FIGS. 15 to 18, when the speaker is speaking at a speech speed slower than the value obtained by subtracting the standard deviation from the average speech speed, the speech section importance calculation is performed. The
以上で述べたように、不要語を発話している音声区間から得られた音声信号の平均話速と、その標準偏差から、音声信号の重要度を判定する閾値を動的に算出し、重要度を評価することができる。ここで、閾値の設定に用いられる平均話速及び標準偏差は、入力される音声信号に基づいて算出されている。従って、例えば、発話を記録した2つの音声データがある場合、それぞれの音声データに対して個別に閾値を設定し、重要度の評価を行うことができる。そのため、例えば発話者によって話し方に違いがある場合や、または、同一の発話者が、居る環境や体調などに応じて話し方を変えている場合であっても、個々の音声データに対して個別に適切な閾値を設定し、音声信号の重要度を評価することができる。 As described above, the threshold for determining the importance of the speech signal is dynamically calculated from the average speech speed of the speech signal obtained from the speech section in which unnecessary words are spoken and its standard deviation. The degree can be evaluated. Here, the average speech speed and the standard deviation used for setting the threshold are calculated based on the input voice signal. Therefore, for example, when there are two audio data in which utterances are recorded, it is possible to individually set a threshold for each audio data and evaluate the importance. Therefore, for example, even when there is a difference in the way of speaking depending on the speaker, or even when the same speaker changes the way of speaking according to the environment and physical condition, the individual voice data is individually An appropriate threshold can be set to evaluate the importance of the audio signal.
以上において特徴値として音声の強度、抑揚、及び話速を用いた場合のそれぞれについて、入力される音声信号の重要度を所定区間毎に算出する処理について説明した。これらの得られた所定区間毎の音声信号の重要度は、例えば、音声データに含まれる単語の重要度を評価するために用いることができる。図19は、実施形態に係る単語の重要度の評価処理を例示する図である。図19の動作フローは、例えば、制御部100が記憶部110に格納されているプログラム120を読み出して実行することで実施される。一実施形態においては、音声認識部111が入力される音声信号から単語を検出すると、図19の動作フローは開始する。
In the above description, the processing for calculating the importance of the input speech signal for each predetermined section for each of the cases where the speech intensity, intonation, and speech speed are used as the feature values has been described. The importance level of the obtained speech signal for each predetermined section can be used, for example, to evaluate the importance level of the words included in the speech data. FIG. 19 is a diagram illustrating a word importance level evaluation process according to the embodiment. The operation flow in FIG. 19 is implemented, for example, when the control unit 100 reads and executes the
ステップS1901において単語重要度算出部117は、音声認識部111で検出された単語が発話されている音声区間を特定する。ステップS1902において単語重要度算出部117は、特定した音声区間の重要度を算出する。上述のように音声区間重要度算出部116は、入力される音声信号の所定期間毎の重要度を算出し、単語重要度算出部117に出力する。ここで、重要度を算出する音声区間である所定区間を十分に短く設定することで、ステップS1901で特定した単語に対応する音声区間内に、重要度の算出が行われた所定区間が少なくとも1つは含まれるように構成することができる。そこで、一実施形態においては、ステップS1902において単語重要度算出部117は、単語に対応する音声区間内に存在する所定区間に対して算出された重要度を足し合わせ、重要度の合計値を算出する。続いて、単語重要度算出部117は、足し合わせに用いた重要度の個数で、算出した重要度の合計値を除算することで単語に対する重要度を算出してもよい。例えば以上の様にして、単語重要度算出部117は音声認識部111で検出された単語に対する重要度を算出してよい。ステップS1903において単語重要度算出部117は、音声認識部111から入力された単語に、ステップS1902で算出した重要度を付加して、例えば記憶部110に出力する。
In step S1901, the word
以上でのべた図19の動作フローにより、音声認識部111で単語が認識されるたびに、その単語に対する重要度が算出され、重要度が付加された単語を記憶部110に記憶することができる。そのため、例えば、記憶部110に記憶された重要度が付加された単語を、重要度の高い順に並べ替え、情報処理装置1の表示装置の表示画面を介してユーザに提示する等の処理が可能になる。そのため、ユーザは重要度の高い単語を用いて、予定表の登録や、メモの作成等を簡便に行うことができ、情報処理装置1のユーザビリティを向上させることができる。
According to the operation flow shown in FIG. 19 described above, each time a word is recognized by the
以上において、いくつかの実施形態について説明した。しかしながら、実施形態は上記したものに限定されるものではない。例えば、不要語が発話されている音声区間の音声の平均強度の算出、及び強度の標準偏差の算出に、上記式2及び式3を用いる例を説明した。しかしながら、平均強度の算出、及び強度の標準偏差の算出は、これに限定されるものではなく、例えば平均強度は、ステップS802で算出した強度を相加平均することにより算出されてもよい。抑揚及び話速を特徴値として用いる場合の平均抑揚、平均話速、抑揚の分散値と標準偏差、及び話速の分散値と標準偏差の算出についても、同様に式4〜式7に限定されるものではなく、例えば統計学の分野等で平均値、分散、標準偏差の算出に利用されているその他の算出法で算出されてもよい。
In the above, several embodiments have been described. However, the embodiments are not limited to those described above. For example, the example in which the
また、上記の説明では、特徴値として、音声の強度、抑揚、及び話速のいずれかを用いて重要度を算出する場合を例示したが、実施形態はこれに限定されるものではなく、音声の強度、抑揚、及び話速による重要度の算出は組み合わせて用いることができる。例えば、音声の強度、抑揚、及び話速のそれぞれで算出された重要度を足し合わせて、所定区間の音声信号の重要度や、単語の重要度を算出してもよい。 Further, in the above description, the case where importance is calculated using any one of voice intensity, intonation, and speech speed as a feature value is illustrated, but the embodiment is not limited to this, and the voice is not limited to this. The calculation of the importance based on the intensity, intonation, and speaking speed can be used in combination. For example, the importance level calculated for each of the speech intensity, intonation, and speech speed may be added to calculate the importance level of the speech signal in a predetermined section and the importance level of the word.
図20は、実施形態に係る情報処理装置1を実現するためのコンピュータ2000のハードウェア構成を例示する図である。図20の情報処理装置1を実現するためのハードウェア構成は、例えば、プロセッサ2001、メモリ2002、記憶装置2003、読取装置2004、通信インタフェース2006、入出力インタフェース2007、及び表示装置2010を備える。なお、プロセッサ2001、メモリ2002、記憶装置2003、読取装置2004、通信インタフェース2006、入出力インタフェース2007は、例えば、バス2008を介して互いに接続されている。
FIG. 20 is a diagram illustrating a hardware configuration of a computer 2000 for realizing the information processing apparatus 1 according to the embodiment. A hardware configuration for realizing the information processing apparatus 1 of FIG. 20 includes, for example, a
プロセッサ2001は、メモリ2002を利用して例えば上述の動作フローの手順を記述したプログラムを含むプログラム120を実行することにより、上述した各機能部の一部または全部の機能を提供する。例えば、制御部100は、プロセッサ2001であり、また、記憶部110は、例えばメモリ2002、記憶装置2003、及び着脱可能記憶媒体2005を含んでいる。プロセッサ2001は、例えば、記憶装置2003に格納されているプログラム120を読み出して実行することで、音声認識部111、特徴値算出部112、不要語検出部113、及び不要語音声切出部114として機能する。また、プロセッサ2001は、例えば、記憶装置2003に格納されているプログラム120を読み出して実行することで、閾値設定部115、音声区間重要度算出部116、及び単語重要度算出部117として機能する。記憶装置2003には、例えば、辞書情報300、及び不要語辞書情報400が格納されている。
The
メモリ2002は、例えば半導体メモリであり、RAM領域及びROM領域を含んで構成される。記憶装置2003は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、又は外部記憶装置である。
The
読取装置2004は、プロセッサ2001の指示に従って着脱可能記憶媒体2005にアクセスする。着脱可能記憶媒体2005は、例えば、半導体デバイス(USBメモリ等)、磁気的作用により情報が入出力される媒体(磁気ディスク等)、光学的作用により情報が入出力される媒体(CD−ROM、DVD等)などにより実現される。通信インタフェース2006は、プロセッサ2001の指示に従ってネットワーク2020を介してデータを送受信する。入出力インタフェース2007は、例えば、入力装置及び出力装置との間のインタフェースに相当する。入力装置は、例えばユーザからの指示を受け付けるキーボード、マウス、及び音声を入力するマイクなどのデバイスである。出力装置は、例えばスピーカなどの音声出力装置である。また、図20に示す例では、入出力インタフェース2007には表示装置2010が接続されている。
The
実施形態に係る各プログラムは、例えば、下記の形態で情報処理装置1に提供される。
(1)記憶装置2003に予めインストールされている。
(2)着脱可能記憶媒体2005により提供される。
(3)プログラムサーバなどのサーバ2030から提供される。
Each program according to the embodiment is provided to the information processing apparatus 1 in the following form, for example.
(1) Installed in advance in the
(2) Provided by the removable storage medium 2005.
(3) Provided from a
以上において、いくつかの実施形態について説明した。しかしながら、実施形態は上記の実施形態に限定されるものではなく、上述の実施形態の各種変形形態及び代替形態を包含するものとして理解されるべきである。例えば、各種実施形態は、その趣旨及び範囲を逸脱しない範囲で構成要素を変形して具体化できることが理解されよう。また、前述した実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の実施形態を成すことができることが理解されよう。更には、実施形態に示される全構成要素からいくつかの構成要素を削除して又は置換して、或いは実施形態に示される構成要素にいくつかの構成要素を追加して種々の実施形態が実施され得ることが当業者には理解されよう。 In the above, several embodiments have been described. However, the embodiments are not limited to the above-described embodiments, and should be understood as including various modifications and alternatives of the above-described embodiments. For example, it will be understood that various embodiments can be embodied by modifying the components without departing from the spirit and scope thereof. It will be understood that various embodiments can be made by appropriately combining a plurality of components disclosed in the above-described embodiments. Further, various embodiments may be implemented by deleting or replacing some components from all the components shown in the embodiments, or adding some components to the components shown in the embodiments. Those skilled in the art will appreciate that this can be done.
1 情報処理装置
100 制御部
110 記憶部
111 音声認識部
112 特徴値算出部
113 不要語検出部
114 不要語音声切出部
115 閾値設定部
116 音声区間重要度算出部
117 単語重要度算出部
2000 コンピュータ
2001 プロセッサ
2002 メモリ
2003 記憶装置
2004 読取装置
2005 着脱可能記憶媒体
2006 通信インタフェース
2007 入出力インタフェース
2008 バス
2010 表示装置
2020 ネットワーク
2030 サーバ
DESCRIPTION OF SYMBOLS 1 Information processing apparatus 100 Control part 110
Claims (8)
前記入力される音声信号に含まれている複数の単語のうちから、不要語を検出する不要語検出部と、
前記不要語が含まれている音声区間の音声を特徴付ける第2の特徴値を用いて閾値を設定する閾値設定部と、
前記閾値を用いて、各音声区間の音声の重要度を算出する音声区間重要度算出部と、
を含む、情報処理装置。 A feature value calculation unit that calculates a first feature value characterizing the speech with respect to a predetermined speech section of the input speech signal;
An unnecessary word detection unit that detects an unnecessary word from a plurality of words included in the input audio signal;
A threshold setting unit that sets a threshold using a second feature value that characterizes the voice in the voice section including the unnecessary word;
Using the threshold value, a voice interval importance calculating unit for calculating the importance of the voice of each voice interval;
Including an information processing apparatus.
前記閾値設定部は、前記不要語が検出される度に、前記不要語を発話している音声区間の音声の強度を前記第2の特徴値として用いることで、前記閾値を設定することを特徴とする請求項1又は2に記載の情報処理装置。 The feature value calculation unit calculates the strength of the voice for each predetermined voice section as the first feature value;
The threshold value setting unit sets the threshold value by using, as the second feature value, the intensity of the voice of the voice section in which the unnecessary word is spoken each time the unnecessary word is detected. The information processing apparatus according to claim 1 or 2.
前記閾値設定部は、前記不要語が検出される度に、前記不要語を発話している音声区間の音声の抑揚を前記第2の特徴値として用いることで、前記閾値を設定することを特徴とする請求項1又は2に記載の情報処理装置。 The feature value calculation unit calculates an inflection of the speech for each of the predetermined speech sections as the first feature value,
The threshold setting unit sets the threshold by using, as the second feature value, an inflection of a voice section in which the unnecessary word is spoken each time the unnecessary word is detected. The information processing apparatus according to claim 1 or 2.
前記閾値設定部は、前記不要語が検出される度に、前記不要語を発話している音声区間の音声の話速を前記第2の特徴値として用いることで、前記閾値を設定することを特徴とする請求項1又は2に記載の情報処理装置。 The feature value calculation unit calculates a speech speed of the voice for each of the predetermined voice sections as the first feature value;
The threshold setting unit sets the threshold by using, as the second feature value, the speech speed of the voice section in which the unnecessary word is spoken each time the unnecessary word is detected. The information processing apparatus according to claim 1, wherein the information processing apparatus is characterized.
前記入力される音声信号に含まれている複数の単語のうちから、不要語を検出し、
前記不要語が含まれている音声区間の音声を特徴付ける第2の特徴値を用いて閾値を設定し、
前記閾値を用いて、各音声区間の音声の重要度を算出する、
処理をコンピュータに実行させるプログラム。 Calculating a first feature value characterizing the voice with respect to a predetermined voice section of the input voice signal;
An unnecessary word is detected from a plurality of words included in the input audio signal,
A threshold is set using a second feature value that characterizes the speech in the speech segment containing the unwanted word;
Using the threshold value, calculate the importance level of each voice segment,
A program that causes a computer to execute processing.
前記入力される音声信号に含まれている複数の単語のうちから、不要語を検出する工程と、
前記不要語が含まれている音声区間の音声を特徴付ける第2の特徴値を用いて閾値を設定する工程と、
前記閾値を用いて、各音声区間の音声の重要度を算出する工程と、
を含む、コンピュータが実行する方法。 Calculating a first feature value characterizing the speech with respect to a predetermined speech section of the input speech signal;
Detecting unnecessary words from a plurality of words included in the input audio signal;
Setting a threshold value using a second feature value that characterizes the speech of the speech section containing the unnecessary word;
Calculating the importance of the voice of each voice section using the threshold;
A method performed by a computer, including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013221341A JP6183147B2 (en) | 2013-10-24 | 2013-10-24 | Information processing apparatus, program, and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013221341A JP6183147B2 (en) | 2013-10-24 | 2013-10-24 | Information processing apparatus, program, and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015082087A true JP2015082087A (en) | 2015-04-27 |
JP6183147B2 JP6183147B2 (en) | 2017-08-23 |
Family
ID=53012686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013221341A Expired - Fee Related JP6183147B2 (en) | 2013-10-24 | 2013-10-24 | Information processing apparatus, program, and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6183147B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020042229A (en) * | 2018-09-13 | 2020-03-19 | 京セラドキュメントソリューションズ株式会社 | Minutes generation system and minutes generation program |
CN113782014A (en) * | 2021-09-26 | 2021-12-10 | 联想(北京)有限公司 | Voice recognition method and device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11187117A (en) * | 1997-12-22 | 1999-07-09 | Nec Corp | Recording and reproducing device |
JP2003345384A (en) * | 2002-05-27 | 2003-12-03 | Pioneer Electronic Corp | Method, device, and program for voice recognition |
JP2004037797A (en) * | 2002-07-03 | 2004-02-05 | Pioneer Electronic Corp | Apparatus, method and program for word spotting speech recognition |
JP2004272048A (en) * | 2003-03-11 | 2004-09-30 | Nissan Motor Co Ltd | Driver's condition discriminating device, and program for the driver's condition discriminating device |
-
2013
- 2013-10-24 JP JP2013221341A patent/JP6183147B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11187117A (en) * | 1997-12-22 | 1999-07-09 | Nec Corp | Recording and reproducing device |
JP2003345384A (en) * | 2002-05-27 | 2003-12-03 | Pioneer Electronic Corp | Method, device, and program for voice recognition |
JP2004037797A (en) * | 2002-07-03 | 2004-02-05 | Pioneer Electronic Corp | Apparatus, method and program for word spotting speech recognition |
JP2004272048A (en) * | 2003-03-11 | 2004-09-30 | Nissan Motor Co Ltd | Driver's condition discriminating device, and program for the driver's condition discriminating device |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020042229A (en) * | 2018-09-13 | 2020-03-19 | 京セラドキュメントソリューションズ株式会社 | Minutes generation system and minutes generation program |
JP7205684B2 (en) | 2018-09-13 | 2023-01-17 | 京セラドキュメントソリューションズ株式会社 | minutes generation system and minutes generation program |
CN113782014A (en) * | 2021-09-26 | 2021-12-10 | 联想(北京)有限公司 | Voice recognition method and device |
CN113782014B (en) * | 2021-09-26 | 2024-03-26 | 联想(北京)有限公司 | Speech recognition method and device |
Also Published As
Publication number | Publication date |
---|---|
JP6183147B2 (en) | 2017-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Filippidou et al. | Α benchmarking of IBM, Google and Wit automatic speech recognition systems | |
KR102582291B1 (en) | Emotion information-based voice synthesis method and device | |
KR102196400B1 (en) | Determining hotword suitability | |
JP4085130B2 (en) | Emotion recognition device | |
US8818801B2 (en) | Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program | |
JP2018120212A (en) | Method and apparatus for voice recognition | |
JP2011033680A (en) | Voice processing device and method, and program | |
JP6440967B2 (en) | End-of-sentence estimation apparatus, method and program thereof | |
JP2009237353A (en) | Association device, association method, and computer program | |
Prud’hommeaux et al. | Automatic speech recognition for supporting endangered language documentation | |
WO2018078885A1 (en) | Interactive device, interactive method, and interactive computer program | |
EP2806415B1 (en) | Voice processing device and voice processing method | |
JP4700522B2 (en) | Speech recognition apparatus and speech recognition program | |
JP6487650B2 (en) | Speech recognition apparatus and program | |
JP6183147B2 (en) | Information processing apparatus, program, and method | |
JP5296455B2 (en) | Speaker identification device and computer program | |
JP2018031851A (en) | Discourse function estimation device and computer program for the same | |
JP6526602B2 (en) | Speech recognition apparatus, method thereof and program | |
JP6367773B2 (en) | Speech enhancement device, speech enhancement method, and speech enhancement program | |
Prasangini et al. | Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka | |
JP2011180308A (en) | Voice recognition device and recording medium | |
McTear et al. | Speech input and output | |
KR101250051B1 (en) | Speech signals analysis method and apparatus for correcting pronunciation | |
JP5066668B2 (en) | Speech recognition apparatus and program | |
Li et al. | Acoustic measures for real-time voice coaching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160705 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6183147 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |