JP7176325B2 - Speech processing program, speech processing method and speech processing device - Google Patents
Speech processing program, speech processing method and speech processing device Download PDFInfo
- Publication number
- JP7176325B2 JP7176325B2 JP2018181937A JP2018181937A JP7176325B2 JP 7176325 B2 JP7176325 B2 JP 7176325B2 JP 2018181937 A JP2018181937 A JP 2018181937A JP 2018181937 A JP2018181937 A JP 2018181937A JP 7176325 B2 JP7176325 B2 JP 7176325B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- utterance
- filler
- speech
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、音声処理プログラム等に関する。 The present invention relates to an audio processing program and the like.
近年、多くの企業では、店員と顧客とのコミュニケーションから様々な情報を獲得し、顧客満足度の向上や、マーケティングの戦略に役立てたいというニーズがある。たとえば、顧客が判断に迷っている音声区間には、顧客の意志決定に至る判断材料に関する情報が多く含まれるため、顧客が判断に迷った音声区間を検出し、検出した音声区間の音声情報を分析することで、顧客のニーズを推定することができる。 In recent years, in many companies, there is a need to acquire various information from communication between store clerks and customers and use it for improving customer satisfaction and marketing strategies. For example, since the voice segments in which customers hesitate to make decisions contain a lot of information related to decision-making materials, we can detect voice segments in which customers hesitate to make decisions, and use the voice information of the detected voice segments. By analyzing, it is possible to estimate customer needs.
たとえば、エージェントがユーザに質問した時点から、ユーザが回答するまでの無音および意味をなさない発話区間の終了時点までを、思考時間として検出する従来技術がある。意味をなさない発話区間は「フィラー区間」と呼ばれる。 For example, there is a conventional technology that detects as thinking time the time from when the agent asks the user a question to when the user answers, until the end of silence and meaningless utterance intervals. Speech intervals that do not make sense are called “filler intervals”.
しかしながら、上述した従来技術では、ユーザが迷っている区間を正確に推定することができないと言う問題がある。 However, the conventional technology described above has a problem that it is impossible to accurately estimate the section in which the user is hesitant.
図15は、従来技術の問題を説明するための図である。従来技術では、フィラー区間を思考時間(判断に迷った音声区間)として検出しているが、フィラー区間において、ユーザは判断に迷っている場合もあれば、言葉探しや記憶操作等をしている場合もある。 FIG. 15 is a diagram for explaining the problem of the conventional technology. In the conventional technology, the filler section is detected as thinking time (speech section in which the user hesitates to make a decision). In some cases.
図15において、店員が「何か気になる機種などありますか?」と質問し、顧客は「えっと、あれ?なんだっけ・・・」と発話した後に、「あ!××です」と回答している。この例では、「えっと、あれ?なんだっけ・・・」と発話された区間T1が、フィラー区間として検出される。この区間T1は、顧客が記憶操作を行っている区間といえる。 In FIG. 15, the store clerk asks, "Are there any models that you are interested in?" answering. In this example, a section T1 in which "Uh, what? What is it?" is detected as a filler section. This section T1 can be said to be a section in which the customer performs the storage operation.
店員が「××ですね。人気ですよ。ただ、××にはYYがついていなくて・・・」と発話し、顧客は「そうなんだうーん・・・」と発話した後に、「やっぱりYYは必要かなぁ」と発話している。この例では、「そうなんだうーん・・・」と発話された区間T2が、フィラー区間として検出される。この区間T2は、顧客が迷っている区間といえる。 The store clerk said, "That's XX. It's popular. However, XX doesn't have YY...", and the customer said, "That's right." Is it necessary?" In this example, the section T2 in which the utterance "That's right..." is detected as the filler section. This section T2 can be said to be a section in which the customer hesitates.
従来技術では、区間T1およびT1を、思考時間として検出することになるが、区間T1は、顧客が記憶操作を行っている区間であり、顧客が判断に迷っている区間ではない。 In the conventional technology, the sections T1 and T1 are detected as thinking time, but the section T1 is a section in which the customer performs a memory operation, not a section in which the customer hesitates to make a decision.
1つの側面では、本発明は、ユーザが迷っている区間を正確に推定することができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。 In one aspect, an object of the present invention is to provide a speech processing program, a speech processing method, and a speech processing device capable of accurately estimating a section in which a user hesitates.
第1の案では、コンピュータに次の処理を実行させる。コンピュータは、音声情報から複数の発話区間を検出する。コンピュータは、複数の発話区間からフィラーを検出した発話区間をフィラー区間として特定する。コンピュータは、フィラー区間の音声情報の特徴量を基にして、フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定する。 The first option is to have the computer perform the following processing. A computer detects a plurality of speech segments from the voice information. The computer specifies, as a filler segment, an utterance segment in which filler is detected from a plurality of utterance segments. The computer determines whether or not the voice information in the filler section is voice information to be spoken when the user hesitates to make a decision, based on the feature amount of the voice information in the filler section.
ユーザが迷っている区間を正確に推定することができる。 It is possible to accurately estimate the section in which the user is lost.
以下に、本願の開示する音声処理プログラム、音声処理方法および音声処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。 Hereinafter, embodiments of the audio processing program, the audio processing method, and the audio processing apparatus disclosed in the present application will be described in detail based on the drawings. In addition, this invention is not limited by this Example.
図1は、本実施例1に係る音声処理装置の処理を説明するための図である。本実施例1では一例として、第1話者と第2話者との音声情報を取得して発話区間を検出し、第2話者のある発話区間が、第2話者が「判断に迷っている区間」であるか否かを判定する場合について説明する。以下の説明では、適宜、発話区間のうち、判断に迷っている区間を「判断迷い区間」と表記する。 FIG. 1 is a diagram for explaining processing of the speech processing device according to the first embodiment. In the first embodiment, as an example, voice information of the first speaker and the second speaker is acquired to detect an utterance section, and an utterance section with the second speaker is detected as an utterance section by the second speaker, A case will be described in which it is determined whether or not it is an interval where the In the following description, among the utterance sections, a section in which the user hesitates to make a decision will be referred to as a "questionable section" as appropriate.
音声処理装置は、音声情報を取得すると、第1話者の発話区間と、第2話者の発話区間とを検出し、第1話者の発話区間の後の第2発話区間のうち、フィラー区間となる発話区間を特定する。発話区間は、無音区間に挟まれる区間である。フィラー区間は、意味をなさない発話がなされた発話区間であり、たとえば、「えっと、あれ、なんだっけ」、「そうなんだ、うーん」等が発話された区間は、フィラー区間となる。 When the speech information is acquired, the speech processing device detects an utterance period of the first speaker and an utterance period of the second speaker. Identify the utterance segment that will be the segment. A speech segment is a segment sandwiched between silent segments. A filler section is an utterance section in which meaningless utterances are made. For example, a section in which utterances such as "Well, what is that?"
図1では、第1話者の発話区間をT11、T12、T13とし、第2話者の発話区間をT21、T22、T23、T24とする。音声処理装置は、発話区間T11に続く、発話区間T21、T22の音声情報、発話区間T12に続く、発話区間T23、T24の音声情報を解析して、フィラー区間を特定する。たとえば、音声処理装置は、発話区間T21,T23をフィラー区間と特定したものとして説明する。音声処理装置は、フィラー区間の音声情報の特徴量を基にして、フィラー区間が、判断迷い区間であるか否かを判定する。 In FIG. 1, the utterance periods of the first speaker are T11, T12, and T13, and the utterance periods of the second speaker are T21, T22, T23, and T24. The speech processing device analyzes the speech information of the speech sections T21 and T22 following the speech section T11 and the speech information of the speech sections T23 and T24 following the speech section T12 to identify filler sections. For example, the speech processing device will be described assuming that the utterance sections T21 and T23 are identified as filler sections. The speech processing device determines whether or not the filler section is a questionable section based on the feature amount of the speech information of the filler section.
図1のグラフG1は、音声情報の特徴量(声の明るさ)の時間変化を示すものである。グラフG1の横軸は時間軸である。グラフG1の縦軸は話者の声の明るさに対応する軸であり、閾値Th_Dよりも大きい場合には、話者の声が明るく、閾値TH_D未満である場合には、話者の声が暗いことを示す。たとえば、音声処理装置は、フィラー区間における明るさが「明るい」場合には、フィラー区間を「判断迷い区間ではない」と判定する。これに対して、音声処理装置は、フィラー区間における明るさが「暗い」場合には、フィラー区間を「判断迷い区間である」と判定する。 A graph G1 in FIG. 1 shows a temporal change in the feature amount (brightness of voice) of voice information. The horizontal axis of graph G1 is the time axis. The vertical axis of the graph G1 is the axis corresponding to the brightness of the speaker's voice. Indicates dark. For example, when the brightness in the filler section is "bright", the speech processing device determines that the filler section is "not a doubtful section". On the other hand, if the brightness in the filler section is "dark", the speech processing device determines that the filler section is "a doubtful section".
図1を用いて説明すると、音声処理装置は、フィラー区間T21において、声の明るさが「明るい」ため、フィラー区間T21が「判断迷い区間ではない」と判定する。音声処理装置は、フィラー区間T23において、声の明るさが「暗い」ため、フィラー区間T23は「判断迷い区間である」と判定する。このように、本実施例に係る音声処理装置は、フィラー区間の音声情報の特徴量を基にして、判断迷い区間であるか否かを判定するので、ユーザが迷っている区間を正確に推定することができる。 To explain using FIG. 1, the speech processing apparatus determines that the filler section T21 is not a doubtful section because the brightness of the voice is "bright" in the filler section T21. Since the brightness of the voice in the filler section T23 is "dark", the speech processing device determines that the filler section T23 is a "deterministic section". In this way, the speech processing apparatus according to the present embodiment determines whether or not it is a questionable section based on the feature amount of the speech information of the filler section, so that the section in which the user hesitates can be accurately estimated. can do.
なお、音声処理装置は、フィラー区間の音声情報の特徴量だけでなく、フィラー区間に続く応答区間の音声情報の特徴量、対話全体の明るさの平均、応答時間を更に用いて、フィラー区間が、判断迷い区間であるか否かを判定してもよい。これにより、判断迷い区間を更に精度よく判定することができる。なお、応答区間は、第2話者の発話区間のうち、フィラー区間以外の発話区間とする。図1に示す例では、発話区間T22、T24が応答区間となる。応答時間は、第1話者の発話区間から、第2話者の応答区間までの時間である。たとえば、発話区間T11の終了時刻から、発話区間(応答区間)T22の開始時刻までが応答時間となる。 Note that the speech processing device uses not only the feature amount of speech information in the filler section, but also the feature amount of speech information in the response section following the filler section, the average brightness of the entire dialogue, and the response time to determine the filler section. , it may be determined whether or not it is an indecisive section. As a result, it is possible to determine the doubtful decision section with higher accuracy. It should be noted that the response period is the utterance period other than the filler period among the utterance periods of the second speaker. In the example shown in FIG. 1, utterance sections T22 and T24 are response sections. The response time is the time from the utterance period of the first speaker to the response period of the second speaker. For example, the response time is from the end time of the utterance period T11 to the start time of the utterance period (response period) T22.
音声処理装置が、フィラー区間と、フィラー区間に続く応答区間とを基にして、判断迷い区間を判定する場合について説明する。音声処理装置は、フィラー区間の話者の声の明るさが「暗く」、かつ、応答区間の話者の声の明るさが「明るい」場合に、フィラー区間が「判断迷い区間」であると判定する。かかる条件を満たさない場合には、音声処理装置は、フィラー区間が「判断迷い区間ではない」と判定する。 A case will be described in which the speech processing device determines a questionable section based on a filler section and a response section following the filler section. When the brightness of the speaker's voice in the filler section is "dark" and the brightness of the speaker's voice in the response section is "bright", the speech processing device determines that the filler section is the "uncertain section". judge. If this condition is not satisfied, the speech processing device determines that the filler section is "not a questionable section."
たとえば、音声処理装置は、フィラー区間T23の声の明るさが「暗く」、応答区間T24の声の明るさが「明るい」ため、上記の条件を満たし、フィラー区間T23を、「判断迷い区間」であると判定する。一方、音声処理装置は、フィラー区間T21の声の明るさが「明るく」、応答区間T24の声の明るさが「明るい」ため、上記の条件を満たさないので、フィラー区間T23を「判断迷い区間」でないと判定する。 For example, since the brightness of the voice in the filler section T23 is "dark" and the brightness of the voice in the response section T24 is "bright", the speech processing device satisfies the above conditions and treats the filler section T23 as the "difficult to judge" section. It is determined that On the other hand, since the voice brightness of the filler section T21 is "bright" and the voice brightness of the response section T24 is "bright", the speech processing device does not satisfy the above conditions, so the filler section T23 is regarded as the "uncertain section is not determined.
続いて、音声処理装置が、フィラー区間と、フィラー区間に続く応答区間と、対話全体の明るさの平均と、応答時間を基にして、判断迷い区間であるか否かを判定する場合について説明する。音声処理装置は、対話全体の明るさの平均が、閾値TH_D’以上であり、かつ、応答時間が、閾値TH_R以上である場合に限り、上記のフィラー区間と、フィラー区間に続く応答区間とを基にした判定を行う。これに対して、音声処理装置は、対話全体の明るさの平均が、閾値TH_D’未満である場合には、話者に興味がないといえるため、フィラー区間と、フィラー区間に続く応答区間と音声情報の特徴によらず、フィラー区間が、「判断迷い区間ではない」と判定する。また、音声処理装置は、応答時間が閾値TH_R未満である場合には、フィラー区間と、フィラー区間に続く応答区間と音声情報の特徴によらず、フィラー区間が、「判断迷い区間ではない」と判定する。 Next, a case will be described in which the speech processing device determines whether or not it is an indecisive section based on the filler section, the response section following the filler section, the average brightness of the entire dialogue, and the response time. do. Only when the average brightness of the entire dialogue is equal to or greater than the threshold TH_D' and the response time is equal to or greater than the threshold TH_R, the speech processing device divides the filler section and the response section following the filler section. make a decision based on On the other hand, when the average brightness of the entire dialogue is less than the threshold TH_D', the speech processing device can be said that the speaker is not interested in the speaker. Regardless of the characteristics of the audio information, it is determined that the filler section is "not a dubious section". In addition, when the response time is less than the threshold TH_R, the speech processing device determines that the filler section is not a doubtful section regardless of the characteristics of the filler section, the response section following the filler section, and the audio information. judge.
音声処理装置は、対話全体の明るさの平均と、応答時間を用いることで、フィラー区間の音声情報の特徴量および応答区間の音声情報の特徴量を解析しなくても、フィラー区間が「判断迷い区間ではない」と判定することができる。 By using the average brightness of the entire dialogue and the response time, the speech processing device can determine whether the filler section is “determined” without analyzing the feature amount of the speech information in the filler section and the feature amount of the speech information in the response section. It can be determined that it is not a lost section.
次に、本実施例1に係るシステムの構成について説明する。図2は、本実施例1に係るシステムの構成を示す図である。図2に示すように、このシステムは、音声処理装置1と、マイク10a,10bとが含まれる。音声処理装置1は、マイク10a,10bに接続される。
Next, the configuration of the system according to the first embodiment will be described. FIG. 2 is a diagram showing the configuration of the system according to the first embodiment. As shown in FIG. 2, this system includes a voice processing device 1 and
マイク10aは、ユーザU101の音声を集音するマイクである。マイク10aは、集音した音声情報を、音声処理装置1に出力する。マイク10bは、ユーザU102の音声を集音するマイクである。マイク10aは、集音した音声情報を、音声処理装置1に出力する。たとえば、ユーザU101は、第1話者に対応し、ユーザU102は、第2話者に対応する。以下の説明では適宜、ユーザU101の音声情報を「第1音声情報」と表記し、ユーザU102の音声情報を「第2音声情報」と表記する。
The
音声処理装置1は、マイク10a,10bから音声情報を取得し、取得した音声情報を基にして、ユーザU102の発話区間から、判断迷い区間を判定し、判定した判断迷い区間の音声情報を記憶装置に格納する装置である。
The voice processing device 1 acquires voice information from the
図3は、本実施例1に係る音声処理装置の構成を示す機能ブロック図である。図3に示すように、この音声処理装置1は、図2で説明したマイク10a,10bに接続される。音声処理装置1は、AD変換部20a,20bと、前処理部30と、記憶部40と、状態判定部100とを有する。AD変換部20a,20bと、前処理部30、状態判定部100の各処理部は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等により実現される。また、各処理部は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
FIG. 3 is a functional block diagram showing the configuration of the speech processing device according to the first embodiment. As shown in FIG. 3, this audio processing device 1 is connected to the
AD変換部20aは、マイク10aから入力される第1音声情報を、アナログ信号からデジタル信号に変換するAD変換回路(Analog-to-digital converter)である。AD変換部20aは、デジタル信号に変換した、第1音声情報を前処理部30に出力する。以下の説明では、デジタル信号に変換した第1音声情報を単に、第1音声情報と表記する。
The
AD変換部20bは、マイク10bから入力される第2音声情報を、アナログ信号からデジタル信号に変換するAD変換回路である。AD変換部20bは、デジタル信号に変換した、第2音声情報を前処理部30に出力する。以下の説明では、デジタル信号に変換した第2音声情報を単に、第2音声情報と表記する。
The
前処理部30は、第1音声情報および第2音声情報に対して各種の前処理を実行し、前処理を行った第1音声情報および第2音声情報を、状態判定部100に出力する処理部である。たとえば、図2に示したシステムでは、マイク10a,10bに、ユーザU101,U102双方の音声が集音される場合がある。このため、前処理部30は、第1音声情報に、ユーザU101の音声のみが含まれるように、第1音声情報から、ユーザU102の音声を取り除く前処理を行う。前処理部30は、第2音声情報に、ユーザU102の音声のみが含まれるように、第2音声情報から、ユーザU101の音声を取り除く前処理を行う。
The preprocessing
状態判定部100は、第1音声情報および第2音声情報を取得して、発話区間を検出し、各発話区間からフィラー区間を特定する。状態判定部100は、特定したフィラー区間に含まれる音声情報の特徴量を基にして、フィラー区間が判断迷い区間であるか否かを判定する。状態判定部100は、フィラー区間が判断迷い区間である場合には、判断迷い区間の音声情報を、記憶部40に格納する。本実施例では、第2音声情報の発話区間から、フィラー区間を特定し、判断迷い区間であるか否かを判定する場合について説明するが、これに限定されるものではない。状態判定部100は、第1音声情報の発話区間から、フィラー区間を特定し、判断迷い区間であるか否かを判定してもよい。
The
記憶部40は、判断迷い区間の音声情報を記憶する記憶装置である。記憶部40は、たとえば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子などの記憶装置に対応する。
The
図4は、本実施例1に係る状態判定部の構成を示す機能ブロック図である。図4に示すように、状態判定部100は、発話区間検出部110a,110bと、特定部120と、応答時間算出部130と、明るさ算出部140と、長期平均算出部150と、閾値算出部160と、閾値DB170と、判定部180とを有する。
FIG. 4 is a functional block diagram showing the configuration of the state determination unit according to the first embodiment. As shown in FIG. 4, the
発話区間検出部110aは、第1話者(ユーザU101)の第1音声情報の入力を受け付け、第1音声情報のパワーの小さい無音区間に挟まれた区間を発話区間として算出する。発話区間検出部110aは、第1音声情報の発話区間の情報を、応答時間算出部130に出力する。
The utterance
たとえば、発話区間検出部110aは、第1音声情報x1(n)のパワーを検出し、発話の有無を示す変数「v1(t)」を設定する。nは音声情報のサンプル番号を示す。tはフレーム番号を示す。1フレームを、30msとする。発話区間検出部110aは、1フレーム中の第1音声情報x1(n)のパワーが閾値未満である場合には、「発話なし」として、変数「v1(t)=0」に設定する。発話区間検出部110aは、1フレーム中の第1音声情報x1(n)のパワーが閾値以上である場合には、「発話あり」として、変数「v1(t)=1」に設定する。なお、発話区間検出部110aは、WO2009/145192に記載された技術を基にして、発話の有無を判定してもよい。また、発話区間検出部110aは、音声情報のパワーの代わりに、SNR(signal-noise ratio)を用いて、発話の有無を判定してもよい。後述する発話区間検出部110bも同様である。
For example, the speech
発話区間検出部110aは、変数V1(t)を基にして、第1話者の発話区間の開始時刻T1s(k1)と、第1話者の発話区間の終了時刻T1e(k1)とを、応答時間算出部130に出力する。「k1」は、第1音声情報の発話区間を識別する発話区間番号である。
Based on the variable V1(t), the utterance
たとえば、発話区間検出部110aは、下記の式(1)、(2)に基づいて、T1s(k1)、T1e(k1)を出力する。式(1)に示すように、発話区間検出部110aは、v1(t)の値が「0」から「1」に変化するタイミングを、発話区間の開始時刻とする。式(2)に示すように、発話区間検出部110aは、v1(t)の値が「1」から「0」に変化するタイミングを、発話区間の終了時刻とする。
For example, speech
発話区間検出部110bは、第2話者(ユーザU102)の第2音声情報の入力を受け付け、第2音声情報のパワーの小さい無音区間に挟まれた区間を発話区間として算出する。発話区間検出部110bは、発話区間の情報を、特定部120および明るさ算出部140に出力する。
The utterance
たとえば、発話区間検出部110bは、第2音声情報x2(n)のパワーを検出し、発話の有無を示す変数「v2(t)」を設定する。発話区間検出部110bは、1フレーム中の第2音声情報x2(n)のパワーが閾値未満である場合には、「発話なし」として、変数「v2(t)=0」に設定する。発話区間検出部110bは、1フレーム中の第2音声情報x2(n)のパワーが閾値以上である場合には、「発話あり」として、変数「v2(t)=1」に設定する。
For example, the speech
発話区間検出部110bは、変数V2(t)を基にして、第2話者の発話区間の開始時刻T2s(k2)と、第2話者の発話区間の終了時刻T2e(k2)とを特定部120および明るさ算出部140に出力する。「k2」は、第2音声情報の発話区間を識別する発話区間番号である。
Based on the variable V2(t), the speech
たとえば、発話区間検出部110bは、下記の式(3)、(4)に基づいて、T2s(k2)、T2e(k2)を出力する。式(3)に示すように、発話区間検出部110bは、v2(t)の値が「0」から「1」に変化するタイミングを、発話区間の開始時刻とする。式(4)に示すように、発話区間検出部110bは、v2(t)の値が「1」から「0」に変化するタイミングを、発話区間の終了時刻とする。
For example, speech
特定部120は、第2音声情報および第2話者の発話区間の情報を受け付け、発話区間がフィラー区間であるか否かを判定する処理部である。特定部120は、判定結果を応答時間算出部130および判定部180に出力する。
The
特定部120は、第2音声情報x2(n)のうち、発話区間の開始時刻T2s(k2)から終了時刻T2e(k2)に含まれる音声情報を、音声認識エンジンに入力し、音声認識結果をフィラーDB(data base)と参照することで、発話区間がフィラー区間であるかを判定する。たとえば、フィラーDBには、意味をなさない音声の各種情報「そうなんだ、えーっと、なんだっけ、・・・」を記憶する。特定部120は、音声認識結果が、フィラーDBの音声の情報にヒットした場合に、発話区間を、フィラー区間と特定する。また、特定部120は、特開2015-082087に記載された技術を用いて、発話区間が、フィラー区間であるか否かを判定してもよい。
The specifying
特定部120は、フィラーの判定結果F(k2)を、応答時間算出部130および判定部180に出力する。特定部120は、第2音声情報の発話区間番号「k2」の発話区間が、フィラー区間であると判定した場合には、「F(k2)=1」を判定部180に出力する。特定部120は、第2音声情報の発話区間番号「k2」の発話区間が、フィラー区間でないと判定した場合には、「F(k2)=0」を判定部180に出力する。
The identifying
なお、音声認識は一般的に音声を文字に変換することを意味する。特定部120が、フィラー検出を行う場合には、文字に変換してから判定することも可能であるが、文字に変換しなくても、フィラー検出を行うことが可能である。たとえば、特定部120は、発話区間に含まれる韻律的特徴(アクセント、抑揚、リズムなどの特徴)や音響的特徴(音声認識の基となる特徴量など)からもフィラー区間であるか否かを検出してもよい。
Speech recognition generally means converting speech into characters. When the specifying
応答時間算出部130は、第1話者による発話区間が終了してから、第2話者による発話区間(フィラー区間ではない発話区間)が開始されるまでの応答時間を算出する処理部である。応答時間算出部130は、応答時間の情報を、閾値算出部160および判定部180に出力する。
The response
たとえば、応答時間算出部130は、式(5)を基にして、応答時間R(k2)を算出する。式(5)において、T1e(k1)は、第1話者の発話の終了時刻である。T2s(k2’)は、第1話者の発話の終了時刻T1e(k1)から次の発話の開始時刻T1s(k1+1)に含まれる、第2話者の発話区間番号k2の発話区間のうち、フィラー区間ではない、最初の発話区間の開始時刻を示す。なお、第1話者の発話の終了時刻T1e(k1)から次の発話の開始時刻T1s(k1+1)には、第2話者の複数の発話区間が含まれていてもよい。
For example,
明るさ算出部140は、第2音声情報および第2話者の発話区間の情報を受け付け、第2話者の発話区間の明るさの推定値Dを算出する処理部である。明るさ算出部140は、明るさの推定値Dの情報を、長期平均算出部150、閾値算出部160、判定部180に出力する。明るさの推定値Dは、発話区間に含まれる各基本周波数の分散に対応するものである。
The brightness calculation unit 140 is a processing unit that receives the second voice information and the information of the speech period of the second speaker, and calculates the estimated value D of the brightness of the speech period of the second speaker. The brightness calculation unit 140 outputs the information of the brightness estimated value D to the long-term
以下において、明るさ算出部140の処理の一例について説明する。まず、明るさ算出部140は、第2話者の発話区間T2s(k2)~T2e(k2)に含まれる第2音声情報から、基本周波数P(t)を算出する。明るさ算出部140は、第2音声情報の自己相関関数を算出し、自己相関関数の値がピークとなる位置に基づいて、フレーム毎の基本周波数を算出する。明るさ算出部140は、特開平8-44395に記載された技術を用いて、基本周波数を算出してもよい。 An example of the processing of the brightness calculation unit 140 will be described below. First, the brightness calculator 140 calculates the fundamental frequency P(t) from the second voice information included in the second speaker's utterance period T2s(k2) to T2e(k2). Brightness calculator 140 calculates the autocorrelation function of the second audio information, and calculates the fundamental frequency for each frame based on the position where the value of the autocorrelation function peaks. The brightness calculator 140 may calculate the fundamental frequency using the technique described in Japanese Patent Laid-Open No. 8-44395.
明るさ算出部140は、基本周波数P(t)[Hz]を、式(6)を基にして、基本周波数P’(t)[semitone]に変換する。基本周波数P’(t)は、人の聴覚上の声の高さに合った対数領域での尺度により示されるものである。 The brightness calculator 140 converts the fundamental frequency P(t) [Hz] into a fundamental frequency P'(t) [semitone] based on Equation (6). The fundamental frequency P'(t) is indicated by a scale in the logarithmic domain that matches the human auditory pitch of the voice.
明るさ算出部140は、基本周波数の時系列データP’(t)から、所定フレームの移動平均により、基本周波数の長期平均P_ave_long(t)を算出する。たとえば、明るさ算出部140は、式(7)に基づいて、P_ave_long(t)を算出する。式(7)に含まれる「L」は、平均算出時の移動幅を示すものである。 The brightness calculation unit 140 calculates a long-term average P_ave_long(t) of the fundamental frequency from the time-series data P'(t) of the fundamental frequency by moving average of a predetermined frame. For example, brightness calculator 140 calculates P_ave_long(t) based on equation (7). "L" included in equation (7) indicates the movement width at the time of average calculation.
明るさ算出部140は、発話区間番号「k2」の発話区間における平均差分量(分散)を、明るさの推定値D(k2)として、算出する。たとえば、明るさ算出部140は、式(8)を基にして、明るさの推定値D(k2)を算出する。 The brightness calculation unit 140 calculates the average amount of difference (variance) in the speech segment with the speech segment number “k2” as the estimated brightness value D(k2). For example, the brightness calculation unit 140 calculates the brightness estimated value D(k2) based on Equation (8).
図5は、明るさ算出部の処理を説明するための図である。図5において、グラフG2の横軸はフレーム数に対応する軸であり、縦軸は基本周波数P’(t)[semitone]に対応する軸である。グラフG3の横軸は第2話者の発話区間番号k2に対応する軸であり、縦軸は明るさの推定値D(k2)に対応する軸である。たとえば、グラフG2の領域A1に含まれるP’(t)を、フレーム番号t-L~Lに含まれるP’(t)の長期平均P_ave_long(t)で除算することで、推定値DA1が算出される。 FIG. 5 is a diagram for explaining the processing of the brightness calculator. In FIG. 5, the horizontal axis of the graph G2 is the axis corresponding to the number of frames, and the vertical axis is the axis corresponding to the fundamental frequency P'(t) [semitone]. The horizontal axis of the graph G3 is the axis corresponding to the speech period number k2 of the second speaker, and the vertical axis is the axis corresponding to the estimated brightness value D(k2). For example, by dividing P'(t) included in area A1 of graph G2 by the long-term average P_ave_long(t) of P'(t) included in frame numbers tL to L, the estimated value D A1 is Calculated.
明るさ算出部140は、第2話者の各発話区間について、上記処理を繰り返し実行することで、各発話区間の明るさの推定値Dを算出する。 The brightness calculation unit 140 calculates the estimated value D of the brightness of each utterance period of the second speaker by repeatedly executing the above process for each utterance period of the second speaker.
図4の説明に戻る。長期平均算出部150は、明るさ算出部140から取得する明るさの推定値の時系列データD(k2)から、所定フレームの移動平均により、明るさの長期平均D’(k2)を算出する。たとえば、長期平均算出部150は、式(9)を基にして、明るさの長期平均D’(k2)を算出する。式(9)において、L2は、発話区間番号k2の発話区間の終了時刻から所定時間後の時刻を示す。L1は、発話区間番号k2の発話区間の開始時刻から所定時間前の時刻を示す。長期平均算出部150は、前後の会話状況の明るさを示す指標として活用する。長期平均算出部150は、明るさの長期平均D’(k2)を判定部180に出力する。
Returning to the description of FIG. The long-term
閾値算出部160は、各種の閾値を算出し、算出した閾値の情報を判定部180に出力する処理部である。たとえば、閾値算出部160は、閾値TH_D、閾値TH_R、閾値TH_D’を算出する。閾値TH_Dは、発話区間の明るさの推定値Dと比較される閾値である。閾値TH_Rは、応答時間と比較される閾値である。閾値TH_D’は、明るさ長期平均D’と比較される閾値である。
The threshold calculation unit 160 is a processing unit that calculates various thresholds and outputs information on the calculated thresholds to the
閾値TH_D、閾値TH_R、閾値TH_D’の初期値は、閾値DB170に記録されているものとする。たとえば、閾値TH_Dの初期値を「1.5[semitone]」とする。閾値TH_Rの初期値を「200[Frame]」とする。閾値TH_D’の初期値を「1.0[semitone]」とする。
It is assumed that initial values of the threshold TH_D, the threshold TH_R, and the threshold TH_D' are recorded in the
閾値算出部160が、閾値HT_Dを算出する処理について説明する。閾値算出部160は、明るさ算出部140から、各発話区間の明るさの推定値Dを取得し、取得した複数の推定値Dの平均AVE_Dおよび分散VAR_Dを算出する。閾値算出部160は、式(10)を基にして、閾値HT_Dを更新する。閾値算出部160は、更新した閾値HT_Dの情報を、判定部180に出力する。式(10)のαは係数であり、たとえば「α=0.5」とする。
A process of calculating the threshold HT_D by the threshold calculator 160 will be described. The threshold calculator 160 acquires the estimated brightness value D of each speech period from the brightness calculator 140, and calculates the average AVE_D and the variance VAR_D of the multiple estimated values D thus acquired. The threshold calculator 160 updates the threshold HT_D based on Equation (10). Threshold calculation section 160 outputs information on updated threshold HT_D to
HT_D=AVE_D-α×VAR_D・・・(10) HT_D=AVE_D-α×VAR_D (10)
閾値算出部160が、閾値HT_Rを算出する処理について説明する。閾値算出部160は、応答時間算出部130から、各応答時間Rを取得し、取得した複数の応答時間Rの平均AVE_Rおよび分散VAR_Rを算出する。閾値算出部160は、式(11)を基にして、閾値HT_Rを更新する。閾値算出部160は、更新した閾値HT_Rの情報を、判定部180に出力する。式(11)のβは係数であり、たとえば「β=0.5」とする。
A process of calculating the threshold HT_R by the threshold calculator 160 will be described. The threshold calculator 160 acquires each response time R from the
HT_R=AVE_R-β×VAR_R・・・(11) HT_R=AVE_R-β×VAR_R (11)
閾値算出部160は、閾値TH_D’に関しては、更新処理を行わないで、そのまま、判定部180に出力する。
Threshold calculation section 160 outputs threshold TH_D' to
閾値算出部160は、上記の閾値TH_D、閾値TH_Rを更新する処理を定期的に行い、更新を行ったタイミングで、判定部180に更新した閾値TH_D、閾値TH_Rを判定部180に出力する。また、閾値算出部160は、第2話者の識別情報と対応付けて、閾値TH_D、閾値TH_Rを、閾値DB170に格納しておき、別の機会に第2話者の音声情報を基に「判断迷い区間ではない」を行う場合に、格納しておいた各閾値から、第2話者に対応する閾値を検索して、検索した閾値を、判定部180に出力してもよい。これにより、第2話者の音声情報に最適化された閾値をもちいて、処理を行うことができる。
The threshold calculation unit 160 periodically performs processing for updating the threshold TH_D and the threshold TH_R, and outputs the updated threshold TH_D and the threshold TH_R to the
判定部180は、各発話区間に関するフィラー区間の有無F、応答時間R、推定値D、長期平均D’を取得し、フィラー区間と判定された発話区間について、下記の処理を行うことで、フィラー区間が「判断迷い区間であるかいなか」を判定する。判定部180は、判断迷い区間であると判定した場合には、判断迷い区間の第2音声情報を、記憶部40に格納する。
The
たとえば、判定部180は、長期平均判定処理、応答時間判定処理、フィラー明るさ判定処理、応答明るさ判定処理を行う。なお、判定部180は、フィラー区間ではない(F(k2)=0)発話区間については、長期平均判定処理、応答時間判定処理、フィラー明るさ判定処理、応答明るさ判定処理をスキップし「判断迷い区間ではない」と判定する。
For example, the
長期平均判定処理について説明する。判定部180は、フィラー区間と判定された(F(k2)=1)の発話区間番号「k2」の発話区間の明るさ長期平均D’(k2)と、閾値TH_D’とを比較し、明るさ長期平均が「明」か「暗」かを判定する。判定部180は、長期平均D’(k2)が、閾値TH_D’以上である場合に、発話区間番号k2の発話区間の明るさ長期平均が「明」であると判定する。判定部180は、長期平均D’(k2)が、閾値TH_D’未満である場合に、発話区間番号k2の発話区間の明るさ長期平均が「暗」であると判定する。
The long-term average determination processing will be explained. The
応答時間判定処理について説明する。判定部180は、フィラー区間と判定された(F(k2)=1)の発話区間番号「k2」の発話区間に対応する応答時間R(k2)と、閾値TH_Rとを比較し、応答時間R(k2)が「長」か「短」かを判定する。判定部180は、応答時間R(k2)が、閾値TH_R以上である場合に、発話区間番号k2の発話区間に対応する応答時間が「長」と判定する。判定部180は、応答時間R(k2)が、閾値TH_R未満である場合に、発話区間番号k2の発話区間に対応する応答時間が「短」と判定する。
Response time determination processing will be described. The
判定部180は、長期平均判定処理の判定結果が「明」であり、かつ、応答時間判定結果が「長」である場合に、続く、フィラー明るさ判定処理、応答明るさ判定処理を行う。一方、判定部180は、長期平均判定処理の判定結果が「暗」である、または、応答時間判定結果が「短」である場合に、発話区間番号「k2」の発話区間が、「判断迷い区間ではない」と判定し、フィラー明るさ判定処理、応答明るさ判定処理をスキップする。
When the determination result of the long-term average determination process is "bright" and the response time determination result is "long", the
フィラー明るさ判定処理について説明する。判定部180は、フィラー区間と判定された(F(k2)=1)の発話区間番号「k2」の発話区間の明るさ推定値D(k2)と、閾値TH_Dとを比較し、明るさが「明」か「暗」かを判定する。判定部180は、推定値D(k2)が、閾値TH_D以上である場合に、発話区間番号k2の発話区間の明るさが「明」であると判定する。判定部180は、推定値D(k2)が、閾値TH_D未満である場合に、発話区間番号k2の発話区間の明るさが「暗」であると判定する。
The filler brightness determination processing will be described. The
応答明るさ判定処理について説明する。判定部180は、フィラー区間と判定された(F(k2)=1)の発話区間番号「k2」の発話区間に続く応答区間の明るさ推定値D(k2’)と、閾値TH_Dとを比較し、明るさが「明」か「暗」かを判定する。判定部180は、推定値D(k2’)が、閾値TH_D以上である場合に、応答区間の明るさが「明」であると判定する。判定部180は、推定値D(k2’)が、閾値TH_D未満である場合に、応答区間の明るさが「暗」であると判定する。
The response brightness determination process will be described. The
判定部180は、フィラー明るさ判定処理の判定結果が「暗」であり、かつ、応答明るさ判定処理の判定結果が「明」である場合に、発話区間番号「k2」の発話区間が「判断迷い区間である」と判定する。
If the determination result of the filler brightness determination process is "dark" and the determination result of the response brightness determination process is "bright",
なお、判定部180は、長期平均判定処理、応答時間判定処理、フィラー明るさ判定処理、応答明るさ判定処理をそれぞれ実行して、各判定結果をまとめて用いて、発話区間番号「k2」の発話区間が「判断迷い区間であるかいなか」を判定してもよい。判定部180は、長期平均判定処理の結果が「明」、応答時間判定処理の結果が「長」、フィラー明るさ判定処理の結果が「暗」、応答明るさ判定処理の結果が「明」である場合に、発話区間番号「k2」の発話区間が「判断迷い区間である」と判定してもよい。
Note that the
次に、本実施例1の音声処理装置1の状態判定部100の処理手順の一例について説明する。図6は、本実施例1に係る音声処理装置の処理手順を示すフローチャートである。図6に示すように、この音声処理装置1の状態判定部100は、第1音声情報および第2音声情報を取得する(ステップS101)。
Next, an example of the processing procedure of the
状態判定部100の発話区間検出部110aは、第1話者の発話区間を検出し、発話区間検出部110bは、第2話者の発話区間を検出する(ステップS102)。状態判定部100の特定部120は、フィラー区間を検出する(ステップS103)。状態判定部100は、フィラー区間が存在しない場合には(ステップS104,No)、ステップS111に移行する。
The speech
一方、状態判定部100は、フィラー区間が存在する場合には(ステップS104,Yes)、ステップS105に移行する。状態判定部100の応答時間算出部130は、応答時間Rを算出する(ステップS105)。状態判定部100の明るさ算出部140は、明るさの推定値Dを算出する(ステップS106)。
On the other hand, if there is a filler section (step S104, Yes), the
状態判定部100の長期平均算出部150は、明るさ長期平均D’を算出する(ステップS107)。状態判定部100の判定部180は、各閾値判定を実行する(ステップS108)。ステップS108において、判定部180は、長期平均判定処理、応答時間判定処理、フィラー明るさ判定処理、応答明るさ判定処理をそれぞれ実行する。
The long-term
判定部180は、発話区間が「判断迷い区間」であるか否かを判定する(ステップS109)。判定部180は、発話区間が「判断迷い区間」である場合には(ステップS109,Yes)、判定迷い区間の音声情報を記憶部40に格納する(ステップS110)。一方、判定部180は、発話区間が「判断迷い区間」でない場合には(ステップS109,No)、ステップS111に移行する。
The
状態判定部100は、次の会話がある場合には(ステップS111,Yes)、ステップS103に移行する。状態判定部100は、次の会話がない場合には(ステップS111,No)、処理を終了する。
If there is a next conversation (step S111, Yes), the
次に、本実施例1に係る音声処理装置1の効果について説明する。音声処理装置1は、話者の発話区間からフィラー区間を特定し、特定したフィラー区間の明るさの推定値が閾値未満である場合に、フィラー区間を判断迷い区間として判定する。これにより、ユーザが迷っている区間を正確に推定することができる。 Next, effects of the speech processing device 1 according to the first embodiment will be described. The speech processing device 1 identifies a filler section from a speaker's utterance section, and determines the filler section as a questionable section when the estimated brightness value of the identified filler section is less than a threshold. This makes it possible to accurately estimate the section in which the user is hesitant.
また、音声処理装置1は、フィラー区間の明るさの推定値の他に、応答区間の明るさの推定値、応答時間、長期平均の判定結果の組合せを基にして、フィラー区間が判断迷い区間であるか否かを判定することで、判定精度を向上させることができる。 In addition to the estimated value of the brightness of the filler section, the speech processing device 1 determines whether the filler section is an uncertain section based on a combination of the estimated value of the brightness of the response section, the response time, and the determination result of the long-term average. By determining whether or not, the determination accuracy can be improved.
なお、話者の声の明るさは、声の高さと関係があるといわれており、声が高いと明るいと感じる。発明者は、異なる話者に関して、フィラー区間のおける音声情報の周波数の中央値と、フィラー区間の状態との関係に関して実験を行った。図7は、実験結果の一例を示す図である。図7に示すように、全体として(一部例外を除けば)、フィラー区間の状態が「記憶操作(判断迷い区間でない)」の場合と比較して、状態が「判断迷い区間」の周波数が低くなっており、話者の声の明るさが「暗い」と、フィラー区間は「判断迷い区間」であると言える。 It is said that the brightness of a speaker's voice is related to the pitch of the voice, and the higher the voice, the brighter the speaker feels. The inventor conducted an experiment regarding the relationship between the median frequency of speech information in the filler section and the state of the filler section for different speakers. FIG. 7 is a diagram showing an example of experimental results. As shown in FIG. 7, as a whole (with some exceptions), the frequency of the filler section in the state of "determination doubtful section" is higher than that of the filler section state of "memory operation (not judgment doubtful section)". When the brightness of the speaker's voice is low and the brightness of the speaker's voice is "dark", it can be said that the filler section is a "difficult judgment section".
図8は、音声情報の周波数の推移を説明するための図である。図8のグラフG4,G5の横軸は時間軸であり、縦軸は周波数(声の高さ)に対応する軸である。たとえば、グラフG4において、フィラー区間T31の状態は「記憶操作(判断迷い区間でない)」である。このフィラー区間T31の周波数は、200~250Hz付近であり、明るい声である。一方、グラフG5において、フィラー区間32の状態は「判断迷い区間」である。このフィラー区間T31の周波数は、150~200Hz付近であり、暗い声である。なお、フィラー区間32に続く発話区間T33の周波数は、200~300Hz付近の明るい声である。 FIG. 8 is a diagram for explaining the transition of the frequency of audio information. The horizontal axis of graphs G4 and G5 in FIG. 8 is the time axis, and the vertical axis is the axis corresponding to frequency (pitch of voice). For example, in the graph G4, the state of the filler section T31 is "memory operation (not indecisive section)". The frequency of this filler section T31 is around 200 to 250 Hz, which is a bright voice. On the other hand, in the graph G5, the state of the filler section 32 is the "deterministic section". The frequency of this filler section T31 is around 150 to 200 Hz, which is a dark voice. The frequency of the utterance section T33 following the filler section 32 is a bright voice around 200-300 Hz.
図9は、本実施例2に係るシステムの構成を示す図である。図9に示すように、このシステムは、音声処理装置2と、マイク10a,10bと、収録機器300とを有する。マイク10a,10bは、収録機器300に接続される。収録機器300は、ネットワーク5を介して、クラウド上の音声処理装置2に接続される。図示を省略するが、音声処理装置2は、複数のサーバによって構成されていてもよい。
FIG. 9 is a diagram showing the configuration of a system according to the second embodiment. As shown in FIG. 9, this system has an audio processing device 2,
マイク10aは、ユーザU101の音声を集音するマイクである。マイク10aは、集音した音声情報を、収録機器300に出力する。マイク10bは、ユーザU102の音声を集音するマイクである。マイク10aは、集音した音声情報を、収録機器300に出力する。たとえば、ユーザU101は、第1話者に対応し、ユーザU102は、第2話者に対応する。以下の説明では適宜、ユーザU101の音声情報を「第1音声情報」と表記し、ユーザU102の音声情報を「第2音声情報」と表記する。
The
収録機器300は、第1音声情報および第2音声情報を収録する装置である。収録機器300は、第1音声情報および第2音声情報を音声ファイル化して、音声処理装置2に送信する。
The
図10は、本実施例2に係る収録機器の構成を示す機能ブロック図である。図10に示すように、この収録機器300は、マイク10a,10bに接続される。また、収録機器300は、AD変換部310a,310b、音声ファイル化部320、送信部330を有する。AD変換部310a,310b、音声ファイル化部320、送信部330の各処理部は、例えば、CPUやMPU等により実現される。また、各処理部は、例えば、ASICやFPGA等の集積回路により実現されてもよい。
FIG. 10 is a functional block diagram showing the configuration of the recording device according to the second embodiment. As shown in FIG. 10, this
AD変換部310aは、マイク10aから入力される第1音声情報を、アナログ信号からデジタル信号に変換するAD変換回路である。AD変換部310aは、デジタル信号に変換した、第1音声情報を音声ファイル化部320に出力する。以下の説明では、デジタル信号に変換した第1音声情報を単に、第1音声情報と表記する。
The AD conversion unit 310a is an AD conversion circuit that converts the first audio information input from the
AD変換部310bは、マイク10bから入力される第2音声情報を、アナログ信号からデジタル信号に変換するAD変換回路である。AD変換部310bは、デジタル信号に変換した、第2音声情報を音声ファイル化部320に出力する。以下の説明では、デジタル信号に変換した第2音声情報を単に、第2音声情報と表記する。
The
音声ファイル化部320は、AD変換部310aから第1音声情報を取得し、取得した第1音声情報を音声ファイル化する。音声ファイル化部320は、音声ファイル化した第1音声情報を、送信部330に出力する。また、音声ファイル化部320は、AD変換部310bから第2音声情報を取得し、取得した第2音声情報を音声ファイル化する。音声ファイル化部320は、音声ファイル化した第2音声情報を、送信部330に出力する。
The
送信部330は、音声ファイル化された第1音声情報を、ネットワーク5を介して、音声処理装置2に送信する。また、送信部330は、音声ファイル化された第2音声情報を、ネットワーク5を介して、音声処理装置2に送信する。
The transmission unit 330 transmits the first audio information converted into an audio file to the audio processing device 2 via the
音声処理装置2は、収録機器300から第1音声情報および第2音声情報の音声ファイルを受信する。音声処理装置2は、音声ファイルに含まれる各音声情報を基にして、ユーザU102の発話区間から、判断迷い区間を判定する。音声処理装置2は、判断迷い区間の音声情報を記憶装置に格納する。
The audio processing device 2 receives audio files of the first audio information and the second audio information from the
図11は、本実施例2に係る音声処理装置の構成を示す機能ブロック図である。図11に示すように、この音声処理装置2は、受信部21、前処理部22、記憶部23、状態判定部200を有する。受信部21、前処理部22、記憶部23、状態判定部200の各処理部は、例えば、CPUやMPU等により実現される。また、各処理部は、例えば、ASICやFPGA等の集積回路により実現されてもよい。
FIG. 11 is a functional block diagram showing the configuration of the speech processing device according to the second embodiment. As shown in FIG. 11 , this speech processing device 2 has a receiving
受信部21は、ネットワーク5を介して、収録機器300から音声ファイル化された第1音声情報および第2音声情報を受信する処理部である。以下の説明では、音声ファイル化された第1音声情報および第2音声情報を単に、第1音声情報および第2音声情報と表記する。受信部21は、第1音声情報および第2音声情報を、前処理部22に出力する。
The receiving
前処理部22は、第1音声情報および第2音声情報に対して各種の前処理を実行し、前処理を行った第1音声情報および第2音声情報を、状態判定部200に出力する処理部である。たとえば、図9に示したシステムでは、マイク10a,10bに、ユーザU101,U102双方の音声が集音される場合がある。このため、前処理部22は、第1音声情報に、ユーザU101の音声のみが含まれるように、第1音声情報から、ユーザU102の音声を取り除く前処理を行う。前処理部22は、第2音声情報に、ユーザU102の音声のみが含まれるように、第2音声情報から、ユーザU101の音声を取り除く前処理を行う。
The preprocessing unit 22 performs various preprocessing on the first audio information and the second audio information, and outputs the preprocessed first audio information and the second audio information to the
状態判定部200は、第1音声情報および第2音声情報を取得して、発話区間を検出し、各発話区間からフィラー区間を特定する。状態判定部200は、特定したフィラー区間に含まれる音声情報の特徴量を基にして、フィラー区間が判断迷い区間であるか否かを判定する。状態判定部200は、フィラー区間が判断迷い区間である場合には、判断迷い区間の音声情報を、記憶部23に格納する。本実施例では、第2音声情報の発話区間から、フィラー区間を特定し、判断迷い区間であるか否かを判定する場合について説明するが、これに限定されるものではない。状態判定部200は、第1音声情報の発話区間から、フィラー区間を特定し、判断迷い区間であるか否かを判定してもよい。
The
たとえば、状態判定部200は、第2音声情報に対して、短時間離散フーリエ変換を実行することで、第2音声情報を入力スペクトルに変換する。状態判定部200は、入力スペクトルに関する特徴量を用いて、発話区間の明るさを判定する。
For example, the
記憶部23は、判断迷い区間の音声情報を記憶する記憶装置である。記憶部23は、たとえば、RAM、ROM、フラッシュメモリなどの半導体メモリ素子などの記憶装置に対応する。
The
図12は、本実施例2に係る状態判定部の構成を示す機能ブロック図である。図12に示すように、この状態判定部200は、発話区間検出部210a,210bと、特定部220と、応答時間算出部230と、明るさ算出部240と、判定部250とを有する。
FIG. 12 is a functional block diagram showing the configuration of the state determination unit according to the second embodiment. As shown in FIG. 12 , the
発話区間検出部210aは、第1話者(ユーザU101)の第1音声情報の入力を受け付け、第1音声情報のパワーの小さい無音区間に挟まれた区間を発話区間として算出する。発話区間検出部210aは、第1音声情報の発話区間の情報を、応答時間算出部130に出力する。発話区間検出部210aが、発話区間を算出する処理は、発話区間検出部110aの処理と同様である。
The utterance period detection unit 210a receives input of the first voice information of the first speaker (user U101), and calculates a period sandwiched between silent periods of low power of the first voice information as the utterance period. Speech period detection section 210 a outputs information on the speech period of the first audio information to response
発話区間検出部210bは、第2話者(ユーザU102)の第2音声情報の入力を受け付け、第2音声情報のパワーの小さい無音区間に挟まれた区間を発話区間として算出する。発話区間検出部210bは、第2音声情報の発話区間の情報を、特定部220、明るさ算出部240に出力する。発話区間検出部210bが、発話区間を算出する処理は、発話区間検出部110bの処理と同様である。
The utterance
特定部220は、第2音声情報および第2話者の発話区間の情報を受け付け、発話区間がフィラー区間であるか否かを判定する処理部である。特定部120は、判定結果を応答時間算出部230および判定部250に出力する。特定部220が、フィラー区間であるか否かを判定する処理は、実施例1で説明した特定部120の処理と同様である。
The specifying
応答時間算出部230は、第1話者による発話区間が終了してから、第2話者による発話区間(フィラー区間ではない発話区間)が開始されるまでの応答時間を算出する処理部である。応答時間算出部230は、応答時間の情報を、判定部250に出力する。応答時間算出部230が、応答時間を算出する処理は、実施例1で説明した応答時間算出部130の処理と同様である。
The response time calculation unit 230 is a processing unit that calculates the response time from the end of the utterance period by the first speaker to the start of the utterance period (not the filler period) by the second speaker. . Response time calculation section 230 outputs response time information to determination section 250 . The process of calculating the response time by the response time calculator 230 is the same as the process of the
明るさ算出部240は、第2音声情報および第2話者の発話区間の情報を受け付け、第2話者の発話区間の明るさの特徴量を算出する処理部である。明るさ算出部240は、各発話区間の明るさの特徴量の情報を、判定部250に出力する。 The brightness calculation unit 240 is a processing unit that receives the second voice information and the information of the speech period of the second speaker, and calculates the feature amount of the brightness of the speech period of the second speaker. Brightness calculation section 240 outputs information on the brightness feature amount of each speech period to determination section 250 .
以下において、明るさ算出部240の処理の一例について説明する。まず、明るさ算出部240は、第2話者の発話区間T2s(k2)~T2e(k2)に含まれる第2音声情報x2(n)に対して、短期間離散フーリエ変換を実行することで、第2音声情報の入力スペクトルX2(l)を生成する。 An example of the processing of the brightness calculation unit 240 will be described below. First, the brightness calculation unit 240 performs a short-term discrete Fourier transform on the second speech information x2(n) included in the utterance period T2s(k2) to T2e(k2) of the second speaker. , to generate the input spectrum X2(l) of the second speech information.
明るさ算出部240は、文献(F.Eyben et al.,“The Geneva Minimalistic Acoustic Parameter Set (GeMAPS) for Voice Research and Affective Computing,”in IEEE Transactions on Affective Computing, vol. 7, no. 2,pp.190-202,April-June 1 2016.)等に記載された方法に基づいて、入力スペクトルに関する複数の特徴量の平均、分散、中央値などの統計量を算出し、特徴ベクトルV(ks、s)の各要素として格納する。ここで、特徴ベクトルVの「s」は、特徴量の要素数を示すものである。 The brightness calculation unit 240 is described in the document (F. Eyben et al., “The Geneva Minimalistic Acoustic Parameter Set (GeMAPS) for Voice Research and Affective Computing,” in IEEE Transactions on Affective Computing, vol. 7, no. 2, pp. .190-202, April-June 1 2016.), etc., calculate statistics such as the average, variance, and median of multiple feature values regarding the input spectrum, and obtain a feature vector V (ks, s). Here, "s" of the feature vector V indicates the number of elements of the feature quantity.
入力スペクトルに関する特徴量には、スペクトルの形状に関する特徴量と、音量に関する特徴量と、話速に関する特徴量とが含まれる。スペクトルの形状に関する特徴量には「Alpha Ratio、Hammarberg Indes、Spectral Slope 0-500Hz、Spectral Slope 500-1500Hz、Formant 1,2, and relative energy、Harmonic differnce H1-H2、Harmonic differnce H1-A3」等が含まれる。音量に関する特徴量には「Loudness、Rate of loudness peaks」等が含まれる。話速に関する特徴量には「Number of continuous voiced regions per second (pseudo syllable rate)」等が含まれる。 The feature amount related to the input spectrum includes a feature amount related to the shape of the spectrum, a feature amount related to volume, and a feature amount related to speech speed. Features related to the shape of the spectrum include "Alpha Ratio, Hammarberg Indes, Spectral Slope 0-500Hz, Spectral Slope 500-1500Hz, Formant 1,2, and relative energy, Harmonic difference H1-H2, Harmonic difference H1-A3", etc. included. The volume-related feature quantity includes "Loudness, Rate of loudness peaks" and the like. Features related to speech speed include "Number of continuous voiced regions per second (pseudo syllable rate)".
明るさ算出部240は、上記の入力スペクトルに関する複数の特徴量から、特徴ベクトルV(ks、s)を生成しても良いし、複数の特徴量の一部から、特徴ベクトルV(ks、s)を生成してもよい。明るさ算出部240は、話速に関して、音声認識を併用し、1秒当たりの文字数を、話速として算出してもよい。明るさ算出部240は、第2話者の各発話区間について、特徴ベクトルを算出し、判定部250に出力する。 The brightness calculation unit 240 may generate a feature vector V(ks, s) from a plurality of feature amounts related to the input spectrum, or may generate a feature vector V(ks, s ) may be generated. The brightness calculation unit 240 may also use speech recognition to calculate the number of characters per second as the speech speed. Brightness calculation section 240 calculates a feature vector for each utterance period of the second speaker and outputs it to determination section 250 .
なお、明るさ算出部240は、次のような事前処理を行う。明るさ算出部240は、判定部250から教師データを受け付けた場合に、教師データに対して上記の処理を実行することで、特徴ベクトルVを算出する。明るさ算出部240は、教師データに対して算出した特徴ベクトルVを、判定部250に出力する。教師データに対応する特徴ベクトルVは、閾値を決定する場合に用いられる。 In addition, the brightness calculation unit 240 performs the following pre-processing. When receiving teacher data from the determination unit 250, the brightness calculation unit 240 calculates the feature vector V by performing the above processing on the teacher data. The brightness calculation section 240 outputs the feature vector V calculated for the teacher data to the determination section 250 . A feature vector V corresponding to the training data is used when determining the threshold.
判定部250は、各発話区間に関するフィラー区間の有無F、応答時間R、特徴ベクトルVを取得し、下記の処理を行うことで、フィラー区間が「判断迷い区間であるかいなか」を判定する。判定部250は、判断迷い区間であると判定した場合には、判断迷い区間の第2音声情報を、記憶部23に格納する。
The determination unit 250 acquires the presence/absence F of the filler segment, the response time R, and the feature vector V for each utterance segment, and performs the following processing to determine whether or not the filler segment is a doubtful segment. The determination unit 250 stores the second audio information of the uncertain judgment interval in the
まず、判定部250の事前処理について説明する。かかる事前処理を実行することで、特徴ベクトルV(k2、s)を「明」または「暗」に分類する閾値TH_V(s)を準備する。判定部250は、明るさの判定結果が「明」と判断されたフィラー区間の音声情報と、応答区間の音声情報との教師データを事前に収集しておく。判定部250は、教師データを、明るさ算出部240に出力し、教師データに対応する特徴ベクトルV(k2、s)を取得する。判定部250は、特徴ベクトルV(k2、s)と正解ラベルとの組をサポートベクターマシンに入力し、「明」または「暗」の2クラス分類を実行する。判定部250は、「明」または「暗」の2クラス分類の境界面を、明るさ閾値TH_V(s)とする。応答時間の閾値TH_Rの値は、予め設定さているものとする。 First, pre-processing of the determination unit 250 will be described. By executing such preprocessing, a threshold TH_V(s) for classifying the feature vector V(k2, s) into "bright" or "dark" is prepared. The judging unit 250 collects in advance teacher data of speech information in the filler section and speech information in the response section in which the brightness judgment result is determined to be “bright”. The determination unit 250 outputs the teacher data to the brightness calculation unit 240 and acquires the feature vector V(k2, s) corresponding to the teacher data. The determination unit 250 inputs the set of the feature vector V(k2, s) and the correct label to the support vector machine, and performs two-class classification of “bright” or “dark”. The determination unit 250 sets the boundary surface of the two-class classification of “bright” and “dark” as the brightness threshold TH_V(s). It is assumed that the value of the response time threshold TH_R is set in advance.
判定部250が「判断迷い区間であるかいなか」を判定する処理について説明する。判定部250は、フィラー区間の特徴ベクトルV(k2、s)と、閾値TH_V(s)とを比較し、特徴ベクトルV(ks、s)が、閾値TH_V(s)以上である場合に、フィラー区間が「明」であると判定する。判定部250は、フィラー区間の特徴ベクトルV(k2、s)と、閾値TH_V(s)とを比較し、特徴ベクトルV(ks、s)が、閾値TH_V(s)未満である場合に、フィラー区間が「暗」であると判定する。なお、判定部250は、フィラー区間の特徴ベクトルV(k2、s)を、学習済みのベクターマシーンに入力して、「明」または「暗」を判定してもよい。 A process of determining whether or not the determination section 250 is in an indecisive section will be described. The determination unit 250 compares the feature vector V(k2, s) of the filler section with the threshold TH_V(s), and if the feature vector V(ks, s) is equal to or greater than the threshold TH_V(s), the filler section It is determined that the interval is “bright”. The determination unit 250 compares the feature vector V(k2, s) of the filler section with the threshold TH_V(s), and if the feature vector V(ks, s) is less than the threshold TH_V(s), the filler section The section is determined to be "dark". Note that the determination unit 250 may input the feature vector V(k2, s) of the filler section to a learned vector machine to determine "bright" or "dark".
判定部250は、応答区間の特徴ベクトルV(k2、s)と、閾値TH_V(s)とを比較し、特徴ベクトルV(ks、s)が、閾値TH_V(s)以上である場合に、応答区間が「明」であると判定する。判定部250は、応答区間の特徴ベクトルV(k2、s)と、閾値TH_V(s)とを比較し、特徴ベクトルV(ks、s)が、閾値TH_V(s)未満である場合に、応答区間が「暗」であると判定する。なお、判定部250は、応答区間の特徴ベクトルV(k2、s)を、学習済みのベクターマシーンに入力して、「明」または「暗」を判定してもよい。 The determination unit 250 compares the feature vector V(k2, s) of the response interval with the threshold TH_V(s), and if the feature vector V(ks, s) is equal to or greater than the threshold TH_V(s), the response It is determined that the interval is “bright”. The determination unit 250 compares the feature vector V(k2, s) of the response interval with the threshold TH_V(s), and if the feature vector V(ks, s) is less than the threshold TH_V(s), the response The section is determined to be "dark". Note that the determination unit 250 may input the feature vector V(k2, s) of the response interval to a learned vector machine to determine “bright” or “dark”.
また、判定部250は、実施例1で説明した判定部180と同様にして、フィラー区間と判定された(F(k2)=1)の発話区間番号「k2」の発話区間に対応する応答時間R(k2)と、閾値TH_Rとを比較し、応答時間R(k2)が「長」か「短」かを判定する。
In addition, similarly to the
判定部250は、フィラー区間の判定結果が「暗」、かつ、応答区間の判定結果が「明」、かつ、応答時間が「長」である場合おいて、フィラー区間が「判断迷い区間である」と判定する。これに対して、判定部250は、フィラー区間の判定結果が「明」、応答区間の判定結果が「暗」、または、応答時間が「長」である場合において、フィラー区間が「判断迷い区間でない」と判定する。 When the determination result of the filler section is "dark", the determination result of the response section is "bright", and the response time is "long", the determination unit 250 determines that the filler section is a "deterministic section." ” is determined. On the other hand, when the determination result of the filler section is "bright", the determination result of the response section is "dark", or the response time is "long", the determination unit 250 determines that the filler section is the "difficult to judge" section. not."
次に、本実施例2の音声処理装置2の状態判定部200の処理手順の一例について説明する。図13は、本実施例2に係る音声処理装置の処理手順を示すフローチャートである。図13に示すように、この音声処理装置2の状態判定部200は、第1音声情報および第2音声情報を取得する(ステップS201)。
Next, an example of the processing procedure of the
状態判定部200の発話区間検出部210aは、第1話者の発話区間を検出し、発話区間検出部210bは、第2話者の発話区間を検出する(ステップS202)。状態判定部200の特定部220は、フィラー区間を検出する(ステップS203)。状態判定部200は、フィラー区間が存在しない場合には(ステップS204,No)、ステップS209に移行する。
The speech period detection unit 210a of the
一方、状態判定部200は、フィラー区間が存在する場合には(ステップS204,Yes)、ステップS205に移行する。状態判定部200の応答時間算出部230は、応答時間Rを算出する(ステップ205)。状態判定部200の明るさ算出部240は、明るさの特徴ベクトルを算出する(ステップS206)。
On the other hand, if there is a filler section (step S204, Yes), the
判定部250は、発話区間が「判断迷い区間」であるか否かを判定する(ステップS207)。判定部250は、発話区間が「判断迷い区間」である場合には(ステップS207,Yes)、判定迷い区間の音声情報を記憶部23に格納する(ステップS208)。一方、判定部250は、発話区間が「判断迷い区間」でない場合には(ステップS207,No)、ステップS209に移行する。 The determination unit 250 determines whether or not the utterance period is the "difficult decision period" (step S207). If the utterance period is the "unsure judgment period" (step S207, Yes), the determination unit 250 stores the voice information of the uncertain judgment period in the storage unit 23 (step S208). On the other hand, if the utterance period is not the "unsure judgment period" (step S207, No), the determination unit 250 proceeds to step S209.
状態判定部200は、次の会話がある場合には(ステップS209,Yes)、ステップS203に移行する。状態判定部200は、次の会話がない場合には(ステップS209,No)、処理を終了する。
If there is a next conversation (step S209, Yes), the
次に、本実施例2に係る音声処理装置2の効果について説明する。音声処理装置2は、話者の発話区間からフィラー区間を特定し、特定したフィラー区間のスペクトルの特徴量を基にして、フィラー区間を判断迷い区間として判定する。これにより、ユーザが迷っている区間を正確に推定することができる。 Next, effects of the speech processing device 2 according to the second embodiment will be described. The speech processing device 2 identifies a filler section from the speaker's utterance section, and determines the filler section as a judgment uncertain section based on the spectral feature amount of the identified filler section. This makes it possible to accurately estimate the section in which the user is hesitant.
ところで、上述した状態判定部200の処理は一例であり、その他の処理を行ってもよい。たとえば、明るさ算出部240は、明るさの特徴量を、教師ありの機械学習により予め生成してもよい。明るさ算出部240は、明るさの判定結果が「明」と判断されたフィラー区間の音声情報と、応答区間の音声情報との教師データを事前に収集しておく。
By the way, the processing of the
明るさ算出部240は、文献(SoundNet:Learning Sound Representations from Unlabeled Video Yusuf Aytar,Carl Vondrick,Antonio Torralba NIPS 2016)に記載されているDNNモデルに、上記の教師データを入力して分類器を学習する。 The brightness calculation unit 240 inputs the above teacher data to the DNN model described in the literature (SoundNet: Learning Sound Representations from Unlabeled Video Yusuf Aytar, Carl Vondrick, Antonio Torralba NIPS 2016) to learn the classifier. .
明るさ算出部240は、かかる分類器を学習しておき、発話区間の音声情報を分類器に入力し、分類器の出力層(最終層)の一つ手前の層から出力される情報を、特徴量ベクトルW(k2,u)として算出する。ここで、特徴ベクトルWの「u」は、特徴ベクトルの要素数を示すものである。明るさ算出部240は、特徴量ベクトルWを、判定部250に出力する。 The brightness calculation unit 240 learns such a classifier in advance, inputs the speech information of the utterance period to the classifier, and converts the information output from the layer immediately before the output layer (final layer) of the classifier to It is calculated as a feature amount vector W(k2, u). Here, "u" of the feature vector W indicates the number of elements of the feature vector. Brightness calculation section 240 outputs feature amount vector W to determination section 250 .
なお、判定部250は、事前処理を実行し、特徴ベクトルW(k2、u)を「明」または「暗」に分類する閾値TH_W(u)を準備する。判定部250は、明るさの判定結果が「明」と判断されたフィラー区間の音声情報と、応答区間の音声情報との教師データを事前に収集しておく。判定部250は、教師データを、明るさ算出部240に出力し、教師データに対応する特徴量ベクトルW(k2、u)を取得する。判定部250は、特徴量ベクトルW(k2、u)と正解ラベルとの組をサポートベクターマシンに入力し、「明」または「暗」の2クラス分類を実行する。判定部250は、「明」または「暗」の2クラス分類の境界面を、明るさ閾値TH_W(s)とする。応答時間の閾値TH_Rの値は、予め設定さているものとする。 Note that the determination unit 250 performs preprocessing to prepare a threshold TH_W(u) for classifying the feature vector W(k2, u) into "bright" or "dark". The judging unit 250 collects in advance teacher data of speech information in the filler section and speech information in the response section for which the brightness judgment result is determined to be “bright”. The determination unit 250 outputs the teacher data to the brightness calculation unit 240 and acquires the feature amount vector W(k2, u) corresponding to the teacher data. The determination unit 250 inputs the set of the feature amount vector W(k2, u) and the correct label to the support vector machine, and performs two-class classification of “bright” or “dark”. The determination unit 250 sets the boundary surface of the two-class classification of “bright” and “dark” as the brightness threshold TH_W(s). It is assumed that the value of the response time threshold TH_R is set in advance.
判定部250は、フィラー区間の特徴量ベクトルW(k2、u)と、閾値TH_W(s)とを比較し、特徴量ベクトルW(ks、u)が、閾値TH_W(u)以上である場合に、フィラー区間が「明」であると判定する。判定部250は、フィラー区間の特徴量ベクトルV(k2、u)と、閾値TH_W(u)とを比較し、特徴ベクトルW(ks、u)が、閾値TH_W(u)未満である場合に、フィラー区間が「暗」であると判定する。なお、判定部250は、フィラー区間の特徴ベクトルV(k2、s)を、学習済みのベクターマシーンに入力して、「明」または「暗」を判定してもよい。 The determination unit 250 compares the feature vector W (k2, u) of the filler section with the threshold TH_W (s), and if the feature vector W (ks, u) is equal to or greater than the threshold TH_W (u), , the filler section is determined to be “bright”. The determination unit 250 compares the feature amount vector V(k2, u) of the filler section with the threshold TH_W(u), and if the feature vector W(ks, u) is less than the threshold TH_W(u), The filler section is determined to be "dark". Note that the determination unit 250 may input the feature vector V(k2, s) of the filler section to a learned vector machine to determine “bright” or “dark”.
判定部250は、フィラー区間の判定結果が「暗」、かつ、応答区間の判定結果が「明」、かつ、応答時間が「長」である場合おいて、フィラー区間が「判断迷い区間である」と判定する。これに対して、判定部250は、フィラー区間の判定結果が「明」、応答区間の判定結果が「暗」、または、応答時間が「長」である場合において、フィラー区間が「判断迷い区間でない」と判定する。 When the determination result of the filler section is "dark", the determination result of the response section is "bright", and the response time is "long", the determination unit 250 determines that the filler section is a "deterministic section." ” is determined. On the other hand, when the determination result of the filler section is "bright", the determination result of the response section is "dark", or the response time is "long", the determination unit 250 determines that the filler section is the "difficult to judge" section. not."
次に、上記実施例に示した音声処理装置1,2と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図14は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 Next, an example of the hardware configuration of a computer that implements the same functions as those of the speech processing apparatuses 1 and 2 shown in the above embodiments will be described. FIG. 14 is a diagram showing an example of the hardware configuration of a computer that implements functions similar to those of the audio processing device.
図14に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る読み取り装置304と、有線または無線ネットワークを介して収録機器等との間でデータの授受を行うインターフェース装置305とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。
As shown in FIG. 14, a
ハードディスク装置307は、発話区間検出プログラム307a、特定プログラム307b、応答時間算出プログラム307c、明るさ算出プログラム307d、長期平均算出プログラム307eを有する。また、ハードディスク装置307は、閾値算出プログラム207f、判定プログラム307gを有する。CPU501は、各プログラム307a~307gを読み出してRAM306に展開する。
The hard disk device 307 has a speech
発話区間検出プログラム307aは、発話区間検出プロセス306aとして機能する。特定プログラム307bは、特定プロセス306bとして機能する。応答時間算出プログラム307cは、応答時間算出プロセス306cとして機能する。明るさ算出プログラム307dは、明るさ算出プロセス306dとして機能する。長期平均算出プログラム307eは、長期平均算出プロセス306eとして機能する。閾値算出プログラム307fは、閾値算出プロセス306fとして機能する。判定プログラム307gは、判定プロセス306fとして機能する。
The speech
発話区間検出プロセス306aの処理は、発話区間検出部110a,110b,210a,210bの処理に対応する。特定プロセス306bは、特定部120,220の処理に対応する。応答時間算出プロセス306cの処理は、応答時間算出部130,230の処理に対応する。明るさ算出プロセス306dは、明るさ算出部140,240の処理に対応する。長期平均算出プロセス306eは、長期平均算出部150の処理に対応する。閾値算出プロセス306fは、閾値算出部160の処理に対応する。判定プロセス306gは、判定部360gの処理に対応する。
The processing of the speech segment detection process 306a corresponds to the processing of the speech
なお、各プログラム307a~307gについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ500が各プログラム307a~307gを読み出して実行するようにしても良い。
Note that the
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following additional remarks are disclosed regarding the embodiments including the above examples.
(付記1)音声情報から複数の発話区間を検出し、
前記複数の発話区間からフィラーを検出した発話区間をフィラー区間として特定し、
前記フィラー区間の音声情報の特徴量を基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
(Appendix 1) Detecting a plurality of utterance intervals from voice information,
identifying an utterance segment in which filler is detected from the plurality of utterance segments as a filler segment;
causing a computer to execute a process of determining whether or not the voice information of the filler section is voice information to be uttered when the user hesitates to make a decision based on the feature amount of the voice information of the filler section; A speech processing program characterized by:
(付記2)前記判定する処理は、前記フィラー区間の音声情報の特徴量と、前記フィラー区間に続く前記発話区間の音声情報の特徴量とを基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記1に記載の音声処理プログラム。 (Supplementary Note 2) The determination process is based on the feature amount of the voice information of the filler section and the feature amount of the voice information of the utterance section following the filler section. The speech processing program according to appendix 1, wherein the speech processing program determines whether or not the speech information is spoken when the judgment is uncertain.
(付記3)前記判定する処理は、第1のユーザの発話区間から第2のユーザの発話区間までの応答時間を更に用いて、前記フィラー区間の音声情報が、前記第2のユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記1または2に記載の音声処理プログラム。 (Supplementary note 3) The determination process further uses the response time from the first user's utterance period to the second user's utterance period, and the voice information of the filler period is used by the second user to make a determination. 3. The speech processing program according to appendix 1 or 2, wherein it is determined whether or not the speech information is uttered when hesitating.
(付記4)前記判定する処理は、前記第2のユーザの各発話区間から算出された各特徴量の平均値を算出し、前記各特徴量の平均値を更に用いて、前記第2のユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記3に記載の音声処理プログラム。 (Supplementary note 4) The determination process calculates an average value of each feature amount calculated from each utterance period of the second user, and further uses the average value of each feature amount to determine the second user 3. The voice processing program according to appendix 3, wherein it is determined whether or not the voice information is to be uttered when the determination is uncertain.
(付記5)前記判定する処理は、前記音声情報の基本周波数を基に算出される分散を、前記特徴量として用いることを特徴とする付記1~4のいずれか一つに記載の音声処理プログラム。 (Appendix 5) The audio processing program according to any one of appendices 1 to 4, wherein the determining process uses a variance calculated based on the fundamental frequency of the audio information as the feature amount. .
(付記6)前記判定する処理は、前記音声情報をスペクトルに変換し、前記スペクトルの特徴を前記特徴量として用いることを特徴とする付記1~4のいずれか一つに記載の音声処理プログラム。 (Appendix 6) The audio processing program according to any one of appendices 1 to 4, wherein the determination process converts the audio information into a spectrum, and uses a feature of the spectrum as the feature amount.
(付記7)前記判定する処理は、前記特徴量と、前記特徴量に対応する音声情報が明るい音声であるか否かの情報とを対応付けた教師データにより学習された分類器に、前記特徴量を入力して得られる結果を基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記1に記載の音声処理プログラム。 (Supplementary Note 7) In the determination process, a classifier trained using teacher data that associates the feature amount with information indicating whether or not the audio information corresponding to the feature amount is bright audio is given the feature Supplementary note 1 characterized by determining whether or not the voice information in the filler section is voice information to be uttered when the user hesitates to make a decision based on the result obtained by inputting the amount. the audio processing program described in .
(付記8)前記判定する処理は、前記第2のユーザに対応する第1閾値、第2閾値、第3閾値を取得し、前記フィラー区間の音声情報の特徴量と前記第1閾値との比較結果、前記フィラー区間に続く前記発話区間の音声情報の特徴量と前記第1閾値との比較結果、前記応答時間と前記第2閾値との比較結果、前記各特徴量の平均値と前記第3閾値との比較結果を基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記4に記載の音声処理プログラム。 (Supplementary Note 8) The determination process acquires a first threshold, a second threshold, and a third threshold corresponding to the second user, and compares the feature amount of the speech information of the filler section with the first threshold. As a result, the comparison result between the feature amount of the speech information in the utterance section following the filler section and the first threshold, the comparison result between the response time and the second threshold, the average value of each feature amount and the third 4. The method according to appendix 4, wherein it is determined whether or not the voice information in the filler section is voice information to be spoken when the user hesitates to make a decision, based on the comparison result with the threshold. sound processing program.
(付記9)コンピュータが実行する音声処理方法であって、
音声情報から複数の発話区間を検出し、
前記複数の発話区間からフィラーを検出した発話区間をフィラー区間として特定し、
前記フィラー区間の音声情報の特徴量を基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定する
処理を実行することを特徴とする音声処理方法。
(Appendix 9) A computer-executed audio processing method,
Detect multiple utterance segments from voice information,
identifying an utterance segment in which filler is detected from the plurality of utterance segments as a filler segment;
Determining whether or not the voice information of the filler section is voice information to be uttered when the user hesitates to make a decision based on the feature amount of the voice information of the filler section. An audio processing method characterized by:
(付記10)前記判定する処理は、前記フィラー区間の音声情報の特徴量と、前記フィラー区間に続く前記発話区間の音声情報の特徴量とを基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記9に記載の音声処理方法。 (Supplementary Note 10) The determination process is based on the feature amount of the voice information of the filler section and the feature amount of the voice information of the utterance section following the filler section. The speech processing method according to appendix 9, wherein it is determined whether or not the speech is speech information to be spoken when the judgment is uncertain.
(付記11)前記判定する処理は、第1のユーザの発話区間から第2のユーザの発話区間までの応答時間を更に用いて、前記フィラー区間の音声情報が、前記第2のユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記9または10に記載の音声処理方法。 (Supplementary note 11) The determination process further uses the response time from the first user's utterance period to the second user's utterance period, and the voice information of the filler period is used by the second user for determination. 11. The voice processing method according to appendix 9 or 10, wherein it is determined whether or not the voice information is uttered when in doubt.
(付記12)前記判定する処理は、前記第2のユーザの各発話区間から算出された各特徴量の平均値を算出し、前記各特徴量の平均値を更に用いて、前記第2のユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記11に記載の音声処理方法。 (Supplementary note 12) In the determination process, an average value of each feature amount calculated from each utterance period of the second user is calculated, and further using the average value of each feature amount, the second user 12. The speech processing method according to appendix 11, wherein it is determined whether or not the speech information is to be spoken when the judgment is uncertain.
(付記13)前記判定する処理は、前記音声情報の基本周波数を基に算出される分散を、前記特徴量として用いることを特徴とする付記9~12のいずれか一つに記載の音声処理方法。 (Appendix 13) The speech processing method according to any one of appendices 9 to 12, wherein the determination process uses a variance calculated based on the fundamental frequency of the speech information as the feature amount. .
(付記14)前記判定する処理は、前記音声情報をスペクトルに変換し、前記スペクトルの特徴を前記特徴量として用いることを特徴とする付記9~12のいずれか一つに記載の音声処理方法。 (Appendix 14) The speech processing method according to any one of appendices 9 to 12, wherein the determination process converts the speech information into a spectrum and uses a feature of the spectrum as the feature amount.
(付記15)前記判定する処理は、前記特徴量と、前記特徴量に対応する音声情報が明るい音声であるか否かの情報とを対応付けた教師データにより学習された分類器に、前記特徴量を入力して得られる結果を基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記9に記載の音声処理方法。 (Supplementary note 15) In the determination process, a classifier learned by teacher data that associates the feature amount with information indicating whether or not the speech information corresponding to the feature amount is bright voice, and the feature Supplementary note 9 characterized by determining whether or not the voice information in the filler section is voice information to be uttered when the user hesitates to make a decision based on the result obtained by inputting the amount. 2. The audio processing method described in .
(付記16)前記判定する処理は、前記第2のユーザに対応する第1閾値、第2閾値、第3閾値を取得し、前記フィラー区間の音声情報の特徴量と前記第1閾値との比較結果、前記フィラー区間に続く前記発話区間の音声情報の特徴量と前記第1閾値との比較結果、前記応答時間と前記第2閾値との比較結果、前記各特徴量の平均値と前記第3閾値との比較結果を基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記12に記載の音声処理方法。 (Supplementary Note 16) The determination process acquires a first threshold, a second threshold, and a third threshold corresponding to the second user, and compares the feature amount of the speech information of the filler section with the first threshold. As a result, the comparison result between the feature amount of the speech information in the utterance section following the filler section and the first threshold, the comparison result between the response time and the second threshold, the average value of each feature amount and the third 13. The method according to appendix 12, wherein it is determined whether or not the voice information in the filler section is voice information to be spoken when the user hesitates to make a decision based on the comparison result with the threshold. Audio processing method.
(付記17)音声情報から複数の発話区間を検出する発話区間検出部と、
前記複数の発話区間からフィラーを検出した発話区間をフィラー区間として特定する特定部と、
前記フィラー区間の音声情報の特徴量を基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定する判定部と
を有することを特徴とする音声処理装置。
(Appendix 17) an utterance period detection unit that detects a plurality of utterance periods from voice information;
a specifying unit that specifies, as a filler segment, an utterance segment in which a filler is detected from the plurality of utterance segments;
a determination unit that determines whether or not the voice information in the filler section is voice information to be uttered when the user hesitates to make a decision, based on the feature amount of the voice information in the filler section; A speech processing device characterized by:
(付記18)前記判定部は、前記フィラー区間の音声情報の特徴量と、前記フィラー区間に続く前記発話区間の音声情報の特徴量とを基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記17に記載の音声処理装置。 (Supplementary note 18) The determination unit determines, based on the feature amount of the voice information of the filler section and the feature amount of the voice information of the utterance section following the filler section, that the voice information of the filler section is 18. The speech processing device according to appendix 17, wherein it is determined whether or not the information is voice information to be uttered when in doubt.
(付記19)前記判定部は、第1のユーザの発話区間から第2のユーザの発話区間までの応答時間を更に用いて、前記フィラー区間の音声情報が、前記第2のユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記17または18に記載の音声処理装置。 (Supplementary note 19) The determination unit further uses the response time from the first user's utterance period to the second user's utterance period to determine whether the speech information in the filler period is 19. The speech processing device according to appendix 17 or 18, wherein it is determined whether or not the speech information is to be uttered when the voice is spoken.
(付記20)前記判定部は、前記第2のユーザの各発話区間から算出された各特徴量の平均値を算出し、前記各特徴量の平均値を更に用いて、前記第2のユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記19に記載の音声処理装置。 (Supplementary Note 20) The determination unit calculates an average value of each feature amount calculated from each utterance period of the second user, and further uses the average value of each feature amount to determine whether the second user 19. The speech processing device according to appendix 19, wherein it is determined whether or not the information is voice information to be spoken when the user is uncertain about the determination.
(付記21)前記判定部は、前記音声情報の基本周波数を基に算出される分散を、前記特徴量として用いることを特徴とする付記17~20のいずれか一つに記載の音声処理装置。 (Appendix 21) The audio processing apparatus according to any one of appendices 17 to 20, wherein the determination unit uses a variance calculated based on the fundamental frequency of the audio information as the feature amount.
(付記22)前記判定部は、前記音声情報をスペクトルに変換し、前記スペクトルの特徴を前記特徴量として用いることを特徴とする付記17~20のいずれか一つに記載の音声処理装置。 (Appendix 22) The speech processing apparatus according to any one of appendices 17 to 20, wherein the determination unit converts the speech information into a spectrum and uses a feature of the spectrum as the feature amount.
(付記23)前記判定部は、前記特徴量と、前記特徴量に対応する音声情報が明るい音声であるか否かの情報とを対応付けた教師データにより学習された分類器に、前記特徴量を入力して得られる結果を基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記17に記載の音声処理装置。 (Supplementary Note 23) The determination unit assigns the feature amount to a classifier trained using teacher data that associates the feature amount with information indicating whether or not the audio information corresponding to the feature amount is bright audio. Supplementary note 17, wherein it is determined whether or not the voice information in the filler section is voice information to be spoken when the user is unsure of the decision based on the result obtained by inputting A sound processing device as described.
(付記24)前記判定部は、前記第2のユーザに対応する第1閾値、第2閾値、第3閾値を取得し、前記フィラー区間の音声情報の特徴量と前記第1閾値との比較結果、前記フィラー区間に続く前記発話区間の音声情報の特徴量と前記第1閾値との比較結果、前記応答時間と前記第2閾値との比較結果、前記各特徴量の平均値と前記第3閾値との比較結果を基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定することを特徴とする付記20に記載の音声処理装置。 (Additional remark 24) The determination unit acquires a first threshold, a second threshold, and a third threshold corresponding to the second user, and compares the feature amount of the speech information of the filler section with the first threshold. , a comparison result between the feature amount of the speech information in the utterance section following the filler section and the first threshold, a comparison result between the response time and the second threshold, an average value of each feature amount and the third threshold Based on the result of comparison with the voice according to Supplementary Note 20, it is determined whether or not the voice information in the filler section is voice information to be spoken when the user is unsure of the decision. processing equipment.
1,2 音声処理装置
5 ネットワーク
10a,10b マイク
20a,20b,310a,310b AD変換部
21 受信部
22,30 前処理部
23,40 記憶部
100,200 状態判定部
110a,110b,210a,210b 発話区間検出部
120,220 特定部
130,230 応答時間算出部
140,240 明るさ算出部
150 長期平均算出部
160 閾値算出部
170 閾値DB
180,250 判定部
300 収録機器
320 音声ファイル化部
330 送信部
Reference Signs List 1, 2
180, 250
Claims (9)
前記複数の発話区間からフィラーを検出した発話区間をフィラー区間として特定し、
前記複数の発話区間に含まれる発話区間であって、前記フィラー区間の次の発話区間を、前記フィラー区間に続く発話区間として特定し、
前記フィラー区間の音声情報の特徴量および第1閾値の比較結果と、前記フィラー区間に続く前記発話区間の音声情報の特徴量および第2閾値の比較結果との組み合わせを基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。 Detect multiple utterance segments from voice information,
identifying an utterance segment in which filler is detected from the plurality of utterance segments as a filler segment;
identifying an utterance segment included in the plurality of utterance segments, the utterance segment following the filler segment as an utterance segment following the filler segment;
Based on the combination of the feature amount of the voice information of the filler section and the comparison result of the first threshold and the comparison result of the feature amount of the voice information of the utterance section following the filler section and the second threshold, the filler section A voice processing program characterized by causing a computer to execute a process of determining whether or not the voice information of is voice information to be uttered when the user hesitates to make a decision.
音声情報から複数の発話区間を検出し、
前記複数の発話区間からフィラーを検出した発話区間をフィラー区間として特定し、
前記複数の発話区間に含まれる発話区間であって、前記フィラー区間の次の発話区間を、前記フィラー区間に続く発話区間として特定し、
前記フィラー区間の音声情報の特徴量および第1閾値の比較結果と、前記フィラー区間に続く前記発話区間の音声情報の特徴量および第2閾値の比較結果との組み合わせを基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定する
処理を実行することを特徴とする音声処理方法。 A computer-implemented audio processing method comprising:
Detect multiple utterance segments from voice information,
identifying an utterance segment in which filler is detected from the plurality of utterance segments as a filler segment;
identifying an utterance segment included in the plurality of utterance segments, the utterance segment following the filler segment as an utterance segment following the filler segment;
Based on the combination of the feature amount of the voice information of the filler section and the comparison result of the first threshold and the comparison result of the feature amount of the voice information of the utterance section following the filler section and the second threshold, the filler section A voice processing method characterized by determining whether or not the voice information of is voice information to be uttered when the user hesitates to make a decision.
前記複数の発話区間からフィラーを検出した発話区間をフィラー区間として特定し、前記複数の発話区間に含まれる発話区間であって、前記フィラー区間の次の発話区間を、前記フィラー区間に続く発話区間として特定する特定部と、
前記フィラー区間の音声情報の特徴量および第1閾値の比較結果と、前記フィラー区間に続く前記発話区間の音声情報の特徴量および第2閾値の比較結果との組み合わせを基にして、前記フィラー区間の音声情報が、ユーザが判断に迷っている場合に発話される音声情報であるか否かを判定する判定部と
を有することを特徴とする音声処理装置。 an utterance segment detection unit that detects a plurality of utterance segments from voice information;
An utterance segment in which a filler is detected from the plurality of utterance segments is specified as a filler segment, and an utterance segment included in the plurality of utterance segments and next to the filler segment is an utterance segment following the filler segment. a specific part identified as
Based on the combination of the feature amount of the voice information of the filler section and the comparison result of the first threshold and the comparison result of the feature amount of the voice information of the utterance section following the filler section and the second threshold, the filler section and a judgment unit for judging whether or not the speech information of is speech information to be uttered when the user hesitates to make a decision.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018181937A JP7176325B2 (en) | 2018-09-27 | 2018-09-27 | Speech processing program, speech processing method and speech processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018181937A JP7176325B2 (en) | 2018-09-27 | 2018-09-27 | Speech processing program, speech processing method and speech processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020052256A JP2020052256A (en) | 2020-04-02 |
JP7176325B2 true JP7176325B2 (en) | 2022-11-22 |
Family
ID=69996961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018181937A Active JP7176325B2 (en) | 2018-09-27 | 2018-09-27 | Speech processing program, speech processing method and speech processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7176325B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125584A (en) | 1999-10-27 | 2001-05-11 | Natl Inst Of Advanced Industrial Science & Technology Meti | Method and device for detection of stammering |
JP2003330490A (en) | 2002-05-15 | 2003-11-19 | Fujitsu Ltd | Audio conversation device |
WO2017085992A1 (en) | 2015-11-17 | 2017-05-26 | 株式会社ソニー・インタラクティブエンタテインメント | Information processing apparatus |
WO2017199433A1 (en) | 2016-05-20 | 2017-11-23 | 三菱電機株式会社 | Information provision control device, navigation device, equipment inspection operation assistance device, interactive robot control device, and information provision control method |
-
2018
- 2018-09-27 JP JP2018181937A patent/JP7176325B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125584A (en) | 1999-10-27 | 2001-05-11 | Natl Inst Of Advanced Industrial Science & Technology Meti | Method and device for detection of stammering |
JP2003330490A (en) | 2002-05-15 | 2003-11-19 | Fujitsu Ltd | Audio conversation device |
WO2017085992A1 (en) | 2015-11-17 | 2017-05-26 | 株式会社ソニー・インタラクティブエンタテインメント | Information processing apparatus |
WO2017199433A1 (en) | 2016-05-20 | 2017-11-23 | 三菱電機株式会社 | Information provision control device, navigation device, equipment inspection operation assistance device, interactive robot control device, and information provision control method |
Also Published As
Publication number | Publication date |
---|---|
JP2020052256A (en) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
Ma et al. | Efficient voice activity detection algorithm using long-term spectral flatness measure | |
US10878823B2 (en) | Voiceprint recognition method, device, terminal apparatus and storage medium | |
US9536547B2 (en) | Speaker change detection device and speaker change detection method | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
US20190172480A1 (en) | Voice activity detection systems and methods | |
Zhao et al. | Robust emotion recognition in noisy speech via sparse representation | |
CN110459241B (en) | Method and system for extracting voice features | |
KR20060044629A (en) | Isolating speech signals utilizing neural networks | |
JP4746533B2 (en) | Multi-sound source section determination method, method, program and recording medium thereof | |
WO2001016937A9 (en) | System and method for classification of sound sources | |
EP2083417B1 (en) | Sound processing device and program | |
Simantiraki et al. | Stress detection from speech using spectral slope measurements | |
Esmaili et al. | Automatic classification of speech dysfluencies in continuous speech based on similarity measures and morphological image processing tools | |
US20060100866A1 (en) | Influencing automatic speech recognition signal-to-noise levels | |
Chaki | Pattern analysis based acoustic signal processing: a survey of the state-of-art | |
Dubuisson et al. | On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination | |
WO2018163279A1 (en) | Voice processing device, voice processing method and voice processing program | |
JP6373621B2 (en) | Speech evaluation device, speech evaluation method, program | |
JP7176325B2 (en) | Speech processing program, speech processing method and speech processing device | |
JPH10133688A (en) | Speech recognition device | |
KR101925248B1 (en) | Method and apparatus utilizing voice feature vector for optimization of voice authentication | |
CN1864202A (en) | Adaptation of environment mismatch for speech recognition systems | |
Girirajan et al. | Hybrid Feature Extraction Technique for Tamil Automatic Speech Recognition System in Noisy Environment | |
Mahesha et al. | Vector Quantization and MFCC based classification of Dysfluencies in Stuttered Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210610 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221011 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221024 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7176325 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |