JP7143591B2 - speaker estimation device - Google Patents
speaker estimation device Download PDFInfo
- Publication number
- JP7143591B2 JP7143591B2 JP2018005622A JP2018005622A JP7143591B2 JP 7143591 B2 JP7143591 B2 JP 7143591B2 JP 2018005622 A JP2018005622 A JP 2018005622A JP 2018005622 A JP2018005622 A JP 2018005622A JP 7143591 B2 JP7143591 B2 JP 7143591B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- user
- speaker
- analysis
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
本発明は、発話者を推定する発話者推定装置の技術分野に関する。 The present invention relates to the technical field of a speaker estimation device for estimating a speaker.
この種の装置として、音声認識によって発話者を推定するものが知られている。例えば特許文献1では、音声認識と音声認証とを並列に行うことで、発話内容の認識と発話者の特定を並列に行うという技術が開示されている。特許文献2では、発話内容に特定のキーワードが含まれているか否かによって発話者の本人性を確認するという技術が開示されている。
As a device of this type, a device that estimates a speaker by voice recognition is known. For example,
その他の関連技術として、特許文献3では、スピーカから出力された発話内容に対する応答時間に基づいて、発話内容への興味の有無を判定するという技術が開示されている。特許文献4では、会話から抽出されたキーワードと、会話内容が入力された時のユーザの精神状態とに基づいて、ユーザの興味を判定するという技術が開示されている。特許文献5では、車両における着座位置、発話者及び会話内容に基づいて、乗員構成を推定するという技術が開示されている。 As another related technique, Patent Literature 3 discloses a technique of determining whether or not there is an interest in speech content based on the response time to the speech content output from a speaker. Patent Document 4 discloses a technique of determining a user's interest based on a keyword extracted from a conversation and the mental state of the user when the content of the conversation was input. Patent Literature 5 discloses a technique of estimating the occupant composition based on the seating position in the vehicle, the speaker, and the content of the conversation.
上述した特許文献1に記載されている技術では、音声認証(例えば、声紋データを利用した認証)を利用して発話者を特定している。しかしながら、音声認証のみでは、発話者を正確に特定することが難しい場合がある。即ち、上述した特許文献1を含む従来技術には、発話者を正確に特定するという点で精度向上の余地が十分に残されている。
In the technique described in the above-mentioned
本発明は、例えば上記問題点に鑑みてなされたものであり、発話者を精度良く推定することが可能な発話者推定装置を提供することを課題とする。 SUMMARY OF THE INVENTION It is an object of the present invention to provide a speaker estimation apparatus capable of accurately estimating a speaker.
本発明に係る発話者推定装置の一態様では、ユーザに話題を提供する提供手段と、前記話題に対する前記ユーザの発話の内容及び音声の特徴の少なくとも一方を取得する取得手段と、前記発話の内容及び音声の特徴の少なくとも一方に基づいて、前記ユーザの特徴量を解析する解析手段と、前記特徴量に基づいて、前記ユーザの個人属性を推定する推定手段とを備える。 In one aspect of the speaker estimating device according to the present invention, provision means for providing a topic to a user, acquisition means for acquiring at least one of the content of the user's utterance and voice features with respect to the topic, and the content of the utterance. and an analysis means for analyzing the feature amount of the user based on at least one of the features of the speech, and an estimation means for estimating the personal attribute of the user based on the feature amount.
以下、図面を参照して発話者推定装置の実施形態について説明する。 An embodiment of a speaker estimation device will be described below with reference to the drawings.
<装置構成>
まず、本実施形態に係る発話者推定装置の構成について、図1を参照して説明する。図1は、本実施形態に係る発話者推定装置の構成を示すブロック図である。
<Device configuration>
First, the configuration of the speaker estimation device according to this embodiment will be described with reference to FIG. FIG. 1 is a block diagram showing the configuration of the speaker estimation device according to this embodiment.
図1に示すように、本実施形態に係る発話者推定装置は、ECU(Electirc Control Unit)100と、スピーカ200と、マイク300とを備えて構成されている。なお、発話者推定装置は、図示せぬ車両に搭載されており、車両のドライバを推定(特定)するための処理を実行する。
As shown in FIG. 1 , the speaker estimation device according to the present embodiment includes an ECU (Electric Control Unit) 100 , a
ECU100は、その機能を実現するための処理ブロックとして、話題提供部110、発話取得部120、特徴量解析部130、及びユーザ照合部140を備えている。
The ECU 100 includes a
話題提供部110は、スピーカ200を介して、車両のドライバに対して話題を提供することが可能に構成されている。即ち、話題提供部110は、車両のドライバと会話する機能を有している。話題提供部110は、ドライバを推定できていない段階では、無作為に話題を提供すればよい。一方、話題提供部110は、ドライバを推定した後では、ユーザが興味のある話題を提供してもよい。話題提供部110は、後述する付記における「提供手段」の一具体例である。
The
発話取得部120は、マイク300を介して、車両のドライバの発話を取得することが可能に構成されている。より具体的には、発話取得部120は、車両のドライバの発話内容(即ち、どんな内容の話をしているのか)、及び音声の特徴(例えば、音声の速さ、音声の高さ、抑揚等)を取得する。発話取得部120で取得された発話内容及び音声の特徴は、特徴量解析部に出力される構成となっている。発話取得部120は、後述する付記における「取得手段」の一具体例である。
The
特徴量解析部130は、発話取得部120で取得された発話内容及び音声の特徴に基づいて、ユーザを推定するための特徴量を解析することが可能に構成されている。なお、特徴量解析部130が解析する特徴量及び具体的な解析方法については、後に詳述する。特徴量解析部130で解析された特徴量は、ユーザ照合部140に出力される構成となっている。特徴量解析部130は、後述する付記における「解析手段」の一具体例である。
The feature
ユーザ照合部140は、特徴量解析部130で解析された特徴量に基づいて、ユーザ照合処理を実行することが可能に構成されている。即ち、ユーザ照合部140は、現在の車両のドライバが誰であるのかの推定(特定)する機能を有している。ユーザ照合部140による照合結果は、その後のドライバに対する車両内サービスの提供(例えば、提供する話題の内容等)を決定するために用いられる。ユーザ照合部140は、後述する付記における「推定手段」の一具体例である。
The
<動作の流れ>
次に、本実施形態に係る発話者推定装置の動作の流れについて、図2を参照して説明する。図2は、本実施形態に係る発話者推定装置の動作の流れを示すフローチャートである。
<Flow of operation>
Next, the operation flow of the speaker estimation device according to this embodiment will be described with reference to FIG. FIG. 2 is a flow chart showing the operation flow of the speaker estimation device according to this embodiment.
図2に示すように、本実施形態に係る発話者推定装置の動作時には、まずドライバが乗車したか否かを判定する(ステップS11)。ドライバが乗車していないと判定された場合(ステップS11:NO)、所定期間後に再びステップS11の処理が実行される。 As shown in FIG. 2, when the speaker estimation device according to the present embodiment operates, it is first determined whether or not the driver has gotten into the vehicle (step S11). When it is determined that the driver is not in the vehicle (step S11: NO), the process of step S11 is executed again after a predetermined period of time.
ドライバが乗車していると判定された場合(ステップS11:YES)、話題提供部110によるドライバとの会話をスタートする(ステップS12)。会話がスタートとすると、話題提供部110は、ドライバに対して無作為に話題を提供する(ステップS13)。
If it is determined that the driver is in the vehicle (step S11: YES), the
続いて、発話取得部120が、提供された話題に対するドライバの発話内容を取得する(ステップS14)。その後、発話取得部120は、解析に十分な量の発話内容を取得したか否かを判定する(ステップS15)。解析に十分な量の発話内容を取得していないと判定された場合(ステップS15:NO)、発話取得部120は、ドライバの発話内容を取得する処理を続行する。或いは、新たな発話内容を取得するために、話題提供部110が、ドライバに対して別の話題を提供するようにしてもよい。
Subsequently, the
解析に十分な量の発話内容を取得していると判定された場合(ステップS15:YES)、特徴量解析部130が、取得した発話内容に基づいて、ドライバを推定するための特徴量を解析する。具体的には、特徴量解析部130は、ドライバが応答に使うフレーズの解析(ステップS16)、ドライバ応答に使う単語の解析(ステップS17)、話題に対するドライバの感情の解析(ステップS18)をそれぞれ実行する。なお、上記特徴量の具体的な解析方法については、後に詳述する。
If it is determined that a sufficient amount of speech content for analysis has been acquired (step S15: YES), the feature
上述したドライバの発話内容に基づく処理(即ち、ステップS14~ステップS18)を行う一方で、発話取得部120は、提供された話題に対するドライバの音声の特徴も取得する(ステップS19)。その後、発話取得部120は、解析に十分な量の音声の特徴を取得したか否かを判定する(ステップS20)。解析に十分な量の音声の特徴を取得していないと判定された場合(ステップS20:NO)、発話取得部120は、ドライバの音声の特徴を取得する処理を続行する。或いは、新たな発話内容を取得するために、話題提供部110が、ドライバに対して別の話題を提供するようにしてもよい。
While performing the above-described processing based on the content of the driver's utterance (that is, steps S14 to S18), the
解析に十分な量の音声の特徴を取得していると判定された場合(ステップS20:YES)、特徴量解析部130が、取得した音声の特徴に基づいて、ドライバを推定するための特徴量を解析する。具体的には、特徴量解析部130は、提供した話題に対するユーザの声のトーンを解析する(ステップS21)。なお、上記特徴量の具体的な解析方法については、後に詳述する。
If it is determined that a sufficient amount of speech features for analysis has been acquired (step S20: YES), the feature
特徴量解析部130が特徴量の解析を終了した後は、ユーザ照合部140が、解析結果として得られる特徴量に基づいて、ユーザ照合処理を実行する(ステプS22)。即ち、現在の車両のドライバが誰なのかを推定するための処理を実行する。ユーザ照合処理の具体的な内容については、後に詳述する。
After the feature
<応答に使うフレーズの解析>
次に、ユーザが応答によく使うフレーズの解析(即ち、図2のステップS16の処理)について、図3から図6を参照して具体的に説明する。図3は、ユーザの語尾のパターンを解析するためのルールの一例を示す表である。図4は、ユーザの会話の長さのパターンを解析するためのルールの一例を示す表である。図5は、ユーザの言いよどみのパターンを解析するためのルールの一例を示す表である。図6は、ユーザの単語の繰り返しのパターンを解析するためのルールの一例を示す表である。
<Analysis of phrases used in responses>
Next, the analysis of phrases frequently used in responses by users (that is, the process of step S16 in FIG. 2) will be specifically described with reference to FIGS. 3 to 6. FIG. FIG. 3 is a table showing an example of rules for analyzing user's ending patterns. FIG. 4 is a table showing an example of rules for analyzing patterns of conversation lengths of users. FIG. 5 is a table showing an example of rules for analyzing user hesitation patterns. FIG. 6 is a table showing an example of rules for analyzing a user's word repetition pattern.
なお、応答に使うフレーズを解析するためのルールは、所定の特徴を示すパターン毎に事前に作成されている。また、作成したルールを機械学習することでモデルを作成してもよい。例えば、サポートベクターマシンを使用して分類モデルを作成して、正解データとして所定のパターンを予め分類し、決まった分類の中から特徴量を自動的に判定するようにしてもよい。或いは、学習データをDNN(Deep Neural Network)に入力して自動的に特徴量を出力するようにしてもよい。 Note that rules for analyzing phrases used in responses are created in advance for each pattern indicating a predetermined characteristic. A model may also be created by performing machine learning on the created rules. For example, a support vector machine may be used to create a classification model, pre-classify predetermined patterns as correct data, and automatically determine feature quantities from the determined classification. Alternatively, the learning data may be input to a DNN (Deep Neural Network) to automatically output the feature amount.
図3に示すように、応答に使うフレーズの解析では、語尾のパターンを特徴量として解析してもよい。具体的には、「~です」、「~ます」等の丁寧語を1分以内に3回以上使うか否か、「~じゃん」「~だべ」等の方言を1分以内に3回以上使うか否か、「~でしょ」、「~だろ」等の簡易的な表現を1分以内に3回以上使うか否かを判定すればよい。 As shown in FIG. 3, in the analysis of phrases used in responses, patterns of word endings may be analyzed as feature amounts. Specifically, whether or not to use polite words such as "~desu" and "~masu" three times or more within one minute, and dialects such as "~jan" and "~dabe" three times within one minute. It is sufficient to determine whether or not they use more than that, and whether or not they use simple expressions such as "--sho" and "--daro" three or more times within one minute.
図4に示すように、応答に使うフレーズの解析では、会話の長さのパターンを特徴量として解析してもよい。具体的には、一人で同じ話題をひたすら話すか否か(1時間以内に1回5分の話を2回以上するか否か)、一人で番う話題をひたすら話すか否か(1時間以内に1回5分の話を2回以上するか否か)、簡潔に話すか否か(1回の話が20秒程度か否か)を判定すればよい。なお、上記条件以外の場合には、一般平均であると判定すればよい。 As shown in FIG. 4, in the analysis of phrases used in responses, the pattern of the length of conversation may be analyzed as a feature amount. Specifically, whether or not one person talks intently on the same topic (whether or not one person talks for five minutes twice or more within an hour), whether or not one person talks about the same topic (one hour It is sufficient to determine whether or not the speaker speaks twice or more for five minutes at a time within the same period or not, and whether or not the speaker speaks briefly (whether one talk lasts about 20 seconds). In addition, in cases other than the above conditions, it may be judged to be a general average.
図5に示すように、応答に使うフレーズの解析では、言いよどみのパターンを特徴量として解析してもよい。具体的には、「え~」、を1分以内に3回以上使うか否か、「あの~」を1分以内に3回以上使うか否か、どもることが1分以内に3回以上あるか否かを判定すればよい。 As shown in FIG. 5, in the analysis of phrases used in responses, hesitation patterns may be analyzed as feature quantities. Specifically, whether or not you use "eh~" three or more times within one minute, whether or not you use "ah~" three or more times within one minute, and whether or not you stutter three or more times within one minute It should be determined whether or not there is
図6に示すように、応答に使うフレーズの解析では、単語の繰り返しのパターンを特徴量として解析してもよい。具体的には、「あれ」、「それ」等の指示語を1分以内に3回以上使うか否か、固有名詞(例えば、野球選手の名前や場所の名前等)を1分以内に3回以上使うか否か、「あいつ」、「そいつ」等の代名詞を1分以内に3回以上使うか否かを判定すればよい。なお、上記条件以外の場合には、一般平均であると判定すればよい。 As shown in FIG. 6, in the analysis of phrases used in responses, patterns of repeated words may be analyzed as feature quantities. Specifically, whether or not the demonstrative words such as "that" and "that" are used three or more times within one minute, and whether or not proper nouns (for example, the name of a baseball player, the name of a place, etc.) are used three times or more within one minute It is sufficient to determine whether or not the pronouns such as "that guy" and "that guy" are used three or more times within one minute. In addition, in cases other than the above conditions, it may be judged to be a general average.
<応答に使う単語の解析>
次に、ユーザが応答によく使う単語の解析(即ち、図2のステップS17の処理)について、図7から図9を参照して具体的に説明する。図7は、特徴的な趣味と単語の分類パターンを解析するためのルールの一例を示す表である。図8は、POIと単語の分類パターンを解析するためのルールの一例を示す表である。図9は、レストランと単語の分類パターンを解析するためのルールの一例を示す表である。
<Analysis of words used in responses>
Next, the analysis of words frequently used in responses by the user (that is, the process of step S17 in FIG. 2) will be specifically described with reference to FIGS. 7 to 9. FIG. FIG. 7 is a table showing an example of rules for analyzing characteristic hobbies and word classification patterns. FIG. 8 is a table showing an example of rules for analyzing POI and word classification patterns. FIG. 9 is a table showing an example of rules for analyzing restaurant and word classification patterns.
なお、応答に使う単語を解析するためのルールは、所定ジャンルの単語ごとに事前に作成されている。また、作成したルールを機械学習することでモデルを作成してもよい。例えば、サポートベクターマシンを使用して分類モデルを作成して、正解データとして所定のパターンを予め分類し、決まった分類の中から特徴量を自動的に判定するようにしてもよい。 Note that rules for analyzing words used in responses are created in advance for each word of a predetermined genre. A model may also be created by performing machine learning on the created rules. For example, a support vector machine may be used to create a classification model, pre-classify predetermined patterns as correct data, and automatically determine feature quantities from the determined classification.
図7に示すように、応答に使う単語の解析では、趣味に関する単語の使用回数から特徴量である趣味を判定してもよい。具体的には、野球選手の名前やチームの名前を1時間以内に5回以上使っている場合には、野球が趣味であると判定すればよい。サッカー選手の名前やチームの名前を1時間以内に5回以上使っている場合には、サッカーが趣味であると判定すればよい。ハイキングによく使われる場所の名前を1時間以内に5回以上使っている場合には、ハイキングが趣味であると判定すればよい。本の作品名1時間以内に5回以上使っている場合には、読書が趣味であると判定すればよい。旅行によく使われる場所の名前や観光名所を1時間以内に5回以上使っている場合には、旅行が趣味であると判定すればよい。 As shown in FIG. 7, in the analysis of the words used in the response, the hobby, which is a feature amount, may be determined from the number of times the word related to the hobby is used. Specifically, if the name of a baseball player or the name of a team is used five times or more within one hour, it may be determined that baseball is a hobby. If the soccer player's name or team's name is used five times or more within one hour, it can be determined that soccer is a hobby. If the name of a place frequently used for hiking is used five times or more within one hour, it may be determined that hiking is a hobby. If the work name of the book is used five times or more within one hour, it may be determined that reading is a hobby. If the name of a place or a tourist attraction that is frequently used for travel is used five times or more within one hour, it may be determined that travel is a hobby.
図8に示すように、応答に使う単語の解析では、POI(Point Of Interest)に関する単語の使用回数から特徴量であるPOIを判定してもよい。具体的には、映画館の名前を1時間以内に5回以上使っている場合には、映画館がPOIであると判定すればよい。博物館に展示されている作品の名前や、展覧会のジャンル名を1時間以内に5回以上使っている場合には、博物館がPOIであると判定すればよい。 As shown in FIG. 8, in the analysis of words used in responses, POIs, which are feature amounts, may be determined from the number of times words are used regarding POIs (Point Of Interest). Specifically, if the name of the movie theater is used five times or more within one hour, it may be determined that the movie theater is the POI. If the name of a work exhibited in the museum or the name of the genre of the exhibition is used five times or more within one hour, the museum may be determined to be the POI.
図9に示すように、応答に使う単語の解析では、レストランに関する単語の使用回数から特徴量であるレストランを判定してもよい。具体的には、イタリアンのレストランの名前や料理名を1時間以内に5回以上使っている場合には、イタリアンのレストランを特徴量として判定すればよい。和食のレストランの名前や料理名を1時間以内に5回以上使っている場合には、和食のレストランを特徴量として判定すればよい。 As shown in FIG. 9, in analyzing the words used in the response, the restaurant, which is a feature amount, may be determined from the number of times the words related to the restaurant are used. Specifically, when the name of an Italian restaurant or the name of a dish is used five times or more within one hour, the Italian restaurant may be determined as the feature quantity. If the name of a Japanese restaurant or the name of a dish is used five times or more within one hour, the Japanese restaurant may be determined as the feature quantity.
<話題に対する感情の解析>
次に、話題に対するユーザの感情の解析(即ち、図2のステップS18の処理)について、図10及び図11を参照して具体的に説明する。図10は、ユーザの感情表現を表す単語とスコアとの関係の一例を示す表である。図11は、ユーザの発話した文章とスコアとの関係の一例を示す表である。
<Analysis of emotions toward topics>
Next, the analysis of the user's emotion with respect to the topic (that is, the process of step S18 in FIG. 2) will be specifically described with reference to FIGS. 10 and 11. FIG. FIG. 10 is a table showing an example of the relationship between words representing user's emotional expressions and scores. FIG. 11 is a table showing an example of the relationship between sentences uttered by users and scores.
図10に示すように、話題に対する感情を判定する際には、感情を表す単語にスコアを付け、そのスコアの合計値または平均値を用いて判定すればよい。具体的には、「すばらしい」という単語を使った場合には“+2”、「最悪だ」という単語を使った場合には“-2”、「まあまあだね」という単語を使った場合には“+1”というスコアをつければよい。なお、“+”はポジティブな感情に対するスコア、“-”はネガティブな感情に対するスコアである。 As shown in FIG. 10, when judging an emotion about a topic, a score may be given to words expressing the emotion, and the total value or average value of the scores may be used for determination. Specifically, when using the word "wonderful", "+2", when using the word "worst", "-2", when using the word "so-so" should be given a score of "+1". "+" is the score for positive emotions, and "-" is the score for negative emotions.
図11に示すように、話題に対する感情を判定する際には、文章の特徴を機械学習により学習して判定してもよい。例えば、文章に対して感情の正解値を付け、その結果をもとに機械学習を行い、モデルを作成すればよい。この時の学習ロジックは、例えばサポートベクターマシンやDNNを用いればよい。このようなモデルによれば、例えば「昨日の○○○はすごかったね」という文章を使った場合に、“+2”のスコアが付けられる。「昨日食べたパスタは最悪だったわ」という文章を使った場合に、“-2”のスコアが付けられる。「今日の□□□はなかなかいいね」という文章を使った場合に、“+1”のスコアが付けられる。 As shown in FIG. 11, when judging an emotion about a topic, it may be determined by learning features of sentences by machine learning. For example, it is possible to assign a correct emotion value to a sentence, perform machine learning based on the result, and create a model. For the learning logic at this time, for example, a support vector machine or DNN may be used. According to such a model, a score of "+2" is assigned to a sentence such as "Yesterday's XX was amazing." A score of "-2" is given when using the sentence "The pasta I ate yesterday was the worst." A score of “+1” is given when the sentence “Today's □□□ is quite good” is used.
<話題に対するトーンの解析>
次に、話題に対するユーザの声のトーンの解析(即ち、図2のステップS21の処理)について具体的に説明する。
<Analysis of tone for topic>
Next, the analysis of the tone of the user's voice on the topic (that is, the process of step S21 in FIG. 2) will be specifically described.
なお、声のトーンを解析するためのルールは、音声の特徴に基づいて事前に作成されている。また、作成したルールを機械学習することでモデルを作成してもよい。例えば、サポートベクターマシンを使用して分類モデルを作成して、正解データとして所定のパターンを予め分類し、決まった分類の中から特徴量を自動的に判定するようにしてもよい。 Note that the rules for analyzing the tone of voice are created in advance based on the features of the voice. A model may also be created by performing machine learning on the created rules. For example, a support vector machine may be used to create a classification model, pre-classify predetermined patterns as correct data, and automatically determine feature quantities from the determined classification.
より具体的には、話題に対するトーンの解析では、音声の速さ、音声の高さ(周波数)、抑揚等に基づいて、声のトーンがポジティブであるか又はネガティブであるかを判定すればよい。例えば、音声が速く、且つ高い場合には、ポジティブなトーンであると判定すればよい。また、音声が遅く、且つ低い場合には、ネガティブなトーンであると判定すればよい。 More specifically, in tone analysis for a topic, it is sufficient to determine whether the tone of voice is positive or negative based on the speed of speech, pitch (frequency) of speech, intonation, etc. . For example, if the voice is fast and high, it may be determined that the tone is positive. Also, if the voice is slow and low, it may be determined that the tone is negative.
<ユーザ照合処理>
次に、ユーザ照合処理(即ち、図2のステップS22の処理)について、図12を参照して具体的に説明する。図12は、ユーザ照合処理の具体的な方法の一例を示す表である。
<User verification process>
Next, the user verification process (that is, the process of step S22 in FIG. 2) will be specifically described with reference to FIG. FIG. 12 is a table showing an example of a specific method of user verification processing.
ユーザ照合処理は、上述した解析処理の結果として得られた特徴量の組み合わせを利用して、判定器を作成して行えばよい。なお、判定器を作成する場合には機械学習を行ってもよい。 The user collation processing may be performed by creating a determiner using a combination of feature amounts obtained as a result of the analysis processing described above. Note that machine learning may be performed when creating the determiner.
図14に示す判定器を用いる場合には、よく使うフレーズのパターンが「丁寧語をよく使う」であり、よく話す話題が「野球」であり、よく話す単語が「野球選手名」であり、よく話す話題の感情が「ポジティブ」であり、話題のトーンが「ポジティブ」である場合に、ユーザパターンは“A”であると判定される。よく話す話題が「サッカー」であり、よく話す単語が「サッカー選手名」であり、よく話す話題の感情が「ネガティブ」であり、話題のトーンが「ポジティブ」である場合には、ユーザパターンは“B”であると判定される。よく使うフレーズのパターンが「簡易表現が多い」であり、よく話す話題が「読書」であり、よく話す単語が「作品名」であり、よく話す話題の感情が「ポジティブ」であり、話題のトーンが「暗い(ネガティブ)」である場合には、ユーザパターンは“C”であると判定される。 When using the determiner shown in FIG. 14, the frequently used phrase pattern is "use polite language often", the frequently spoken topic is "baseball", the frequently spoken word is "baseball player's name", The user pattern is determined to be "A" when the sentiment of the topic of frequent discussion is "positive" and the tone of the topic is "positive." If the frequently talked topic is "soccer", the frequently talked word is "soccer player name", the sentiment of the frequently talked topic is "negative", and the topic tone is "positive", then the user pattern is: It is determined to be "B". The frequently used phrase pattern is "many simple expressions", the frequently talked about topic is "reading", the frequently talked about word is "title of work", and the frequently talked about topic sentiment is "positive" If the tone is "dark (negative)", the user pattern is determined to be "C".
以上説明したように、本実施形態に係る発話者推定装置によれば、ドライバの発話内容及び音声の特徴から解析された複数の特徴量に基づいて、ユーザパターン(即ち、ドライバが誰であるのか)が推定される。よって、現在の車両のドライバ(即ち、発話者)が誰であるのかを、極めて高い精度で推定することが可能である。 As described above, according to the speaker estimating device according to the present embodiment, a user pattern (that is, who the driver is is ) is estimated. Therefore, it is possible to estimate who the current vehicle driver (that is, the speaker) is with extremely high accuracy.
<付記>
以上説明した実施形態から導き出される発明の各種態様を以下に説明する。
<Appendix>
Various aspects of the invention derived from the embodiments described above will be described below.
(付記1)
付記1に記載の発話者推定装置は、ユーザに話題を提供する提供手段と、前記話題に対する前記ユーザの発話の内容及び音声の特徴の少なくとも一方を取得する取得手段と、前記発話の内容及び音声の特徴の少なくとも一方に基づいて、前記ユーザの特徴量を解析する解析手段と、前記特徴量に基づいて、前記ユーザの個人属性を推定する推定手段とを備える。
(Appendix 1)
The speaker estimating device described in
付記1に記載の発話者推定装置によれば、提供した話題に対するユーザの発話の内容及び音声の特徴の少なくとも一方に基づいて、ユーザの特徴量が解析される。そして、解析された特徴量に基づいて、ユーザの個人属性が推定される。なお、「特徴量」とは、ユーザの個人属性を推定するためのパラメータであり、例えばユーザがよく使うフレーズや単語に関する情報、提供された話題に対するユーザの感情や声のトーン等を含んでいる。「個人属性」とは、ユーザ個人を特定するための属性情報であり、例えばユーザの本人性(本人らしさ)を示す情報である。
According to the speaker estimation device described in
上述した構成によれば、ユーザ(即ち、発話者)の発話から解析される特徴量に基づいて個人属性が推定されるため、単に音声認証等でユーザの個人属性を推定する場合と比べると、より高い精度でユーザを推定(言い換えれば、特定)することが可能である。 According to the above-described configuration, the personal attribute is estimated based on the feature amount analyzed from the utterance of the user (that is, the speaker). It is possible to estimate (in other words, identify) the user with higher accuracy.
本発明は、上述した実施形態に限られるものではなく、請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う発話者推定装置もまた本発明の技術的範囲に含まれるものである。 The present invention is not limited to the above-described embodiments, and can be modified as appropriate within the scope not contrary to the gist or idea of the invention that can be read from the scope of claims and the entire specification. is also included in the technical scope of the present invention.
100 ECU
110 話題提供部
120 発話取得部
130 特徴量解析部
140 ユーザ照合部
200 スピーカ
200 マイク
100 ECUs
110
Claims (1)
前記話題に対する前記ユーザの発話の内容及び音声の特徴を取得する取得手段と、
前記発話の内容に基づいて前記話題に対する感情を解析すると共に、前記音声の特徴に基づいて前記話題に対する声のトーンを解析する解析手段と、
前記話題、前記話題に対する感情、及び前記話題に対する声のトーンに基づいて、前記ユーザの個人属性を推定する推定手段と
を備えることを特徴とする発話者推定装置。 a providing means for providing a topic to a user;
Acquisition means for acquiring the contents of the user's utterances and voice features for the topic;
analysis means for analyzing the emotion on the topic based on the content of the utterance and analyzing the tone of voice on the topic based on the characteristics of the voice ;
a speaker estimation device, comprising: estimation means for estimating personal attributes of the user based on the topic, feelings about the topic, and tone of voice about the topic .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018005622A JP7143591B2 (en) | 2018-01-17 | 2018-01-17 | speaker estimation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018005622A JP7143591B2 (en) | 2018-01-17 | 2018-01-17 | speaker estimation device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019124835A JP2019124835A (en) | 2019-07-25 |
JP7143591B2 true JP7143591B2 (en) | 2022-09-29 |
Family
ID=67398732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018005622A Active JP7143591B2 (en) | 2018-01-17 | 2018-01-17 | speaker estimation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7143591B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7232063B2 (en) | 2019-01-30 | 2023-03-02 | 株式会社日立製作所 | Stray current estimation system, stray current estimation method, and stray current estimation program |
WO2021002436A1 (en) | 2019-07-03 | 2021-01-07 | 味の素株式会社 | Modified pea protein production method |
CN110767239A (en) * | 2019-09-20 | 2020-02-07 | 平安科技(深圳)有限公司 | Voiceprint recognition method, device and equipment based on deep learning |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250593A (en) | 1999-03-03 | 2000-09-14 | Fujitsu Ltd | Device and method for speaker recognition |
JP2004101901A (en) | 2002-09-10 | 2004-04-02 | Matsushita Electric Works Ltd | Speech interaction system and speech interaction program |
JP2010163100A (en) | 2009-01-16 | 2010-07-29 | Mitsubishi Motors Corp | Control device for in-vehicle equipment |
JP2011248020A (en) | 2010-05-25 | 2011-12-08 | Sony Corp | Search device, search method, and program |
JP2016071050A (en) | 2014-09-29 | 2016-05-09 | シャープ株式会社 | Voice interactive device, voice interactive system, terminal, voice interactive method, program for letting computer function as voice interactive device |
JP2017003611A (en) | 2015-06-04 | 2017-01-05 | シャープ株式会社 | Voice recognition device, voice recognition system, terminal used in voice recognition system and method for generating speaker identification model |
-
2018
- 2018-01-17 JP JP2018005622A patent/JP7143591B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250593A (en) | 1999-03-03 | 2000-09-14 | Fujitsu Ltd | Device and method for speaker recognition |
JP2004101901A (en) | 2002-09-10 | 2004-04-02 | Matsushita Electric Works Ltd | Speech interaction system and speech interaction program |
JP2010163100A (en) | 2009-01-16 | 2010-07-29 | Mitsubishi Motors Corp | Control device for in-vehicle equipment |
JP2011248020A (en) | 2010-05-25 | 2011-12-08 | Sony Corp | Search device, search method, and program |
JP2016071050A (en) | 2014-09-29 | 2016-05-09 | シャープ株式会社 | Voice interactive device, voice interactive system, terminal, voice interactive method, program for letting computer function as voice interactive device |
JP2017003611A (en) | 2015-06-04 | 2017-01-05 | シャープ株式会社 | Voice recognition device, voice recognition system, terminal used in voice recognition system and method for generating speaker identification model |
Non-Patent Citations (1)
Title |
---|
西村竜一 他,"大人・子供に適応した音声情報案内のためのユーザ自動識別",電子情報通信学会技術研究報告,2003年12月11日,Vol.103,No.519,pp.97-102 |
Also Published As
Publication number | Publication date |
---|---|
JP2019124835A (en) | 2019-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bu et al. | Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline | |
JP6755304B2 (en) | Information processing device | |
US20160379643A1 (en) | Group Status Determining Device and Group Status Determining Method | |
US20190355352A1 (en) | Voice and conversation recognition system | |
JP7143591B2 (en) | speaker estimation device | |
JP6440967B2 (en) | End-of-sentence estimation apparatus, method and program thereof | |
Gu et al. | Prosodic analysis and perception of Mandarin utterances conveying attitudes | |
Glasser | Automatic speech recognition services: Deaf and hard-of-hearing usability | |
Kopparapu | Non-linguistic analysis of call center conversations | |
CN112309406A (en) | Voiceprint registration method, voiceprint registration device and computer-readable storage medium | |
Boril et al. | Arabic Dialect Identification-'Is the Secret in the Silence?'and Other Observations. | |
KR20210071713A (en) | Speech Skill Feedback System | |
Toyama et al. | Use of Global and Acoustic Features Associated with Contextual Factors to Adapt Language Models for Spontaneous Speech Recognition. | |
Hämäläinen et al. | Improving speech recognition through automatic selection of age group–specific acoustic models | |
Safárová et al. | On recognition of declarative questions in English | |
Johar | Paralinguistic profiling using speech recognition | |
KR102407055B1 (en) | Apparatus and method for measuring dialogue quality index through natural language processing after speech recognition | |
Schulte | Positive evaluative stance and/t/frication. A sociophonetic analysis of/t/realisations in Dublin English | |
Kono et al. | Prototype of conversation support system for activating group conversation in the vehicle | |
Prombut et al. | Feature extraction technique based on Conv1D and Conv2D network for Thai speech emotion recognition | |
Zhang et al. | Towards intoxicated speech recognition | |
Kruspe et al. | Improving Singing Language Identification through i-Vector Extraction. | |
WO2020036190A1 (en) | Major point extraction device, major point extraction method, and program | |
Takeuchi et al. | Question and answer database optimization using speech recognition results | |
Barron-Lutzross | The production and perception of a lesbian speech style |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211004 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220829 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7143591 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |