JP7079419B2 - 情報処理方法及び情報処理装置 - Google Patents

情報処理方法及び情報処理装置 Download PDF

Info

Publication number
JP7079419B2
JP7079419B2 JP2019570177A JP2019570177A JP7079419B2 JP 7079419 B2 JP7079419 B2 JP 7079419B2 JP 2019570177 A JP2019570177 A JP 2019570177A JP 2019570177 A JP2019570177 A JP 2019570177A JP 7079419 B2 JP7079419 B2 JP 7079419B2
Authority
JP
Japan
Prior art keywords
nickname
registration information
information processing
searched
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019570177A
Other languages
English (en)
Other versions
JPWO2019155526A1 (ja
Inventor
克 田▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Publication of JPWO2019155526A1 publication Critical patent/JPWO2019155526A1/ja
Application granted granted Critical
Publication of JP7079419B2 publication Critical patent/JP7079419B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4931Directory assistance systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/55Aspects of automatic or semi-automatic exchanges related to network data storage and management
    • H04M2203/558Databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理方法及び情報処理装置に関するものである。
従来において、ユーザが発した発話音声のテキストデータに基づき、ユーザの要求を理解し、要求に応じたタスクを実行するという技術が開示されている。
国際公開2016/002406号
従来は、例えば、家族や知人の氏名(例えば、日産花子)及び電話番号を含む登録情報を予めデータベースに記憶しておき、音声入力装置に対して「日産花子に電話」のように発話することで、「日産花子」から電話番号を検索し、電話を行うことができる。
しかし、日常の会話では、家族などを氏名以外の呼び名(例えば、お母さん)で呼ぶ場合がある。上記のように、通常は登録情報には氏名(例えば、日産花子)を登録するので、「お母さんに電話」のように発話しても、「日産花子」が「お母さん」であることを認識できず、電話を行えない。そればかりか、登録情報が記憶されているとしても、呼び名からこの登録情報を検索できず、発話者に登録情報を提示できない。
本発明は、上記課題に鑑みて成されたものであり、その目的は、データベースから呼び名に基づいて登録情報を検索して発話者に提示できる情報処理方法及び情報処理装置を提供することである。
本発明の一態様に係わる情報処理方法は、データベースから登録情報を検索する情報処理装置の情報処理方法である。情報処理装置は、発話者の音声をテキストデータに変換し、テキストデータから呼び名を抽出する。そして、情報処理装置は、呼び名を含む登録情報をデータベースから検索し、呼び名を含む登録情報がデータベースに存在しない場合には呼び名に対応する条件を満たす登録情報をデータベースから検索する。情報処理装置は、検索した呼び名に対応する条件を満たす登録情報を発話者に提示する。
本発明によれば、データベースから呼び名に基づいて登録情報を検索して発話者に提示できる。
図1は、実施形態に係わる情報処理装置の概略構成を示すブロック図である。 図2は、ユーザデータベース2の構成の一例を示す図である。 図3は、対象車両に乗り込んだドライバが電話をかける際の情報処理装置100の動作を示すフローチャートである。 図4は、ドライバが電話番号の入力操作を行って電話の発信が行われた後の通話中での情報処理装置100の動作を示すフローチャートである。 図5は、図4と同様の状況で行われる電話の通話中での情報処理装置100の別な動作を示すフローチャートである。 図6は、対象車両の車内でドライバと同乗者が会話しているときの情報処理装置100の動作を示すフローチャートである。
図面を参照して、実施形態を説明する。図面の記載において同一部分には同一符号を付して説明を省略する。
図1に示す実施形態の情報処理装置100は、呼び名データベース1及びユーザデータベース2とともに車両に搭載される。以下、この車両を対象車両という。なお、呼び名データベース1及びユーザデータベース2が車外に設けられていて、車載の通信装置を介して呼び名データベース1及びユーザデータベース2に外部からアクセスすることで車載した場合と同じ機能を果たすことができる。
情報処理装置100は、音声認識部3、意図推定部4、検索結果出力部5、データベース更新部6、電話処理部7及び声紋識別部8を備える。
情報処理装置100は、CPU(中央処理装置)、メモリ、及び入出力部を備える汎用のマイクロコンピュータ(制御部ともいう)であり、後述の情報処理方法を実行する。このマイクロコンピュータには、情報処理装置として機能させるためのコンピュータプログラム(情報処理プログラム)がインストールされている。コンピュータプログラムを実行することにより、マイクロコンピュータは、情報処理装置が備える複数の情報処理回路(3~8)として機能する。なお、ここでは、ソフトウェアによって情報処理装置が備える複数の情報処理回路(3~8)を実現する例を示すが、もちろん、以下に示す各情報処理を実行するための専用のハードウェアを用意して、情報処理回路(3~8)を構成することも可能である。また、複数の情報処理回路(3~8)を個別のハードウェアにより構成してもよい。更に、情報処理回路(3~8)は、車両にかかわる他の制御に用いる電子制御ユニット(ECU)と兼用してもよい。
呼び名データベース1は、日常会話で使用する呼び名、例えば、「お母さん」、「おとうさん」、「おばあちゃん」、「おじいちゃん」などが登録されている。また、企業内などでは「課長」、「部長」などの呼び名も使用されるので、このような呼び名も登録されている。また、「一郎」という名の人を呼ぶ呼び名として、「いっちゃん」なども登録されている。
ユーザデータベース2は、対象車両に乗車する乗員ごとに設けられる。ここでは、乗員が1人のドライバのみであり、このドライバについてのユーザデータベース2のみが設けられていることとする。ユーザデータベース2が複数の乗員ごとに設けられている場合については別途説明する。
図2に示すように、ユーザデータベース2は、ドライバの家族や知人(以下、関係者という)1人ごとに登録情報を備える。各登録情報は、関係者の名字と名前、関係者の呼び名、関係者の性別、関係者の自宅の電話番号(図2の「第1電話番号」)、関係者の携帯電話の電話番号(図2の「第2電話番号」という)、関係者の職場の電話番号(図2の「第3電話番号」)、関係者の自宅の住所、関係者の声の声紋及び履歴情報(例えば、電話の頻度などを示す情報)を備える。なお、情報が不足している登録情報があってもよい。例えば、呼び名や声紋を得ていない関係者の登録情報には呼び名や声紋が含まれない。
音声認識部3は、ドライバの発話の音声を音声認識し、テキストデータに変換する。
意図推定部4は、テキストデータから呼び名とコマンドを抽出する。コマンドは、ドライバすなわち発話者が希望する制御を示す単語などである。具体的には、意図推定部4は、テキストデータから、呼び名データベース1に登録された呼び名と同じ呼び名を抽出する。また、コマンドについても同様に、予めデータベース(図示せず)に登録されたコマンドと同じコマンドを抽出する。
そして、意図推定部4は、呼び名に対応する条件を満たす登録情報をユーザデータベース2から検索する。検索結果出力部5は、意図推定部4による検索結果(登録情報)をドライバに提示する。
データベース更新部6は、意図推定部4が検索した登録情報に呼び名や声紋識別部8が検出した声紋を書き込み、履歴情報を更新する。また、データベース更新部6は、ユーザデータベース2に新たな登録情報を生成する。
電話処理部7は、抽出されたコマンドが電話に関するものの場合、意図推定部4が検索した登録情報を用いて、コマンドに応じた制御を行う。具体的には、電話の発信、着信、音声処理などを行う。また、電話処理部7は、電話相手の電話番号を検出する。声紋識別部8は、電話中の発話から声紋を検出する。
図3は、対象車両に乗り込んだドライバが電話をかける際の情報処理装置100の動作を示すフローチャートである。なお、情報処理装置100にとっては、ドライバの名字と名前、性別、第1~第3電話番号、住所、声紋といった情報が既知であることとする。後述の図4、図5の動作の際でもこれらの情報は既知であることとする。
まず、ドライバ(発話者)が、「お母さんに電話して」のように発話すると(S1)、音声認識部3が、図示しない音声入力装置(マイクロフォン)からドライバの発話の音声を取得する。そして、音声を音声認識し、テキストデータに変換する(S3)。「電話して」は、ここではドライバ(発話者)が希望する制御を示すコマンドである。
次に、意図推定部4が、テキストデータを単語に分解し、呼び名データベース1に登録された呼び名と同じ単語、すなわち呼び名(例えば「お母さん」)を抽出する(S5)。また、意図推定部4は、予めコマンドのデータベース(図示せず)に登録されたコマンドと同じ単語、すなわちコマンド(例えば「電話して」)を抽出する(S5)。
次に、意図推定部4は、ステップS5で抽出した呼び名に対応する条件を満たす登録情報をユーザデータベース2から検索する(S7)。条件を満たす登録情報がない場合は(S9:NO)、処理を終える。つまり、音声による電話の発信はできず、例えば、ドライバは相手の電話番号の入力操作を行い、電話処理部7が電話の発信、音声処理などを行う。一方、条件を満たす登録情報がある場合は(S9:YES)、ステップS11に進む。
ここでステップS7、S9について説明する。
意図推定部4は、ステップS5で抽出した呼び名を含む登録情報を検索し(S7)、そのような登録情報が存在するか否かを判定し(S9)、存在する場合は(S9:YES)、その登録情報を読み出す。なお、呼び名を含む登録情報がユーザデータベース2に1つだけ存在する場合は、後述のステップS11、S13を省略できる。
また、呼び名「お母さん」には、ここでは予め「名字が同じ、且つ、自宅の住所が同じ、且つ、性別が女性」のような条件が対応づけて記憶されている。
意図推定部4は、呼び名を含む登録情報がない場合、ドライバの名字が「日産」であるならば、例えば名字「日産」を含み、且つ自宅の住所が同じ、且つ、性別が女性の登録情報(条件を満たす登録情報)を検索する(S7)。そして、そのような登録情報が存在するか否かを判定し(S9)、存在する場合は(S9:YES)、その登録情報(例えば、「日産」「花子」を含む登録情報)を読み出す。
また、呼び名「課長」には、ここでは予め「第3電話番号が同じ」のような条件が対応づけて記憶されている。
意図推定部4は、呼び名を含む登録情報がない場合、ドライバの「第3電話番号」と同じ「第3電話番号」を含む登録情報(条件を満たす登録情報)を検索する(S7)。そして、そのような登録情報が存在するか否かを判定し(S9)、存在する場合は(S9:YES)、その登録情報を読み出す。
ステップS11では、検索結果出力部5が、意図推定部4による検索結果(登録情報)をドライバに提示する(S11)。ここでは、例えば、登録情報内の名字「日産」、名前「花子」を、「「お母さん」は「日産」「花子」さんですか?」というように音声を出力する(S11)。
これに対し、ドライバが、「そうです」と発話すると(S13)、音声認識部3が、ドライバの発話の音声を音声認識してテキストデータに変換し、意図推定部4が、「肯定」の回答であることを認識する。すなわち、「日産」「花子」を含む登録情報が特定されたことになる。
ここで、ステップS7で複数の登録情報が検索された場合について説明する。
例えば、名字「日産」、名前「花子」を含む登録情報と、名字「日産」、名前「直子」を含む登録情報とが検索された場合、検索結果出力部5は、ステップS5で抽出した呼び名「お母さん」を用い、「「お母さん」は「日産」「花子」さんですか、それとも、「日産」「直子」さんですか?」というように音声を出力する(S11)。
これに対し、ドライバが「「日産」「花子」です」と発話すると(S13)、音声認識部3が、ドライバの発話の音声を音声認識してテキストデータに変換し、意図推定部4が、「「日産」「花子」」の回答であることを認識する。すなわち、「日産」「花子」を含む登録情報が特定されたことになる。この登録情報は、ドライバ(発話者)が発話により選択した登録情報ということができる。
このようにして、1つの登録情報が特定されると、電話処理部7は、特定した登録情報を用いて、コマンドに応じた制御を行う(S15)。ステップS15では、例えば、登録情報のいずれかの電話番号に発信し、電話中は音声処理を行う。
また、声紋識別部8は、ステップS15における電話中の発話から電話相手の声紋を検出する(S17)。
次に、データベース更新部6が、特定された登録情報に対し、ステップS5で抽出した呼び名、及びステップS17で検出した声紋を書き込む(S19)。そして、履歴情報を更新し、処理を終える。
以上のように、図3のフローチャートによれば、発話者(ドライバ)の音声をテキストデータに変換し(S3)、テキストデータから呼び名(お母さん、課長)を抽出する(S5)。そして、呼び名(お母さん、課長)に対応する条件を満たす登録情報をデータベース(2)から検索し(S7)、検索した登録情報を発話者に提示する(S11)。よって、データベース(2)から呼び名に基づいて登録情報を検索して発話者に提示できる。
また、検索した登録情報に呼び名を書き込む(S19)ことで、この登録情報については、次回以降は、呼び名を含む登録情報を検索すればよく、呼び名に対応する条件による登録情報の検索が不要となる。
また、発話者(ドライバ)が希望する制御を示すコマンドをテキストデータから抽出し(S5)、ステップS7で検索した登録情報を用いて、コマンドに応じた制御(電話)を行う(S15)。よって、呼び名とコマンドを発話することで、コマンドに応じた制御を行うことができる。
また、検索した複数の登録情報(日産花子、日産直子)を発話者(ドライバ)に提示し(S11)、発話者が選択した登録情報に呼び名を書き込む(S19)。
よって、この登録情報については、次回以降は、呼び名を含む登録情報を検索すればよく、呼び名に対応する条件による登録情報の検索が不要となる。
図4は、音声による発信ができず、ドライバが電話番号の入力操作を行って電話の発信が行われた後の通話中での情報処理装置100の動作を示すフローチャートである。
まず、電話処理部7は、電話相手(ドライバが呼び名で呼ぶ対象者)の電話番号を検出する(S21)。
また、ドライバが電話中に、「お母さん、次の日曜日に時間ある?」又は「いっちゃん、次の日曜日に時間ある?」のように発話すると(S23)、音声認識部3が、ドライバの発話の音声を音声認識し、テキストデータに変換する(S25)。
次に、意図推定部4が、テキストデータを単語に分解し、呼び名データベース1に登録された呼び名と同じ単語、すなわち呼び名「お母さん」又は「いっちゃん」を抽出する(S27)。
また、電話相手(対象者)が、「あるけど、何か用があるの?」のように発話すると(S29)、声紋識別部8は、発話の音声から電話相手の声紋を検出する(S31)。
次に、意図推定部4は、ユーザデータベース2を参照し、ステップS21で検出した電話相手の電話番号を含む登録情報がユーザデータベース2に存在するか否かを判定する(S33)。つまり、電話相手の電話番号を含む登録情報をユーザデータベース2から検索する。
データベース更新部6は、該当の登録情報が存在する場合は(S33:YES)、登録情報に対し、ステップS27で抽出した呼び名、及びステップS31で検出した声紋を書き込み(S35)、処理を終える。
ステップS35では、例えば、呼び名「お母さん」で呼ばれる「日産」「花子」さんの登録情報に呼び名「お母さん」と「日産」「花子」さんの声紋を書き込む。
一方、該当の登録情報が存在しない場合は(S33:NO)、データベース更新部6は、ステップS21で検出した電話番号(電話相手の電話番号)、ステップS27で抽出した呼び名(電話相手の呼び名)、及びステップS31で検出した声紋(電話相手の声紋)を含む登録情報を新たにユーザデータベース2に生成し(S37)、処理を終える。
ステップS37では、例えば、呼び名「いっちゃん」と電話番号と声紋を含む登録情報がユーザデータベース2に生成される。なお、この登録情報のその他の情報(名字、名前など)は、その後の入力操作などにより追加することができる。
図4の処理により、ドライバが「日産」「花子」さんを呼ぶときの呼び名「お母さん」と「日産」「花子」さんの声紋を、ユーザデータベース2の中の「日産」「花子」さんの登録情報に書き込むことができる。
また、ドライバが呼び名「いっちゃん」と呼ぶ人の電話番号と声紋と呼び名「いっちゃん」を含む登録情報をユーザデータベース2に生成することができる。
以上のように、図4のフローチャートによれば、呼び名で呼ばれる対象者(電話相手)との電話中の発話者(ドライバ)の音声をテキストデータに変換し(S25)、テキストデータから呼び名(お母さん、いっちゃん)を抽出し(S27)、対象者(電話相手)の電話番号を検出し(S21)、電話番号を含む登録情報をデータベース(2)から検索する(S33)。
そして、検索した電話番号を含む登録情報がデータベース(2)に存在する場合は(S33:YES)、電話番号を含む登録情報に呼び名(お母さん)を書き込む(S35)。
よって、この登録情報については、次回以降は、呼び名を含む登録情報を検索すればよく、呼び名に対応する条件による登録情報の検索が不要となる。
また、検索した電話番号を含む登録情報がデータベースに存在しない場合は(S33:NO)、電話番号と呼び名(いっちゃん)とを含む登録情報をデータベース(2)に生成する(S37)。
よって、この登録情報については、次回以降は、呼び名を含む登録情報を検索すればよく、呼び名に対応する条件による登録情報の検索が不要となる。
図5は、図4と同様の状況で行われる電話の通話中での情報処理装置100の別な動作を示すフローチャートである。ここでは、図4のステップS21(電話番号の検出)を不要とする動作について説明する。
まず、ドライバ(発話者)が、「お母さん、次の日曜日に時間ある?」のように発話すると(S41)、音声認識部3が、ドライバの発話の音声を音声認識し、テキストデータに変換する(S43)。
次に、意図推定部4が、テキストデータを単語に分解し、呼び名データベース1に登録された呼び名と同じ単語、すなわち呼び名「お母さん」を抽出する(S45)。
また、電話相手(発話者との対話中の対象者)が、「あるけど、何か用があるの?」のように発話すると(S47)、声紋識別部8は、発話の音声から電話相手の声紋を検出する(S49)。
次に、意図推定部4は、ステップS49で検出した声紋を含む登録情報をユーザデータベース2から検索する(S51)。
ステップS49で検出した声紋を含む複数の登録情報がある場合(S53:YES)、検索結果出力部5が、意図推定部4による検索結果をドライバに提示する(S55)。
例えば、「日産」、「花子」さんの声紋と、「日産」、「直子」さんの声紋が類似している場合、声紋検出の精度によっては、名字「日産」、名前「花子」を含む登録情報と、名字「日産」、名前「直子」を含む登録情報とが検索される場合がある。つまり、複数の登録情報が検索される場合がある。
この場合、検索結果出力部5は、ステップS45で抽出した呼び名「お母さん」を用い、「「お母さん」は「日産」「花子」さんですか、それとも、「日産」「直子」さんですか?」というように音声を出力する(S55)。つまり、複数の登録情報を発話者(ドライバ)に提示する。
これに対し、ドライバが「「日産」「花子」です」と発話すると(S57)、音声認識部3が、ドライバの発話の音声を音声認識してテキストデータに変換し、意図推定部4が、「「日産」「花子」」の回答であることを認識する。
すなわち、「日産」「花子」を含む登録情報が特定されたことになる。また、ステップS49で検出した声紋を含む登録情報が1つの場合(S53:NO)、この1つの登録情報が特定されたことになる。
このようにして、1つの登録情報が特定されると、データベース更新部6が、特定された登録情報に対し、ステップS45で抽出した呼び名を書き込む(S59)。そして、履歴情報を更新し、処理を終える。
図5の処理により、ドライバが「日産」「花子」さんを呼ぶときの呼び名「お母さん」を、ユーザデータベース2の中の「日産」「花子」さんの登録情報に書き込むことができる。
また、ドライバが呼び名「課長」で呼ぶ「青山」「一郎」さんが電話相手の場合、呼び名「課長」を、ユーザデータベース2の中の「青山」「一郎」さんの登録情報に書き込むことができる。
また、電話相手である「青山」「一郎」さんが乗る車両にも情報処理装置100が搭載されていれば、「青山」「一郎」さんがドライバ「日産」「太郎」さんを呼ぶときの呼び名、例えば「日産くん」を、「青山」「一郎」さんが乗る車両の「日産」「太郎」さんの登録情報に書き込むことができる。
以上のように、図5のフローチャートによれば、呼び名で呼ばれる対象者(電話相手)との対話中の発話者(ドライバ)の音声をテキストデータに変換し(S43)、テキストデータから呼び名(お母さん)を抽出し(S45)、発話者との対話中の対象者(電話相手)の音声から声紋を検出する(S49)。そして、声紋を含む登録情報をデータベース(2)から検索し(S51)、検索した登録情報に呼び名を書き込む(S59)。
よって、この登録情報については、次回以降は、呼び名を含む登録情報を検索すればよく、呼び名に対応する条件による登録情報の検索が不要となる。
また、検索した複数の登録情報(日産花子、日産直子)を発話者(ドライバ)に提示し(S55)、発話者が選択した登録情報に呼び名を書き込む(S59)。
よって、この登録情報については、次回以降は、呼び名を含む登録情報を検索すればよく、呼び名に対応する条件による登録情報の検索が不要となる。
図6は、対象車両の車内でドライバと同乗者が会話しているときの情報処理装置100の動作を示すフローチャートである。このドライバをドライバA、この同乗者を同乗者Bという。
ここでは、ユーザデータベース2が、ドライバAと同乗者B、つまり複数の乗員ごとに設けられる。
また、情報処理装置100にとっては、ドライバAと同乗者Bの名字と名前、性別、第1~第3電話番号、住所、声紋といった情報が既知であることとする。
まず、ドライバAと同乗者Bの一方(発話者)が、「お母さん、次の日曜日に時間ある?」のように発話すると(S71)、声紋識別部8は、発話の音声から発話者の声紋を検出する(S73)。
次に、意図推定部4は、ステップS73で検出した声紋に基づき、発話者がドライバAか同乗者Bかを特定し、特定した発話者のユーザデータベース2を処理対象として選択する(S75)。
例えば、予めドライバAのユーザデータベース2にドライバAの声紋を記憶させ、同乗者Bのユーザデータベース2に同乗者Bの声紋を記憶させ、検出した声紋と照合することにより、発話者を特定できる。
また、音声認識部3は、ステップS71の発話の音声を音声認識し、テキストデータに変換する(S77)。
次に、意図推定部4が、テキストデータを単語に分解し、呼び名データベース1に登録された呼び名と同じ単語、すなわち呼び名「お母さん」を抽出する(S79)。
そして、相手が、「あるけど、何か用があるの?」のように発話すると(S81)、声紋識別部8は、発話の音声から相手の声紋を検出する(S83)。
次に、意図推定部4は、ステップS83で検出した声紋を含む登録情報を、ステップS75で選択したユーザデータベース2から検索する(S85)。なお、検出した声紋を含む複数の登録情報がある場合は、図5のように検索結果を提示し、発話に基づき、1つの登録情報を特定すればよい。
そして、データベース更新部6が、特定した登録情報に対し、ステップS79で抽出した呼び名を書き込む(S87)。そして、履歴情報を更新し、処理を終える。
図6の処理により、ドライバAが同乗者Bを呼ぶときの呼び名「お母さん」を、ドライバAのユーザデータベース2の中の同乗者Bの登録情報に書き込むことができる。また、図6の処理を繰り返し行うことで、別のタイミングでは、同乗者BがドライバAを呼ぶときの呼び名「お父さん」を、同乗者Bのユーザデータベース2の中のドライバAの登録情報に書き込むことができる。
日本では、ドライバAと同乗者Bが夫婦の場合、このようにお互いを「お母さん」「お父さん」と呼ぶことがある。
また、同乗者Bともう1人の同乗者(同乗者Cという)の会話について同様の処理を行ってもよい。同乗者Cが同乗者Bの孫である場合、同乗者Cが同乗者Bを呼び名「おばば」と呼ぶことが考えられる。この場合、呼び名「おばば」が、同乗者C(孫)のユーザデータベース2の中の同乗者Bの登録情報に書き込まれる。
すなわち、ドライバA(夫)のユーザデータベース2の中の同乗者Bの登録情報に書き込まれる呼び名「お母さん」と、同乗者C(孫)のユーザデータベース2の中の同乗者Bの登録情報に書き込まれる呼び名「おばば」は、同じ同乗者Bを呼ぶときの呼び名であっても相違することとなる。
よって、ドライバA(夫)は、「お母さんに電話して」と発話することで、同乗者Bに電話でき、同乗者C(孫)は、「おばばに電話して」と発話することで、同乗者Bに電話できる。すなわち、それぞれの呼び方で同乗者Bに電話することができる。
以上のように、図6のフローチャートによれば、呼び名で呼ばれる対象者との対話中の発話者の音声をテキストデータに変換し(S77)、テキストデータから呼び名(お母さん)を抽出し(S79)、発話者との対話中の対象者(会話の相手)の音声から声紋を検出する(S83)。そして、声紋が登録された登録情報をデータベース(2)から検索し(S85)、検索した登録情報に呼び名を書き込む(S87)。
よって、この登録情報については、次回以降は、呼び名を含む登録情報を検索すればよく、呼び名に対応する条件による登録情報の検索が不要となる。
以上、実施の形態について説明したが、同様の処理を行うことで、種々の変形例を実施することができる。
例えば、情報処理装置100は、車両(四輪車)でなく、オートバイ、自転車などの乗り物に搭載してもよい。また、情報処理装置100を電話機(固定電話又は携帯電話)に内蔵してもよい。その際は、電話処理部7は、電話機のものを流用すればよい。
また、情報処理装置100を会議室などに設置し、図6の処理を行ってもよい。
また、情報処理装置100を、インターネットなどに接続された通信可能なコンピュータに搭載し、テキストデータは電子メールや対話用のアプリケーションソフトウェアなどから取得してもよい。その際、電話番号に代えて、電子メールアドレスやユーザIDを使用すればよい。そして、電話の会話に代えて、電子メールの送受信や対話用のアプリケーションソフトウェアにおける対話を行ってもよい。
上記のように、本発明の実施形態を記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。
上述の各実施形態で示した各機能は、1又は複数の処理回路により実装され得る。処理回路は、電気回路を含む処理装置等のプログラムされた処理装置を含む。処理装置は、また、実施形態に記載された機能を実行するようにアレンジされた特定用途向け集積回路(ASIC)や従来型の回路部品のような装置を含む。
1 呼び名データベース
2 ユーザデータベース(データベース)
3 音声認識部
4 意図推定部
5 検索結果出力部
6 データベース更新部
7 電話処理部
8 声紋識別部
100 情報処理装置

Claims (11)

  1. データベースから登録情報を検索する情報処理装置の情報処理方法であって、
    前記情報処理装置は、
    発話者の音声をテキストデータに変換し、
    前記テキストデータから呼び名を抽出し、
    前記呼び名を含む登録情報を前記データベースから検索し、
    前記呼び名を含む登録情報が前記データベースに存在しない場合には前記呼び名に対応する条件を満たす登録情報を前記データベースから検索し、
    検索した前記呼び名に対応する条件を満たす登録情報を前記発話者に提示する
    ことを特徴とする情報処理方法。
  2. 前記呼び名は人名を示す呼び名であり、
    前記呼び名に対応する条件は、名字、性別、住所、及び電話番号のうちの少なくともいずれかを含む
    ことを特徴とする請求項1記載の情報処理方法。
  3. 前記情報処理装置は、
    前記呼び名と、検索した前記呼び名に対応する条件を満たす登録情報に含まれている人物の名前とを対応付けて前記発話者に提示する
    ことを特徴とする請求項1記載の情報処理方法。
  4. 前記情報処理装置は、
    前記呼び名と、検索した前記呼び名に対応する条件を満たす登録情報に含まれている人物の名前とを対応付けて前記発話者に提示し、
    前記発話者から肯定的な回答があった場合には、前記登録情報に対応付けて前記呼び名を記録する
    ことを特徴とする請求項1記載の情報処理方法。
  5. 前記情報処理装置は、
    検索した前記登録情報に前記呼び名を書き込む
    ことを特徴とする請求項1記載の情報処理方法。
  6. 前記情報処理装置は、
    前記発話者が希望する制御を示すコマンドを前記テキストデータから抽出し、
    検索した前記登録情報を用いて、前記コマンドに応じた制御を行う
    ことを特徴とする請求項1乃至5のいずれかに記載の情報処理方法。
  7. 前記情報処理装置は、
    前記呼び名で呼ばれる対象者との電話中の前記発話者の音声を前記テキストデータに変換し、
    前記テキストデータから呼び名を抽出し、
    前記対象者の電話番号を検出し、
    前記電話番号を含む登録情報を前記データベースから検索し、
    検索した前記電話番号を含む前記登録情報が前記データベースに存在する場合は、前記電話番号を含む前記登録情報に前記呼び名を書き込む
    ことを特徴とする請求項1乃至6のいずれかに記載の情報処理方法。
  8. 前記情報処理装置は、
    検索した前記電話番号を含む前記登録情報が前記データベースに存在しない場合は、前記電話番号と前記呼び名とを含む登録情報を前記データベースに生成する
    ことを特徴とする請求項7記載の情報処理方法。
  9. 前記情報処理装置は、
    前記呼び名で呼ばれる対象者との対話中の前記発話者の音声を前記テキストデータに変換し、
    前記テキストデータから呼び名を抽出し、
    前記発話者との対話中の前記対象者の音声から声紋を検出し、
    前記声紋を含む前記登録情報を前記データベースから検索し、
    検索した前記登録情報に前記呼び名を書き込む
    ことを特徴とする請求項1乃至8のいずれかに記載の情報処理方法。
  10. 前記情報処理装置は、
    検索した複数の前記登録情報を前記発話者に提示し、
    前記発話者が選択した前記登録情報に前記呼び名を書き込む
    ことを特徴とする請求項1又は9記載の情報処理方法。
  11. 登録情報を記憶するデータベースと、
    発話者の音声をテキストデータに変換する音声認識部と、
    前記テキストデータから呼び名を抽出し、前記呼び名を含む登録情報を前記データベースから検索し、前記呼び名を含む登録情報が前記データベースに存在しない場合には前記呼び名に対応する条件を満たす登録情報を前記データベースから検索する意図推定部と、
    検索した前記呼び名に対応する条件を満たす登録情報を前記発話者に提示する検索結果出力部と
    を備えることを特徴とする情報処理装置。
JP2019570177A 2018-02-06 2018-02-06 情報処理方法及び情報処理装置 Active JP7079419B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/004036 WO2019155526A1 (ja) 2018-02-06 2018-02-06 情報処理方法及び情報処理装置

Publications (2)

Publication Number Publication Date
JPWO2019155526A1 JPWO2019155526A1 (ja) 2021-01-28
JP7079419B2 true JP7079419B2 (ja) 2022-06-02

Family

ID=67548238

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019570177A Active JP7079419B2 (ja) 2018-02-06 2018-02-06 情報処理方法及び情報処理装置

Country Status (5)

Country Link
US (1) US11200905B2 (ja)
EP (1) EP3751562A4 (ja)
JP (1) JP7079419B2 (ja)
CN (1) CN111868711A (ja)
WO (1) WO2019155526A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006174111A (ja) 2004-12-16 2006-06-29 Matsushita Electric Ind Co Ltd 電話装置
JP2007259275A (ja) 2006-03-24 2007-10-04 Nec Corp 通信端末におけるニックネーム登録方法及びその装置
JP2012222798A (ja) 2011-04-14 2012-11-12 Nakayo Telecommun Inc 通話音声履歴機能つき電話端末
JP2015079237A (ja) 2013-10-15 2015-04-23 トヨタ自動車株式会社 音声認識方法および音声認識システム
JP2015115844A (ja) 2013-12-13 2015-06-22 キヤノンマーケティングジャパン株式会社 取次支援システム、取次支援方法、およびプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6901431B1 (en) * 1999-09-03 2005-05-31 Cisco Technology, Inc. Application server providing personalized voice enabled web application services using extensible markup language documents
US7013280B2 (en) * 2001-02-27 2006-03-14 International Business Machines Corporation Disambiguation method and system for a voice activated directory assistance system
US20030125869A1 (en) * 2002-01-02 2003-07-03 International Business Machines Corporation Method and apparatus for creating a geographically limited vocabulary for a speech recognition system
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US8010343B2 (en) * 2005-12-15 2011-08-30 Nuance Communications, Inc. Disambiguation systems and methods for use in generating grammars
US8374862B2 (en) * 2006-08-30 2013-02-12 Research In Motion Limited Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
KR100897553B1 (ko) * 2007-01-04 2009-05-15 삼성전자주식회사 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치
EP2158540A4 (en) * 2007-06-18 2010-10-20 Geographic Services Inc NAME SYSTEM FOR SELECTING GEOGRAPHICAL CHARACTERISTICS
US10241644B2 (en) * 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9117448B2 (en) * 2009-07-27 2015-08-25 Cisco Technology, Inc. Method and system for speech recognition using social networks
JP2011180729A (ja) * 2010-02-26 2011-09-15 Sony Corp 情報処理装置、キーワード登録方法及びプログラム
US8606579B2 (en) 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
US8744995B1 (en) * 2012-07-30 2014-06-03 Google Inc. Alias disambiguation
CN103780771A (zh) * 2012-10-23 2014-05-07 华为技术有限公司 语音业务的处理方法和装置
US10593326B2 (en) * 2013-04-25 2020-03-17 Sensory, Incorporated System, method, and apparatus for location-based context driven speech recognition
JP6346281B2 (ja) 2014-07-04 2018-06-20 クラリオン株式会社 車載対話型システム、及び車載情報機器
US9544412B2 (en) * 2015-03-09 2017-01-10 Ford Global Technologies, Llc Voice profile-based in-vehicle infotainment identity identification
CN105933493A (zh) * 2016-04-20 2016-09-07 乐视控股(北京)有限公司 一种陌生来电处理方法、装置及移动终端
CN105872177A (zh) * 2016-05-31 2016-08-17 努比亚技术有限公司 一种确定联系人与机主关系的称谓的系统及方法
CN106657537A (zh) * 2016-12-07 2017-05-10 努比亚技术有限公司 一种终端语音搜索通话记录装置及方法
CN106603792B (zh) * 2017-01-20 2019-09-06 上海傲硕信息科技有限公司 一种号码查找设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006174111A (ja) 2004-12-16 2006-06-29 Matsushita Electric Ind Co Ltd 電話装置
JP2007259275A (ja) 2006-03-24 2007-10-04 Nec Corp 通信端末におけるニックネーム登録方法及びその装置
JP2012222798A (ja) 2011-04-14 2012-11-12 Nakayo Telecommun Inc 通話音声履歴機能つき電話端末
JP2015079237A (ja) 2013-10-15 2015-04-23 トヨタ自動車株式会社 音声認識方法および音声認識システム
JP2015115844A (ja) 2013-12-13 2015-06-22 キヤノンマーケティングジャパン株式会社 取次支援システム、取次支援方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2019155526A1 (ja) 2021-01-28
US11200905B2 (en) 2021-12-14
US20200365161A1 (en) 2020-11-19
EP3751562A1 (en) 2020-12-16
EP3751562A4 (en) 2020-12-16
WO2019155526A1 (ja) 2019-08-15
CN111868711A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
JP3168033B2 (ja) 音声テレフォン・ダイヤリング
US20060215821A1 (en) Voice nametag audio feedback for dialing a telephone call
US8948724B2 (en) Communication terminal offering privacy protection for hands-free functionality using an analysis process
US8369492B2 (en) Directory dialer name recognition
EP1171870B1 (en) Spoken user interface for speech-enabled devices
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
US8635068B2 (en) System and method for recognizing speech with dialect grammars
US6731737B2 (en) Directory assistance system
KR101664080B1 (ko) 음성 다이얼링 시스템 및 방법
US20060190260A1 (en) Selecting an order of elements for a speech synthesis
KR100742408B1 (ko) 화자 종속 음성 인식 방법 및 음성 인식 시스템
US20060020464A1 (en) Speech recognition application or server using iterative recognition constraints
JP7079419B2 (ja) 情報処理方法及び情報処理装置
JPWO2018088534A1 (ja) 電子機器、電子機器の制御方法及び電子機器の制御プログラム
US7283964B1 (en) Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
JP5376072B1 (ja) 車載情報システムおよび音声認識適応方法
JP2000338991A (ja) 認識率信頼性表示機能付き音声操作電話装置及びその音声認識方法
JPH1168920A (ja) 音声電話番号設定装置
JP4466171B2 (ja) 情報検索装置
JP5143062B2 (ja) 悪意の第三者からの不当呼を判定する方法及び電話自動応対装置
JP2005159395A (ja) 電話受け付け翻訳システム
KR101734244B1 (ko) 음성 다이얼링 시스템 및 방법
JP3140084B2 (ja) 練習機能付き音声ダイヤル装置
JPH0511200U (ja) 音声認識装置
JP4380978B2 (ja) 通信システム、通信端末装置、通信方法

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A5211

Effective date: 20200804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200908

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220504

R151 Written notification of patent or utility model registration

Ref document number: 7079419

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151