JP2024011740A - 情報処理装置および推定方法 - Google Patents

情報処理装置および推定方法 Download PDF

Info

Publication number
JP2024011740A
JP2024011740A JP2022113985A JP2022113985A JP2024011740A JP 2024011740 A JP2024011740 A JP 2024011740A JP 2022113985 A JP2022113985 A JP 2022113985A JP 2022113985 A JP2022113985 A JP 2022113985A JP 2024011740 A JP2024011740 A JP 2024011740A
Authority
JP
Japan
Prior art keywords
voice
information
caller
sender
receiving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022113985A
Other languages
English (en)
Inventor
和真 橋本
Kazuma Hashimoto
壽成 木村
Hisashige Kimura
怜 広見
Rei Hiromi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2022113985A priority Critical patent/JP2024011740A/ja
Publication of JP2024011740A publication Critical patent/JP2024011740A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】迷惑電話による被害を効果的に防止することができる情報処理装置および推定方法を提供する。【解決手段】実施形態の一態様に係る情報処理装置においては、コントローラを備える。コントローラは、電話の発信者の音声情報に基づいて発信者の音声的な特徴を検出し、当該電話の受信関係者の音声情報に基づいて受信関係者の音声的な特徴を検出する。そして、コントローラは、検出した発信者の音声的な特徴と受信関係者の音声的な特徴とを比較し、比較結果に基づいて発信者と受信関係者との間の血縁関係を推定する。【選択図】図1

Description

本発明は、情報処理装置および推定方法に関する。
近年、電話を利用した詐欺などによる被害が多く発生している。具体的には、悪意ある者が電話の受信者の血縁者などになりすまして電話を掛け、受信者に金銭の振り込みを要求する、いわゆるオレオレ詐欺(あるいは特殊詐欺)による被害が多く発生している。また、従来、かかる詐欺の電話(以下「迷惑電話」と記載する)による被害を防止する技術が種々提案されている(例えば、特許文献1参照)。
特開2020-112767号公報
しかしながら、上記した従来技術には、迷惑電話による被害を効果的に防止する、という点で改善の余地があった。
本発明は、上記に鑑みてなされたものであって、迷惑電話による被害を効果的に防止することができる情報処理装置および推定方法を提供することを目的とする。
上記課題を解決し、目的を達成するために、本発明は、情報処理装置において、コントローラを備える。コントローラは、電話の発信者の音声情報に基づいて前記発信者の音声的な特徴を検出し、当該電話の受信関係者の音声情報に基づいて前記受信関係者の音声的な特徴を検出し、検出した前記発信者の音声的な特徴と前記受信関係者の音声的な特徴とを比較し、比較結果に基づいて前記発信者と前記受信関係者との間の血縁関係を推定する。
本発明によれば、迷惑電話による被害を効果的に防止することができる。
図1は、実施形態に係る情報処理装置による情報処理方法の概要を説明するための図である。 図2は、情報処理装置を備えた情報処理システムの構成例を示すブロック図である。 図3は、通知態様情報記憶部を形成するデータテーブル例を示す図である。 図4は、通知部による通知の態様の一例を示す図である。 図5は、情報処理装置が実行する処理手順を示すフローチャートである。 図6は、変形例に係る受信者の音声情報の一例を示す図である。
以下、添付図面を参照して、本願の開示する情報処理装置の実施形態を詳細に説明する。なお、以下に示す実施形態によりこの発明が限定されるものではない。
(実施形態)
<情報処理装置による情報処理方法の概要>
以下では先ず、実施形態に係る情報処理装置による情報処理方法(推定方法)の概要について図1を参照して説明する。図1は、実施形態に係る情報処理装置による情報処理方法の概要を説明するための図である。
図1に示すように、実施形態に係る情報処理装置10は、コンピュータや各種の回路を含み、電話機100に関する種々の処理を実行する。情報処理装置10は、例えば電話機100と回線終端装置200との間に通信可能に接続される。また、情報処理装置10、電話機100および回線終端装置200は、家屋などの建物A内に設置されるが、これに限定されるものではない。
なお、回線終端装置200は、建物Aの外部から引き込まれる電話回線と、電話機100や情報処理装置10とを通信可能に接続するための装置である。また、情報処理装置10、電話機100および回線終端装置200の接続は、有線接続であっても、無線接続であってもよい。また、図1では、情報処理装置10と電話機100とが別体である例を示したが、これに限られず、情報処理装置10と電話機100とが一体となり、電話機100が情報処理装置10の機能を有する構成であってもよい。
また、電話機100はユーザYによって使用される。以下では、ユーザYが電話機100で電話を受信することから、ユーザYを「受信者Y」と記載する場合がある。また、電話端末300を用い、電話機100に対して電話を発信する人Xを以下では「発信者X」と記載する場合がある。
なお、電話機100が共用の場合は、電話機100を使用する受信関係者は複数人存在し、当該受信関係者の一人(電話機100の受信操作を行った受信関係者)が受信者Ynとなる。以下の説明においては、説明を分かりやすくするため、主に受信者Yによる動作として説明を行う。かかる受信者Yは、受信関係者の一例である。
ところで、従来、例えばオレオレ詐欺(あるいは特殊詐欺)などの迷惑電話による被害が多発しており、かかる被害を防止する技術が種々提案されている。従来技術にあっては、例えば親戚などの血縁者の音声情報を予め登録しておき、登録した血縁者の音声情報と電話機100にかかってきた電話の音声情報とが一致しない場合、迷惑電話の可能性があることを通知している。
しかしながら、従来技術では、判定対象とする全血縁者の音声情報を予め登録する必要があるため、例えば音声情報が登録されていない血縁者からの電話について対応することができず、また全血縁者あるいは大半の血縁者の音声情報を予め登録することは困難であることから、結果として迷惑電話の可能性を精度良く判定することができない。そのため、従来技術においては、迷惑電話による被害を効果的に防止することができないおそれがあった。
そこで、本実施形態に係る情報処理装置10にあっては、迷惑電話による被害を効果的に防止することができるようにした。
具体的には、情報処理装置10は、発信者Xの電話端末300から電話機100に対して着信(入電)があると、電話の発信者Xの音声情報を取得する(ステップS1)。かかる音声情報は、発信者Xの音声信号(波形)データである。
なお、情報処理装置10は、発信者Xに対して所定キーワードなどを含む所定内容の発話を要求し、要求に応じて発話された発信者Xの音声を、発信者Xの音声情報として取得するが、これについては後述する。また、情報処理装置10は、例えば受信者Yとの通話中における発信者Xの音声を発信者Xの音声情報として取得してもよい。
次いで、情報処理装置10は、電話の受信者Yの音声情報を取得する(ステップS2)。かかる音声情報は、受信者Yの音声データである。ここでは、情報処理装置10は、予め登録された受信者Yの音声情報を取得するが、これに限られず、例えば発信者Xとの通話中における受信者Yの音声を受信者Yの音声情報として取得してもよい。
次いで、情報処理装置10は、発信者Xの音声情報に基づいて発信者Xの音声的な特徴を検出するとともに、受信者Yの音声情報に基づいて受信者Yの音声的な特徴を検出する(ステップS3)。
なお、上記した音声的な特徴は、例えば発信者Xあるいは受信者Yの声帯振動における特徴(声帯振動情報)や、声道の形状における特徴(声道情報(声道特性))などである。かかる音声的な特徴は、例えば音声情報に対して公知の各種音声解析で用いられる信号処理を施すことにより、音声的な特徴量を要素とする特徴量ベクトルによって表される。特徴量ベクトルは、音声情報(音声信号)に対して、例えばケプストラム、メルケプストラム、LPC(Linear Predictive Coding)分析などを用いてスペクトル分解を行うことによって得られるが、これに限定されるものではない。なお、図1では、理解の便宜のため、音声情報、声帯振動情報および声道情報を、周波数スペクトルで示している。
次いで、情報処理装置10は、検出した発信者Xの音声的な特徴と受信者Yの音声的な特徴とを比較する比較処理を実行する(ステップS4)。そして、情報処理装置10は、ステップS4における比較結果に基づいて、発信者Xと受信者Yとの間の血縁関係を推定する(ステップS5)。
ステップS4,S5の処理について詳説すると、人の声の特徴は、声帯や声道などの身体的特徴が大きく関係している。この声道などの身体的特徴については、血縁関係がある者同士は、遺伝的要素により似ることが知られている。また、血縁関係がある者同士は、食生活などの生活習慣が似ているため、上記した身体的特徴、声帯や声道の動かし方などが似てくることも知られている。そのため、上記した遺伝などの先天的理由や、生活習慣などの後天的理由により、血縁関係がある者同士は、身体的特徴等が似ており、結果として声の特徴も似ている傾向がある。
従って、本実施形態に係る情報処理装置10は、発信者Xの音声的な特徴と受信者Yの音声的な特徴とを比較し、類似しているという比較結果の場合、発信者Xと受信者Yとの間に血縁関係がある確率は比較的高いと推定する。逆に言えば、情報処理装置10は、類似していない(すなわち非類似である)という比較結果の場合、発信者Xと受信者Yとの間に血縁関係がある確率は比較的低いと推定する。
具体的には、発信者Xの音声的な特徴および受信者Yの音声的な特徴にそれぞれ対応する特徴量ベクトル間の類似度が閾値以上である場合に、発信者Xの音声的な特徴と受信者Yの音声的な特徴とは血縁関係があると推定できる程度に類似していることから、情報処理装置10は、発信者Xと受信者Yとの間に血縁関係があると推定する。なお、上記した閾値は、血縁関係がある複数の被験者や、互いに血縁関係がない複数の被験者など多くの被験者による発声音の音声的特徴のサンプリング実験等に基づき、適切な値(血縁関係があるかないかの境界値)に設定される。
一方、特徴量ベクトル間の類似度が閾値未満である場合に、発信者Xの音声的な特徴と受信者Yの音声的な特徴とは血縁関係がないと推定できる程度に非類似であることから、情報処理装置10は、発信者Xと受信者Yとの間に血縁関係はないと推定する。
なお、特徴量ベクトル間の類似度は、例えば特徴量ベクトル間のユークリッド距離やコサイン類似度などによって算出されるが、これに限定されるものではない。また、血縁関係がある確率を、特徴量ベクトル間の類似度の多寡に応じて算出するようにしてもよい。すなわち、情報処理装置10は、血縁関係の有無を推定してユーザ(例えば受信者Y)への報知等に用いるのではなく、血縁関係がある確率を推定してユーザへの報知等に用いるようにしてもよい。
なお、血縁関係がある場合、音声における声帯振動に基づく特徴より、声道の形状に基づく特徴の方が類似しやすいことから、本実施形態では、声道の形状に基づく特徴(言い換えると、声道特性)を、発信者Xあるいは受信者Yの音声的な特徴として用いるものとする。
そして、情報処理装置10は、推定した血縁関係に関する血縁関係情報を受信者Yに通知する(ステップS6)。例えば、情報処理装置10は、発信者Xの音声的な特徴と受信者Yの音声的な特徴とは非類似であり、発信者Xと受信者Yとの間に血縁関係がある確率は比較的低いと推定された場合、受信者Yに対し、当該確率が比較的低い旨や、詐欺などの迷惑電話の可能性がある旨を通知する。
一方、情報処理装置10は、発信者Xの音声的な特徴と受信者Yの音声的な特徴とは類似しており、発信者Xと受信者Yとの間に血縁関係がある確率は比較的高いと推定された場合、受信者Yに対し、当該確率は比較的高い旨を通知する。
このように、本実施形態に係る情報処理装置10は、発信者Xの音声情報に基づいて発信者Xの音声的な特徴を検出するとともに、受信者Yの音声情報に基づいて受信者Yの音声的な特徴を検出する。そして、情報処理装置10は、発信者Xの音声的な特徴と受信者Yの音声的な特徴とを比較し、比較結果に基づいて発信者Xと受信者Yとの間の血縁関係を推定するようにした、言い換えると、迷惑電話を推定するようにした。
これにより、本実施形態に係る情報処理装置10は、受信者Yの血縁者の音声情報を予め登録することなく、発信者Xと受信者Yとの間の血縁関係を精度良く推定することが可能になる。そして、本実施形態にあっては、推定された血縁関係に関する血縁関係情報を受信者に通知することが可能となり、結果として迷惑電話による被害を効果的に防止することができる。
すなわち、本実施形態においては、例えば発信者Xとの間に血縁関係がある確率が比較的低いことを示す血縁関係情報を受信者Yに通知することで、受信者Yに対し、かかってきている電話に対して警戒することや、冷静に対応することを促すことが可能となり、よって迷惑電話による被害を効果的に防止することができる。
<情報処理システムの構成>
次に、実施形態に係る情報処理装置10を備えた情報処理システム1の構成について、図2を用いて説明する。図2は、情報処理装置10を備えた情報処理システム1の構成例を示すブロック図である。なお、図2のブロック図では、本実施形態の特徴を説明するために必要な構成要素のみを機能ブロックで表しており、一般的な構成要素についての記載を省略している。
換言すれば、図2のブロック図に図示される各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、各機能ブロックの分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが可能である。
また、図2以降の説明では、既に説明済みの構成要素については、説明を簡略するか、省略する場合がある。
図2に示すように、情報処理システム1は、上記した電話機100と、解除スイッチ110と、出力部120と、回線終端装置200と、情報処理装置10とを備える。そして、電話機100、解除スイッチ110、出力部120および回線終端装置200は、情報処理装置10の入出力インターフェイス11を介して情報処理装置10(正確には、後述するコントローラ20)に接続される。
電話機100は、上記したように受信者Yが使用する電話機である。解除スイッチ110は、血縁関係情報の通知を解除するスイッチである。詳しくは、受信者Yに対してかかってきた電話が、血縁関係のない人物(例えば友人など)からであり、迷惑電話ではないことが明らかな場合、血縁関係情報の通知は受信者Yにとって煩わしく不要である。解除スイッチ110は、このような血縁関係情報の通知が不要な場合に、受信者Yによって操作されるスイッチである。
具体的には、解除スイッチ110は、受信者Yによって操作可能な位置に設けられる。解除スイッチ110は、情報処理装置10に設けられてもよいし、電話機100に設けられてもよい。そして、解除スイッチ110は、受信者Yによって操作された場合、血縁関係情報の通知の解除を要求する解除要求(言い換えると、通知の停止を要求する停止要求)を情報処理装置10へ出力する。これにより、情報処理装置10は、血縁関係情報の通知を解除(停止)するが、これについては後述する。
なお、上記では、解除要求が解除スイッチ110の操作によって出力される例を示したが、これに限られず、例えば音声認識技術を適用して、解除を要求する内容の発話が受信者Yによってなされた場合に、かかる発話をトリガとして解除要求が出力されるように構成してもよい。
出力部120は、血縁関係情報の通知など、各種の情報を出力する。例えば、出力部120は、液晶表示素子等のディスプレイやスピーカなどで構成され、血縁関係情報などの各種の情報を表示や音声で受信者Yへ出力(報知)する。出力部120は、例えば電話機100または電話機100付近など、受信者Yによって視認、あるいは聴取可能な位置に設けられる。
情報処理装置10は、入出力インターフェイス11と、コントローラ(制御部)20と、記憶部30とを備える。入出力インターフェイス11は、電話機100、解除スイッチ110、出力部120および回線終端装置200に接続され、電話機100等との間で各種情報の送受信を行う。
記憶部30は、例えば、不揮発性メモリやデータフラッシュ、ハードディスクドライブといった記憶デバイスで構成される。かかる記憶部30には、発信者Xの音声情報VXを記憶する発信者音声記憶部31、受信者Yの音声情報VYを記憶する受信者音声記憶部32、正規化モデルNMを記憶する正規化モデル記憶部33、および、通知態様情報を記憶する通知態様情報記憶部34が設けられ、各々対応する情報が記憶される。また、記憶部30には、各種プログラムやプログラムの実行に用いられる各種データなどが記憶される。
発信者音声記憶部31に記憶される発信者Xの音声情報VXは、電話機100に対して電話を発信した発信者Xの音声情報(音声データ)である。本実施形態においては、発信者Xの音声情報VXは、情報処理装置10の要求部21(後述)の要求に応じて発信者Xが発話した音声の音声データであり、この音声情報VXが発信者音声記憶部31に記憶される。なお、発信者Xと受信者Yとの通話中における発信者Xの音声を適宜切り出して、音声情報VXとして発信者音声記憶部31に記憶するようにしてもよい。
受信者音声記憶部32に記憶される受信者Yの音声情報VYは、発信者Xからの電話を電話機100で受信する受信者Yの音声情報(音声データ)である。本実施形態においては、受信者Yの音声情報VYは、上記した要求部21が発信者Xに対して要求する発話内容(所定内容)と同じ、あるいは類似する内容を発話した受信者Yの音声データであり、この音声情報VYが受信者音声記憶部32に記憶される。なお、音声情報VYの受信者音声記憶部32への記憶は、発信者Xからの電話の受信以前に、例えば情報処理装置10の設置時等に予め行われる。なお、発信者Xとの通話中における受信者Yの音声を適宜切り出して、音声情報VYとして受信者音声記憶部32に記憶するようにしてもよい。
正規化モデル記憶部33に記憶される正規化モデルNMは、後述する検出部23によって行われる、発信者Xの音声情報VXを正規化する正規化処理に用いられるモデルである。具体的には、正規化モデルNMは、血縁関係の判定に用いる音声信号のパラメータ以外のパラメータの値(特性)を合わせて、血縁関係の判定に用いる音声信号のパラメータの値(特徴)による比較判定を容易に、また精度良くするための処理を行うためのモデルである。例えば、正規化モデルNMは、血縁関係の判定に用いる血縁関係と相関度が高い声帯や声道などの身体的特徴による音声違いが表れやすい音声パラメータ以外の音声の特徴、例えば発話速度等の音声の特徴の差を低減する処理を行うためのモデルである。例えば、特徴の差を低減すべき音声パラメータ(例えば発話速度)の値を計測し、当該計測したパラメータ値が基準のパラメータ値となる処理(発話速度が基準発話速度になる処理)を施すモデル(正規化モデルNM)を装置開発設計時に実験等により作成して、正規化モデル記憶部33に記憶することになる。
具体的には、例えば上記した声帯や声道などの身体的特徴は、加齢とともに変化し、それに伴って人の声の特徴も変化する。なお、身体的特徴や声の特徴は性別でも変わる。
そこで、本実施形態にあっては、発信者Xにおける血縁関係の判定に用いる特性以外の特性(例えば年齢や性別による特性)と、受信者Yの当該特性とを合わせるように、発信者Xの音声情報を正規化する。なお、受信者Yの音声情報も正規化して(事前に正規化して)、正規化した音声情報を受信者音声記憶部32に記憶しておいてもよい。
正規化モデルNMの説明を続けると、例えば年齢に関しての正規化を行うモデルを形成するには、サンプルとなる人物Zにおける各年齢での音声データを収集し(例えば、ベテランタレントの過去の音源(テレビ録画情報)を収集し)、各音声データに年齢データを付加したデータ(各音源に各音源の収録時期に基づく当該タレントの年齢データを付加したデータ)を教師データとして用いて機械学習を行い、入力音声を基準年齢(例えば30歳)の音声に変換する正規化モデルNMを生成する。なお、正規化モデルNMは、例えばニューラルネットワークモデルであるAI(Artificial Intelligence)モデルであるが、これに限定されるものではない。
そして、本実施形態にあっては、生成した正規化モデルNMのAIに、正規化の対象となる音声データ(ここでは発信者Xの音声情報VX)を入力し、これにより当該AIが出力する音声情報を正規化された発信者Xの音声情報NVX(例えば基準年齢30歳の発信者Xの音声情報)として推定(正規化)する。また、受信者Yの音声情報VYも、発信者Xの音声情報VXと同様に正規化モデルNMのAIにより受信者Yの音声情報NVY(例えば基準年齢30歳の受信者Yの音声情報)として推定(正規化)される。この正規化モデルNMを用いた正規化処理は、コントローラ20の検出部23によって行われるが、これについては、後述する。
なお、上記例では、発信者Xおよび受信者Yの音声情報を基準年齢(30歳)の音声情報に変換(正規化)したが、発信者Xまたは受信者Yの年齢に合わせる音声情報の正規化を行ってもよい。また、上記した正規化処理では、発信者Xおよび受信者Yの年齢の情報が必要であるが、発信者Xの年齢については発信者Xに年齢情報を提供させる誘導案内を行う方法や、話し方からAIを用いて年齢を推定する方法等を適用できる。また、受信者Yの年齢については、受信者Yの入力操作に基づき記憶部30に記憶する方法等を適用できる。
なお、他の正規化処理対象となるものとして性別、体格等が考えられ、これらの情報に基づく正規化を行う場合、性別、体格等の入力を要求して入力データを取得する、あるいは性別等の場合は音声等から推定する必要がある。
このように、本実施形態にあっては、発信者Xの特性を受信者Yの特性に一致させた場合の発信者Xの音声情報NVXを推定する正規化処理、および、受信者Yの特性を発信者Xの特性に一致させた場合の受信者Yの音声情報NVYを推定する正規化処理の少なくともいずれかの正規化処理を実行する。
このような発信者Xや受信者Yの音声情報を正規化する処理を実行することで、例えば発信者Xと受信者Yとの間における年齢や性別の条件を揃えることが可能になる。これにより、本実施形態に係る検出部23は、条件が揃った音声情報を用いることで、年齢や性別の違いを考慮した音声的な特徴を検出することができる。そして、後述する推定部24においては、年齢や性別の違いを考慮した音声的な特徴同士を比較することが可能になり、よって発信者Xと受信者Yとの間の血縁関係を精度良く推定することができる。
通知態様情報記憶部34は、受信者Yに対する通知の態様を示す情報である通知態様情報MEを記憶する。上記したように、本実施形態においては、血縁関係情報など各種の情報が受信者Yに対して通知されるが、この受信者Yへの通知態様は、血縁関係情報の内容に応じて変更される。
ここで、図3を用いて、通知態様情報記憶部34に記憶される通知態様情報MEついて説明する。図3は、通知態様情報記憶部34を形成するデータテーブル34DB例を示す図である。図3に示すように、通知態様情報データテーブル34DBには、「通知態様ID」、「血縁関係情報の内容」および「通知態様」等の項目が含まれる。
「通知態様ID」は、通知態様情報を識別する識別情報であり、この「通知態様ID」毎にデータレコードが形成され、「血縁関係情報の内容」および「通知態様」のデータが記憶される。つまり、「通知態様ID」が所謂主キーであって、この「通知態様ID」のデータに「血縁関係情報の内容」および「通知態様」のデータが関連付けられる。
「血縁関係情報の内容」は、血縁関係情報の内容を示す情報である。ここでは、「血縁関係情報の内容」として、血縁関係である確率が段階的に設定される。
「通知態様」は、受信者Yに対して行う通知の態様を示す情報である。「通知態様」には、通知する内容(メッセージ)、通知するときの出力部120の表示形態(表示内容(テキスト内容、映像)、表示色、フォント種等)や音声出力形態(音声内容(テキスト内容)、音質、音量、再生速度等)などの通知態様のデータが含まれるが、これらは例示であって限定されるものではない。なお、図3に示す例では、便宜上、「通知態様」を「E1」といったように抽象的な記載とするが、「E1」には具体的な情報が記憶されるものとする。以下、他の情報についても抽象的に記載する場合がある。
図3に示す通知態様情報データテーブル34DBでは、具体的には、通知態様ID「D1」で識別される通知態様のデータは、血縁関係情報の内容が「血縁関係確率:20%未満」、通知態様が「E1」であることを示している。通知態様ID「D2」で識別される通知態様のデータは、血縁関係情報の内容が「血縁関係確率:20%以上50%未満」、通知態様が「E2」であることを示している。通知態様ID「D3」で識別される通知態様のデータは、血縁関係情報の内容が「血縁関係確率:50%以上80%未満」、通知態様が「E3」であることを示している。通知態様ID「D4」で識別される通知態様のデータは、血縁関係情報の内容が「血縁関係確率:80%以上」、通知態様が「E4」であることを示している。
そして、通知態様情報データテーブル34DBは、推定された血縁関係を通知する場合に用いられる通知形態を決定するために用いられる。例えば、推定された血縁関係確率が20%未満であった場合は、「血縁関係情報の内容」のデータが「血縁関係確率:20%未満」でこの条件に合致する「通知態様ID」が「D1」のデータテーブルが選択され、そのデータレコードの「通知態様」の「E1」の態様で、血縁関係の通知が行われることになる。
このように、通知態様情報データテーブル34DBは、段階的に設定される血縁関係確率に応じて、互いに異なる通知態様が設定される。従って、例えば、かかってきた電話が詐欺などの迷惑電話である可能性の高さに応じて通知態様を変更するような制御等が可能となる。
図2の説明に戻ると、コントローラ20は、要求部21と、取得部22と、検出部23と、推定部24と、通知部25とを備える。コントローラ20は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、入出力ポートなどを有するコンピュータや各種の回路を含む。
コンピュータのCPUは、例えば、ROMに記憶されたプログラムを読み出して実行することによって、コントローラ20の要求部21、取得部22、検出部23、推定部24および通知部25として機能する。
また、コントローラ20の要求部21、取得部22、検出部23、推定部24および通知部25の少なくともいずれか一部または全部をASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等のハードウェアで構成することもできる。
<要求部21>
コントローラ20の要求部21は、電話機100に対して着信(入電)があると、発信者Xに対して発話を要求する。具体的には、要求部21は、発信者Xに対して所定キーワードなどを含む所定内容の発話を要求するような質問メッセージを発信者Xに通知する。なお、上記した質問メッセージや所定キーワードは、任意に設定可能であるが、例えば発信者Xおよび受信者Y(受信者音声記憶部32に比較用音声が記憶されるため)が発話しやすい内容や、音声の音声的な特徴(特徴量ベクトル)を明確にあるいは精度良く検出できる内容に設定される。
一例として、所定内容(所定キーワード)は、発信者Xが電話をかけた電話番号(すなわち、電話機100の電話番号)など、発信者Xが発話しやすい内容に設定される。この場合、質問メッセージは「発信した電話番号を発声下さい。発声された電話番号の確認後に通話可能となります。」といったものとなる。
また、他の例として、所定キーワードは、母音の種類が比較的多く含まれるキーワードに設定される。すなわち、上記した音声的な特徴(特徴量ベクトル)は、母音において特徴量が明確になりやすい。そのため、所定キーワードに母音の種類が比較的多く含まれるようにすることで、多種の母音による比較が行えるようになり、発信者Xの音声的な特徴(特徴量ベクトル)を明確に検出することが可能になる。
また、要求部21は、所定キーワードを、受信者Yが在住する地方の方言や訛りなど(地方言語)、標準語とは異なる言語とするのも効果的である。つまり、地方言語等はある程度慣れていないと発信者Xはうまく発声することができない。このため、発信者Xが受信者Yと他人の場合、発信者Xとの喋り方と、地方言語等に慣れている受信者Yの喋り方との特徴(詳しくは、上述の音声的な特徴(特徴量ベクトル)とは異なった特徴)の違いが発現しやすくなり、上述の音声的な特徴(特徴量ベクトル)に加えて、喋り方の特徴による要素を血縁関係の判定に加えることができる。
なお、要求部21は、発話を要求する質問メッセージの通知を、人工的な合成音声を用いて行ってもよい。これにより、本実施形態にあっては、質問メッセージの音声が悪意ある発信者Xによって分析されて、本実施形態における血縁関係判定の誤判定を誘発させるため等に悪用されてしまうことを抑制することができる。すなわち、質問メッセージが受信者Y自身によって発話されたものであった場合、悪意ある発信者Xは、かかる質問メッセージの音声を分析して、受信者Yの血縁者になりすました音声を作成し、そして当該音声で迷惑電話をかけるなど、質問メッセージの音声が悪用されるおそれがある。しかし、合成音声を用いて質問メッセージの通知を行うことで、悪意ある発信者Xは受信者Yの音声を入手できず、質問メッセージの音声が悪用されてしまうことを抑制することができる。
また、本実施形態にあっては、合成音声を用いて質問メッセージの通知を行うことで、受信者Yが迷惑電話による被害を防止する装置を使用していることを発信者Xに対して示すことができる。従って、発信者Xが悪意ある者であった場合、発信者Xは、かかる装置の存在に気付いて電話を切るなど、迷惑行為を自制することになるため、迷惑電話による被害を未然に防ぐことが可能になる。
<取得部22>
取得部22は、発信者Xの音声情報VXを取得し、記憶部30の発信者音声記憶部31に記憶する。具体的には、取得部22は、要求部21の要求に応じて発話された発信者Xの音声を電話回線より取得し、取得した音声のデジタル変換データ(情報処理装置10で扱うフォーマットの音声データ)を記憶部30の発信者音声記憶部31に発信者Xの音声情報VXとして記憶させる。
また、発信者Xの通話中における発声音声を用いて血縁関係情報通知機能を動作させる場合、取得部22は、受信者Yと発信者Xとの通話中における発信者Xの音声を適宜取得し、取得した音声のデジタル変換データ(情報処理装置10で扱うフォーマットの音声データ)を記憶部30の発信者音声記憶部31に発信者Xの音声情報VXとして記憶させる。
取得部22は、受信者Yの音声情報VYを取得し、記憶部30の受信者音声記憶部32に記憶する。具体的には、取得部22は、上記した所定キーワードなどを含む発信者Xの音声を取得し、取得した音声のデジタル変換データを記憶部30の受信者音声記憶部32に受信者Yの音声情報VYとして記憶させる。なお、受信者音声記憶部32への受信者Yの音声情報VYの記憶は、血縁関係情報通知機能を使用する前に情報処理装置10の使用者が予め行う必要がある。
また、受信者Yの通話中における発声音声を用いて血縁関係情報通知機能を動作させる場合、取得部22は、受信者Yと発信者Xとの通話中における受信者Yの音声を適宜取得し、取得した音声のデジタル変換データを記憶部30の受信者音声記憶部32に受信者Yの音声情報VYとして記憶させる。
<検出部23-発信者の音声的な特徴の検出>
検出部23は、発信者Xの音声情報VXに基づいて発信者Xの音声的な特徴を検出する。具体的には、検出部23は、記憶部30の発信者音声記憶部31に記憶された発信者Xの音声情報VXを読み出し、音声情報VXに対して信号解析処理を施すことで、発信者Xの音声の特徴量ベクトルを算出する。なお、ここで算出される特徴量ベクトルは、上述したような発信者Xの声道特性に応じた音声的な特徴を含む。
また、検出部23は、通話中における発信者Xの音声情報VXに基づいて発信者Xの音声的な特徴を検出する場合、発信者音声記憶部31に記憶された音声情報VXを処理に適した適当な長さに切り出し、例えば分析に適した単語(例えば、比較対象となる受信者音声記憶部32に記憶された音声情報VYに含まれる単語と共通の単語)が含まれる音声部分を切り出す。そして、検出部23は、当該切り出した音声情報に対して信号解析処理を施すことで、発信者Xの音声の特徴量ベクトルを算出する。なお、血縁関係情報の変化を時系列で追っかけて確認すること等を行う場合には、検出部23は、発信者Xの音声の特徴量ベクトルを、順次新たに算出された特徴量ベクトルに更新して、受信者Yの音声の特徴量ベクトルと比較することになる。
なお、上記した切り出し手法には、例えば音声情報に含まれる文章を、文節や形態素、単語で切り出す手法、50音などの音節で切り出す手法、音素で切り出す手法などがあるが、これらは例示であって限定されるものではない。
また、上記では、検出部23は、発信者Xの音声情報VXをそのまま用いて発信者Xの音声的な特徴を検出するようにしたが、これに限定されるものではない。すなわち、検出部23は、上記した正規化モデルNMを用いて、発信者Xの特性と受信者Yの特性とが近似するように、発信者Xの音声情報を正規化する処理を実行し、正規化した発信者Xの音声情報に基づいて発信者Xの音声的な特徴を検出してもよい。
具体的には、検出部23は、正規化の対象となる発信者Xの音声情報VXに正規化モデルNMによる処理を施し、発信者Xが受信者Yと同じ年齢層に老化したときの音声情報を推定生成する。なお、正規化処理に用いる発信者Xおよび受信者Yの年齢情報は、発信者Xおよび受信者Yの操作入力等に基づき予め登録されてもよいし、発信者Xおよび受信者Yの声質や発話スピードなどの音声情報から推定するなどしてもよい。
また、検出部23は、発信者Xの性別と受信者Yの性別とが異なる場合、上述の年齢の正規化と同様の方法、例えば音声情報の性別変換モデルを使用して、発信者Xが受信者Yと同じ性別である場合の発信者Xの音声情報を推定生成する。なお、発信者Xおよび受信者Yの性別情報は、発信者Xおよび受信者Yの操作入力等に基づき予め登録されてもよいし、発信者Xおよび受信者Yの声質などの音声情報から推定するなどしてもよい。
このように、本実施形態にあっては、発信者Xの音声情報を正規化する処理を実行することで、例えば発信者Xと受信者Yとの間における年齢や性別の条件を揃えることが可能になる。これにより、本実施形態に係る検出部23は、条件が揃った音声情報を用いることで、年齢や性別の違いを考慮した音声的な特徴を検出することができる。そして、後述する推定部24においては、年齢や性別の違いを考慮した音声的な特徴同士を比較することが可能になり、よって発信者Xと受信者Yとの間の血縁関係を精度良く推定することができる。
<検出部23-受信者の音声的な特徴の検出>
検出部23は、受信者Yの音声情報VYに基づいて受信者Yの音声的な特徴を検出する。具体的には、検出部23は、記憶部30の受信者音声記憶部32に記憶された受信者Yの音声情報VY(例えば所定内容を含む音声情報VY)を読み出し、音声情報VYに対して信号解析処理を施すことで、受信者Yの音声の特徴量ベクトルを算出する。なお、ここで算出される特徴量ベクトルは、上述したような受信者Yの声道特性に応じた音声的な特徴を含む。
このように、本実施形態に係る検出部23は、受信者音声記憶部32に登録され、所定内容を含む受信者Yの音声情報VYに基づいて受信者Yの音声的な特徴を検出するようにした。これにより、後述する推定部24においては、受信者Yの音声的な特徴と、同じ所定内容を含む発信者Xの音声情報VXに基づいて検出された発信者Xの音声的な特徴とを比較することが可能になり、よって発信者Xと受信者Yとの間の血縁関係をより精度良く推定することができる。
また、検出部23は、通話中における受信者Yの音声情報VYに基づいて受信者Yの音声的な特徴を検出する場合、受信者音声記憶部32に記憶された音声情報VYを処理に適した適当な長さに切り出し、例えば分析に適した単語(例えば、比較対象となる発信者音声記憶部31に記憶された音声情報VXに含まれる単語と共通の単語)が含まれる音声部分を切り出す。そして、検出部23は、当該切り出した音声情報に対して信号解析処理を施すことで、受信者Yの音声の特徴量ベクトルを算出する。なお、検出部23は、受信者Yの音声の特徴量ベクトルを、順次新たに算出された特徴量ベクトルに更新して、受信者Yの新しい音声情報VYの特徴量ベクトルで、発信者Xの新しい音声情報VXの特徴量ベクトルと比較するようにしてもよい。
なお、検出部23によって算出される特徴量ベクトルは、上記したように、発信者Xあるいは受信者Yの音声情報から推定される声道特性に応じた音声的な特徴を含む。この声道特性(声道の形状における特徴)は、発信者Xと受信者Yとの間に血縁関係がある場合に類似しやすい。従って、本実施形態に係る検出部23は、受信者Yの声道特性を受信者Yの音声的な特徴として検出するとともに、発信者Xの声道特性を発信者Xの音声的な特徴として検出し、両者の声道特性を比較できるようにした。
これにより、後述する推定部24においては、検出した発信者Xの声道特性と発信者Xの声道特性とを比較することが可能になり、よって発信者Xと受信者Yとの間の血縁関係を精度良く推定することができる。
そして、検出部23は、検出した発信者Xの音声的な特徴と受信者Yの音声的な特徴とを示す情報を推定部24へ出力する。
なお、検出部23は、発信者Xの音声的な特徴が検出された後、発信者Xの音声情報を記憶部30から削除する。なお、発信者Xの音声的な特徴が検出された後とは、検出直後である必要はなく、例えば通話が完了した後(具体的には通話終了後、予め定めた所定時間経過後)や、推定部24による音声的な特徴同士の比較処理の後、血縁関係の推定処理の後など、発信者Xの音声的な特徴が検出された後の個人情報保護の観点から適切と考えられる予め定めた所定時間以内の任意のタイミングであればよい。
このように、本実施形態にあっては、発信者Xの音声情報を適切なタイミングで削除するようにしたので、発信者Xの個人情報を適切に保護することができるとともに、不要なデータ(ここでは発信者Xの音声情報)が蓄積されにくくすることができる。
<推定部24>
推定部24は、検出した発信者Xの音声的な特徴と受信者Yの音声的な特徴とを比較し、比較結果に基づいて発信者Xと受信者Yとの間の血縁関係を推定する。
具体的には、推定部24は、発信者Xの音声的な特徴である特徴量ベクトルと、受信者Yの音声的な特徴である特徴量ベクトルとを比較して類似度を算出する。かかる類似度は、上記したように、特徴量ベクトル間の距離(例えばユークリッド距離)によって算出される。この特徴量ベクトル間の類似度は、特徴量ベクトル間の距離が近い(小さい)ほど、大きな値となる。
そして、推定部24は、この特徴量ベクトル間の類似度に基づいて、発信者Xと受信者Yとの間の血縁関係を推定する。例えば、推定部24は、特徴量ベクトル間の類似度を複数段階(閾値)で層別し、どの段階に属するかを判定して、血縁関係がある確率(以下、「血縁関係確率」)を算出する。つまり、血縁関係確率が高くなるほど、発信者Xと受信者Yとは血縁関係があると推定されることになる。例えば、特徴量ベクトル間の距離を5段階に分けて、算出された特徴量ベクトル間の類似度がどの段階に属するか判定する。そして、算出された特徴量ベクトル間の類似度が属すると判定された当該段階に割当設定されている確率を、発信者Xと受信者Yとの間の血縁関係確率とする。
なお、血縁関係の2値判定、つまり血縁関係有無の推定を行う場合は、判定後の処理に応じて適当な閾値を設定し、推定部24は、算出した血縁関係確率が当該閾値以上であれば血縁関係あり、算出した血縁関係確率が当該閾値未満であれば血縁関係なし、と推定し、当該推定結果に基づきその後の処理を行なうことになる。また、この場合、上側閾値と下側閾値を設定し、推定部24は、算出した血縁関係確率がこれら上側閾値と下側閾値の間の値であれば、血縁関係判定不能(不明)として、その後の処理を行なうようにしてもよい。
なお、閾値については、判定後の処理内容の安全性等を考慮して設定される。例えば、判定後の処理が迷惑電話の報知の場合は、受信者Yの注意喚起であるので血縁関係なし(迷惑電話である旨)の推定がなされ易いように閾値は高く(例えば70%)設定するのが望ましく、判定後の処理が警察等への自動通報の場合は、外部機関への通報となるので血縁関係なし(迷惑電話である旨)の推定がなされ難いように閾値は低く(例えば20%)設定するのが望ましい。つまり、判定後の処理内容に応じて複数の閾値が設定され、各閾値に基づく推定結果に基づき対応する処理が行われるようにするのが好ましい。また、これら閾値をユーザが設定できるようにする(記憶部30に記憶された閾値をユーザ操作により変更する)構成も好ましい。
そして、推定部24は、算出した血縁関係確率を、血縁関係に関する血縁関係情報として通知部25へ出力する。
なお、上記した検出部23における特徴量ベクトルの算出の処理内容や、推定部24における特徴量ベクトル間の類似度の算出の処理内容などは、コントローラ20の処理負荷の許容量などに応じて適宜に選択されて実行されてもよい。
処理内容の例としては、以下の3つがある。
<処理1>分析対象の音声情報は、発信者Xと受信者Yとの通話中における音声全般(発声音を指定しないもの)とする。また、分析方法は、音声全般の分析とする、詳しくは周波数特性等の声道特性に関するパラメータ値を抽出して分析するものとする。そして、予め定めた期間長の音声情報を統計分析し、統計分析によって得られた特徴量ベクトル間の類似度を算出する。
<処理2>分析対象の音声情報は、発信者Xと受信者Yとの間で同一の発話内容の音声情報(例えば、予め定めた発話内容を発信者Xと受信者Yとに発声要求して取得した音声情報)とする。また、分析方法は、音声全般の分析とする。そして、予め定めた発話内容の音声情報を統計分析し、統計分析によって得られた特徴量ベクトル間の類似度を算出する。
<処理3>分析対象の音声情報は、発信者Xと受信者Yとの通話中における音声全般(発声音を指定しないもの)とする。また、分析方法は、音声全般を音素で分解し、分解した音素ごとに分析する。具体的には、周波数特性等の声道特性に関するパラメータ値を抽出して分析、同一音素については代表値の分析、あるいは各データを分析し統計処理する。そして、音素ごとに分析結果を統計分析し、統計分析によって得られた特徴量ベクトル間の類似度を算出する。
<処理4>分析対象の音声情報は、発信者Xと受信者Yとの間で同一の発話内容の音声情報(例えば、予め定めた発話内容を発信者Xと受信者Yに発声要求して取得した音声情報)とする。当該発話内容については、分析に相性の良い適当な音素を含むものが好ましい。また、分析方法は、音声全般を音素で分解し、分解した音素ごとに分析する。具体的には、周波数特性等の声道特性に関するパラメータ値を抽出して分析、同一音素については代表値の分析、あるいは各データを分析し統計処理する。そして、音素ごとに分析結果を統計分析し、統計分析によって得られた特徴量ベクトル間の類似度を算出する。
分析対象の音声情報については、所定の音声内容とした方が、分析に相性の良い適当な音素を含む音声内容を設定できる、所定の音声内容に対する処理となるので、分析精度および分析処理負荷(処理速度)の点で有利である。しかし、所定の音声内容の音声情報を取得するのが困難でユーザが面倒となる点で不利である。
また、分析方法については、分解した音素ごとに分析した方が、各比較処理の対象が同一の音声情報となるので、分析精度の面では有利である。しかし、音声分解処理が必要となり、また各音素での分析処理と各分析結果の統計処理が必要になることから、分析処理負荷(処理速度)の点で不利である。
従って、ユーザの特性(所定の音声内容取集に対する情報処理装置10の動作(発声要求や必要な操作)に対する適応特性等)や、ユーザ等の状態(発声要求に対するユーザの対応や焦る等して必要な操作ができない等)、あるいは情報処理装置10(コントローラ20、記憶部30)の処理負荷状態(記憶容量余裕状態)等に応じて、処理1~4を適宜選択して、実行するようにすればよい。例えば、コントローラ20がユーザの入力操作や、別途カメラで撮影したユーザの表情に基づき、あるいはコントローラ20の処理負荷状態や記憶部30の記憶容量余裕状態に基づき、これら処理1~4を適宜選択して実行するようにすればよい。
このように、本実施形態にあっては、特徴量ベクトルの算出処理や特徴量ベクトル間の類似度の算出処理などを、コントローラ20の処理負荷の許容量などに応じて適切に選択して実行することができる。
<通知部25>
通知部25は、推定した血縁関係に関する血縁関係情報など各種の情報を受信者Yに通知する。具体的には、通知部25は、血縁関係確率を含む血縁関係情報、および、通知態様情報記憶部34(図3参照)に記憶される通知態様情報MEなどに基づいて、受信者Yへの通知処理を実行する。
ここで、通知部25によって行われる通知の態様について、図4を参照して説明する。図4は、通知部25による通知の態様の一例を示す図である。
発信者Xと受信者Yとの血縁関係の確率が予め定めた所定閾値(例えば、30%)より低い場合、図4における「血縁関係低確率時表示」に示すように、通知部25は、出力部(ディスプレイ)120の表示欄121に、例えば発信者Xとの血縁関係確率が20%未満である旨や、詐欺などの迷惑電話の可能性がある旨を、テキスト情報で通知する。このとき、通知部25は、受信者Yへの注意喚起を強く行う必要性があることから、迷惑電話の可能性があることを注意喚起するマーク122の表示により強調表示を実行する。さらに通知部25は、表示を強調するように、出力部120の表示形態を注意喚起するような色(例えば赤色)や文字サイズ(大きく)、文字の太さ(太く)、文字フォント(目立つような形)を適宜変更する。さらに通知部25は、出力部120から注意喚起するような音(例えばアラーム音、合成音声)を出力する。
これに対して、発信者Xと受信者Yとの血縁関係の確率が予め定めた所定閾値(例えば、70%)より高い場合、図4における「血縁関係高確率時表示」に示すように、通知部25は、出力部(ディスプレイ)120の表示欄123に、例えば発信者Xとの血縁関係確率が80%以上である旨を、テキスト情報で表示する。なお、この場合に通知部25は、強調表示や音声出力を行わないが、発信者Xと受信者Yとの血縁関係の確率が低い場合の強調報知(表示、音声)の強調性を損なわない範囲で強調報知を行ってもよい。
また、発信者Xと受信者Yとの血縁関係の確率が予め定めた所定閾値の間(例えば、30%~70%)の値(例えば、50%)の場合、図4における「血縁関係不明時表示」に示すように、通知部25は、出力部(ディスプレイ)120の表示欄124に、発信者Xとの血縁関係確率値が50%である旨や、血縁関係の有無の推定が困難である旨(この例では「血縁関係不明(推定困難)」)を、テキスト情報で表示する。なお、この場合に通知部25は、強調表示や音声出力を行わないが、発信者Xと受信者Yとの血縁関係の確率が低い場合の強調報知(表示、音声)の強調性を損なわない範囲で強調報知を行ってもよい。
このように、本実施形態においては、発信者Xの音声情報に基づいて検出された発信者Xの音声的な特徴と、受信者Yの音声情報に基づいて検出された受信者Yの音声的な特徴との比較結果に基づいて発信者Xと受信者Yとの間の血縁関係を推定するようにした。
これにより、本実施形態の情報処理装置10にあっては、受信者Yの全血縁者(言い換えると判定したい対象の血縁者)の音声情報を予め登録することなく、発信者Xと受信者Yとの間の血縁関係を精度良く推定することが可能になる。そして、情報処理装置10は、推定された血縁関係に関する血縁関係情報(ここでは血縁関係確率の情報)を受信者Yに通知することで、迷惑電話による詐欺等の被害を効果的に防止することができる。
すなわち、本実施形態においては、例えば発信者Xとの間における血縁関係確率が比較的低いことを示す血縁関係情報を受信者Yに通知することで(図4参照)、受信者Yに対し、かかってきている電話に対して警戒することや、冷静に対応することを促すことが可能となり、よって迷惑電話による被害を効果的に防止することができる。
また、通知部25は、血縁関係情報の内容(例えば血縁関係確率)に応じて受信者Yへの通知態様を変更する。具体的には、通知部25は、血縁関係確率が低くなるにつれて、詐欺などの迷惑電話の可能性がある旨を通知する、マーク122(図4参照)を表示させるなどして、迷惑電話の可能性があることを注意喚起するようにした。
これにより、受信者Yは、迷惑電話の可能性が高い電話であることを確実に把握し、準備でき、より警戒することや、より冷静に対応することが可能となり、よって迷惑電話による詐欺等の被害をより効果的に防止することができる。
また、通知部25は、解除スイッチ110が受信者Yによって操作され、解除要求が入力されると、上記した血縁関係情報の通知(例えば血縁関係確率の表示や、迷惑電話の可能性があることを注意喚起する通知)を解除(停止)する。
これにより、受信者Yは、かかってきた電話の相手の血縁関係の推定情報を確実に把握、確認した後に、これら通知(報知)を解除することになるので、迷惑電話による詐欺等の被害をより効果的に防止することができる。また、受信者Yは、不要な血縁関係情報の通知(血縁関係情報の確認後の情報)、つまり煩わしい血縁関係情報の通知を容易に解除(停止)することができ、よって情報処理装置10の利便性を向上させることができる。
なお、上記では、通知部25は、血縁関係情報の報知のために設けられた出力部120を介して迷惑電話の可能性があることを注意喚起するようにしたが、これに限定されるものではない。すなわち、図示は省略するが、通知部25は、建物Aにおける照明や家電、受信者Yが所持する携帯電話などの既存設備を介して血縁関係情報の通知や迷惑電話の可能性があることを注意喚起する通知などを行ってもよい。具体的には、通知部25は、発信者Xとの血縁関係確率が比較的低い場合、別途設置した通信機を介して既存設備に制御信号を送信して、建物Aの照明を点滅させる、色を変える、家電や携帯電話から注意喚起するような音(例えばアラーム音)を出力させるなどして、注意喚起する通知を行ってもよい。
<実施形態に係る情報処理装置における情報処理>
次に、情報処理装置10における具体的な処理手順について図5を用いて説明する。図5は、情報処理装置10が実行する処理手順を示すフローチャートである。なお、この処理は、電話機100に対して着信(入電)があると実行される。
また、この処理例は、電話機100に対する着信(入電)時に、発信者Xの所定内容の発話を行わせ、当該発信者Xの発話の音声情報VXと、受信者音声記憶部32に予め登録されている受信者Yの音声情報VYとに基づき、発信者Xと受信者Yとの間の血縁関係を推定する処理である。
なお、受信者Yの音声情報VYは、情報処理装置10による受信者音声記憶動作(例えば、情報処理装置10設置時に受信者Yに音声登録案内を行い、受信者Yに所定発話内容を発声させ、当該音声の情報を記憶する動作等)により受信者音声記憶部32に予め登録されているものとする。
図5に示すように、情報処理装置10のコントローラ20は、電話機100に対して着信(入電)があると、発信者Xに対して所定キーワードなどを含む所定内容の発話を要求する(ステップS10)。なお、図示は省略するが、この発話要求に対して発信者Xが応じない(予め定めた所定期間内に要求通りの発話をしない)場合、コントローラ20は、通話不可の旨のメッセージ(例えば、「発話要求に対する応答が無いため切断します」と言ったメッセージ)を送信(音声合成による自動発声)の後、電話を切断し処理を終える。この場合、コントローラ20は、受信者Yに対して、発話要求に対する応答が無く電話を切断した旨を出力部120により報知(表示・音声)するのが望ましい。
次いで、コントローラ20は、要求した所定内容を含む発信者Xの音声情報VXを取得し、取得した音声情報VXに基づいて発信者Xの音声的な特徴(特徴量ベクトル)を検出する(ステップS11)。
次いで、コントローラ20は、予め登録された受信者Yの音声情報VYを記憶部30より取得し、取得した音声情報VYに基づいて受信者Yの音声的な特徴(特徴量ベクトル)を検出する(ステップS12)。
なお、受信者Yの音声的な特徴(特徴量ベクトル)を検出する処理は、受信者Yの音声情報登録時等に予め実行して記憶部30に記憶しておくことも可能で、その場合、コントローラ20はステップS12で、受信者Yの音声的な特徴の情報を記憶部30から読み出すことになる。
次いで、コントローラ20は、検出した発信者Xの音声的な特徴と受信者Yの音声的な特徴とを比較する(ステップS13)。具体的には、コントローラ20は、発信者Xの音声的な特徴および受信者Yの音声的な特徴にそれぞれ対応する特徴量ベクトル間の類似度を算出する。
次いで、コントローラ20は、ステップS13での比較結果、つまり特徴量ベクトル間の類似度に基づいて、発信者Xと受信者Yとの間の血縁関係を推定する(ステップS14)。
次いで、コントローラ20は、推定した血縁関係に関する血縁関係情報(例えば血縁関係確率など)を受信者Yに通知し(ステップS15)、処理を終える。
なお、発信者Xと受信者Yとの通常通話における音声情報に基づき、発信者Xと受信者Yとの間の血縁関係を通話終了まで逐次推定する処理の場合、図5の処理おいて、ステップS10の処理が削除され、ステップS15の後に次のステップS16が追加された処理となる。
コントローラ20は、ステップS15の処理の後、通話が終了したか否かを判定する(ステップS16)。コントローラ20は、通話が終了していないと判定された場合(ステップS16,No)、ステップS11に戻る。そして、コントローラ20は、通話中における発信者Xおよび受信者Yの音声情報を用いて音声的な特徴の検出や、血縁関係の推定などを通話終了まで逐次行う。
一方、コントローラ20は、通話が終了したと判定された場合(ステップS16,Yes)、処理を終了する。
なお、ステップS16の判定処理を、通話開始から予め定めた所定期間を経過したか否かとする、あるいはユーザ(受信者Y)による推定処理終了・中止操作の有無とする(Yesの場合処理終了、Noの場合ステップS11に戻る)等により、血縁関係の推定期間を規制することが可能となる。
上述してきたように、実施形態に係る情報処理装置10は、コントローラ20を備える。コントローラ20は、電話の発信者Xの音声情報に基づいて発信者Xの音声的な特徴を検出し、当該電話の受信者Y(受信関係者の一例)の音声情報に基づいて受信者Yの音声的な特徴を検出する。そして、コントローラ20は、検出した発信者Xの音声的な特徴と受信者Yの音声的な特徴とを比較し、比較結果に基づいて発信者Xと受信者Yとの間の血縁関係を推定する。これにより、迷惑電話による被害を効果的に防止することができる。
また、情報処理装置10と電話機100とが別体であるようにしたので、既存の電話機100に情報処理装置10を後付けすることが可能となる。
<変形例>
次いで、上記した実施形態に係る情報処理装置10の変形例について説明する。図6は、情報処理装置10の変形例を説明するための図であり、変形例に係る受信者Yの音声情報VYの一例を示す図である。なお、以下においては、実施形態と共通の構成については、同一の符号を付して説明を省略する。
上記した電話機100は、家族や同居する人などにより共用で利用されることがある。また、共用の電話機100を利用するユーザF1とユーザF2とは、生物学的な血縁関係にない場合がある。一例としては、ユーザF2がユーザF1の配偶者である場合、ユーザF1とユーザF2とは、生物学的な血縁関係にない。このような場合において、例えばユーザF1が受信者Yとして、ユーザF2の血縁者(発信者X)からの電話をとると、受信者Yと発信者Xとの間には血縁関係がないため、情報処理装置10は、迷惑電話の可能性があることを注意喚起する通知を行うなど、不要な通知がなされることとなる。
そこで、変形例に係る受信者の音声情報VYには、図6に示すように、共用の電話機100を利用する複数の各受信者Ynの音声情報が含まれるようにした。なお、複数の各受信者Ynは、いずれも受信関係者である。
詳説すると、電話機100に対する受信者Ynの音声情報VYには、「受信者ID」および「受信者の音声情報」等の項目が含まれ、各「受信者の音声情報」のデータは「受信者ID」のデータに関連付けられている。「受信者ID」は、共用の電話機100を利用する受信者Ynを識別する識別情報である。「受信者の音声情報」は、受信者Yの音声情報(音声データ)であり、これらデータは情報処理装置10の設置時等、迷惑電話の推定・通知機能を使用する前に予め登録される。
図6に示す例では、例えば受信者ID「G1」で識別される受信者YG1のデータは、受信者YG1の音声情報が「H1」であることを示している。
そして、情報処理装置10のコントローラ20(図2参照)は、電話がかかってきた場合、発信者Xの音声情報VXと、電話機100に対する各受信者Ynの音声情報VYとを比較して、発信者Xが電話機100に対する各受信者Ynの誰かと血縁関係があるかを推定する。具体的には、コントローラ20は、比較結果に基づいて各受信者Yn(複数の受信関係者)の少なくとも一人が発信者Xとの間に血縁関係があると推定できる場合、発信者Xは血縁関係があると推定する。
そして、コントローラ20は、当該結果に応じて血縁関係に基づく血縁関係情報、迷惑電話の警戒情報等を報知する。なお、血縁関係がある推定された場合、この報知する情報には、発信者Xが電話機100に対する各受信者Ynのうち誰と血縁関係があると推定されたかの情報が含まれるのが好ましい。
このように、変形例においては、受信者の音声情報VYに、共用の電話機100を利用する複数の受信者Ynの音声情報が含まれるようにすることで、例えば共用の電話機100を利用する他の受信者Ynの血縁者からの電話に対して血縁者でない旨の報知、迷惑電話と推定される旨の報知等の、不要な通知がなされることを抑制することができる。
すなわち、例えば上記したユーザF1が受信者Yとして、ユーザF2の血縁者(発信者X)からの電話をとる場合、通話中の受信者Yと発信者Xとの間には血縁関係がないが、情報処理装置10(コントローラ20)は、登録されている受信者YF2(ここではユーザF2)と発信者Xとの音声情報を比較する処理にて、共用の電話機100を利用する複数の受信者Ynと発信者Xとの間には血縁関係のある確率が高いと算出することとなる。これにより、情報処理装置10(コントローラ20)は、発信者Xは不正な発信者ではないと推定し、迷惑電話の可能性があることを注意喚起する通知は行わず、その結果、不要な通知がなされることが抑制される。
さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。
10 情報処理装置
20 コントローラ

Claims (9)

  1. コントローラを備えた情報処理装置であって、
    前記コントローラは、
    電話の発信者の音声情報に基づいて前記発信者の音声的な特徴を検出し、
    当該電話の受信関係者の音声情報に基づいて前記受信関係者の音声的な特徴を検出し、
    検出した前記発信者の音声的な特徴と前記受信関係者の音声的な特徴とを比較し、比較結果に基づいて前記発信者と前記受信関係者との間の血縁関係を推定する、
    情報処理装置。
  2. 前記コントローラは、
    前記発信者の特性を前記受信関係者の特性に一致させた場合の前記発信者の音声情報を推定する正規化処理、および、前記受信関係者の特性を前記発信者の特性に一致させた場合の前記受信関係者の音声情報を推定する正規化処理の少なくともいずれかの正規化処理を実行し、当該正規化処理後の音声情報に基づいて前記発信者と前記受信関係者との間の血縁関係を推定する、
    請求項1に記載の情報処理装置。
  3. 前記コントローラは、
    前記発信者に対して予め定めた所定内容の発話を要求し、
    要求に応じて発話された前記発信者による前記所定内容の音声情報に基づいて前記発信者の音声的な特徴を検出する、
    請求項1に記載の情報処理装置。
  4. 前記受信関係者による前記所定内容の音声情報は予め記憶部に登録され、
    前記コントローラは、
    前記記憶部に登録された前記受信関係者の音声情報に基づいて前記受信関係者の音声的な特徴を検出する、
    請求項3に記載の情報処理装置。
  5. 複数の前記受信関係者の音声情報が登録された記憶部を有し、
    前記コントローラは、
    登録された複数の前記受信関係者における各受信関係者の音声情報に基づいて前記各受信関係者の音声的な特徴を検出し、
    検出した前記発信者の音声的な特徴と前記各受信関係者の音声的な特徴とを比較し、
    比較結果に基づいて複数の前記受信関係者の少なくとも一人が前記発信者との間に血縁関係があると推定できる場合、前記発信者は血縁関係があると推定する、
    請求項1に記載の情報処理装置。
  6. 前記受信関係者は、電話の受信者である、
    請求項1~3のいずれか一つに記載の情報処理装置。
  7. 前記コントローラは、
    前記発信者および前記受信関係者の音声情報から推定される声道特性を前記発信者および前記受信関係者の音声的な特徴として検出する、
    請求項1~3のいずれか一つに記載の情報処理装置。
  8. 前記コントローラは、
    推定した前記血縁関係に関する血縁関係情報を前記受信関係者に通知し、
    前記血縁関係情報の内容に応じて前記受信関係者への通知態様を変更する、
    請求項1~3のいずれか一つに記載の情報処理装置。
  9. 電話の発信者の音声情報に基づいて前記発信者の音声的な特徴を検出し、
    当該電話の受信関係者の音声情報に基づいて前記受信関係者の音声的な特徴を検出し、
    検出した前記発信者の音声的な特徴と前記受信関係者の音声的な特徴とを比較し、比較結果に基づいて迷惑電話を推定する、
    推定方法。
JP2022113985A 2022-07-15 2022-07-15 情報処理装置および推定方法 Pending JP2024011740A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022113985A JP2024011740A (ja) 2022-07-15 2022-07-15 情報処理装置および推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022113985A JP2024011740A (ja) 2022-07-15 2022-07-15 情報処理装置および推定方法

Publications (1)

Publication Number Publication Date
JP2024011740A true JP2024011740A (ja) 2024-01-25

Family

ID=89621804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022113985A Pending JP2024011740A (ja) 2022-07-15 2022-07-15 情報処理装置および推定方法

Country Status (1)

Country Link
JP (1) JP2024011740A (ja)

Similar Documents

Publication Publication Date Title
JP5834449B2 (ja) 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US20170084274A1 (en) Dialog management apparatus and method
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US9047866B2 (en) System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization using one vowel phoneme type
CN109192202B (zh) 语音安全识别方法、装置、计算机设备及存储介质
KR20190002891A (ko) 화행 정보를 이용한 대화 처리 방법 및 그 장치
JP6654611B2 (ja) 成長型対話装置
US20100004922A1 (en) Method and system for automatically generating reminders in response to detecting key terms within a communication
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
JP4246703B2 (ja) 自動音声認識の方法
US11862170B2 (en) Sensitive data control
US20220084543A1 (en) Cognitive Assistant for Real-Time Emotion Detection from Human Speech
JP6797338B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2019101385A (ja) 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2020095210A (ja) 議事録出力装置および議事録出力装置の制御プログラム
JP2023550135A (ja) パーソナライズされた否定語に基づいてホットワード認識を適応させること
CN111768789A (zh) 电子设备及其语音发出者身份确定方法、装置和介质
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
CN111784971B (zh) 报警处理方法和系统、计算机可读存储介质和电子设备
JP2004325635A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2014145932A (ja) 話者認識装置、話者認識方法及び話者認識プログラム
JP2024011740A (ja) 情報処理装置および推定方法
JP5296455B2 (ja) 話者識別装置、及びコンピュータプログラム
JP6718623B2 (ja) 猫型会話ロボット
JP2006230446A (ja) 健康状態推定装置