JP2023094428A

JP2023094428A - 判定方法，情報処理装置および判定プログラム

Info

Publication number: JP2023094428A
Application number: JP2021209901A
Authority: JP
Inventors: 明燮鄭; Mingbian Zheng; 潤高橋; Jun Takahashi; 敏幸吉武; Toshiyuki Yoshitake; 健太郎辻; Kentaro Tsuji; 雅芳清水; Masayoshi Shimizu
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2023-07-05
Also published as: US20230208966A1

Abstract

【課題】遠隔通話におけるなりすましの検知精度を向上させることができるようにする。
【解決手段】第１の遠隔通話において生成された映像又は音声のいずれかを含む第１のセンシングデータと第２の遠隔通話において生成された映像又は音声のいずれかを含む第２のセンシングデータとを受け付ける入力部１０１と、第２のセンシングデータに基づき、第１のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、第１のセンシングデータにおいて特定の状況が発生した際に抽出された特徴情報を記憶する記憶部を参照して、記憶部における特定の状況に対する特徴情報と、第２のセンシングデータから検知された特定の状況に対する特徴情報との一致状態に基づき、なりすましに関する判定を行なう判定部１１３とを備える。
【選択図】図２

Description

本発明は、判定方法，情報処理装置および判定プログラムに関する。

近年、ＡＩ（Artificial Intelligence）を使って生成・編集した画像や音声を使った合成メディア（Synthetic Media）が開発され、様々な分野での活用が期待されている。その反面、不正な目的で操作された合成メディアが社会問題となっている。

不正な目的で操作された合成メディアをディープフェイクといってもよい。また、ディープフェイクにより生成されたフェイク画像をディープフェイク画像といってもよく、ディープフェイクにより生成されたフェイク映像をディープフェイク映像といってもよい。

ＡＩの技術進化と計算機資源の充実により、実際には存在しないディープフェイク画像・ディープフェイク映像の生成が技術的に可能となり、ディープフェイク画像・ディープフェイク映像による詐欺被害等が発生し社会問題となっている。

そして、ディープフェイク画像やディープフェイク映像がなりすましに悪用されることで、被害はさらに大きくなるおそれがある。

合成メディアによるディープフェイク映像を検知するために、例えば、インターネットを介した遠隔会話時に、遠隔対話から過去と現時点の挙動を比較して、挙動が一致しない場合は参加者本人ではないと警告する手法が知られている。

特許第６９０１１９０号明細書特開２００８－１５８００号公報

しかしながら、このような従来のディープフェイクの判定手法においては、現時点で出るべき過去の挙動が出ない場合には挙動の比較できず、判定を行なうことができない。

例えば、過去に楽しい会話で笑うとき手で口を覆い隠す挙動があったが、現時点は悲しい内容の会話を行なっており、過去において検出された挙動が出ていない場合には、判定を行なうことができない。

また、過去のデータから挙動が模倣されることで、現時点の挙動と類似する場合は、ディープフェイクの判定が困難である。

１つの側面では、本発明は、遠隔通話におけるなりすましの検知精度を向上させることができるようにする。

このため、この判定方法は、第１のアカウントと第２のアカウントとの間で行なわれた第１の遠隔通話において生成された映像又は音声のいずれかを含む第１のセンシングデータと、前記第１のアカウントと前記第２のアカウントとの間で行なわれた第２の遠隔通話において生成された映像又は音声のいずれかを含む第２のセンシングデータとを受け付け、前記第２のセンシングデータにおいて前記第１のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、前記第１のセンシングデータにおいて前記第１のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を前記特定の状況に対応付けて記憶する記憶部を参照して、前記記憶部における前記特定の状況に対する前記特徴情報と、前記第２のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう。

一実施形態によれば、遠隔通話におけるなりすましの検知精度を向上させることができる。

第１実施形態の一例としてのコンピュータシステムのハードウェア構成を模式的に示す図である。第１実施形態の一例としてのコンピュータシステムの機能構成を例示する図である。第１実施形態の一例としてのコンピュータシステムにおけるデータベース群に含まれる複数のデータベースを例示する図である。第１実施形態の一例としてのコンピュータシステムにおける特定状況データベース１０５１を例示する図である。第１実施形態の一例としてのコンピュータシステムにおける特徴量抽出データベースを例示する図である。第１実施形態の一例としてのコンピュータシステムにおける、特定状況挙動を例示する図である。第１実施形態の一例としてのコンピュータシステムにおける特定状況数データベースを例示する図である。第１実施形態の一例としてのコンピュータシステムにおける特定状況挙動データベースを例示する図である。第１実施形態の一例としてのコンピュータシステムにおける提示文データベースを例示する図である。第１実施形態の一例としてのコンピュータシステムにおける挙動比較部による処理を説明するための図である。第１実施形態の一例としてのコンピュータシステムにおけるなりすまし検知結果の出力イメージを例示する図である。第１実施形態の一例としてのコンピュータシステムにおける第１特定状況判定部の処理を説明するためのフローチャートである。第１実施形態の一例としてのコンピュータシステムにおける第１挙動抽出部の処理を説明するためのフローチャートである。第１実施形態の一例としてのコンピュータシステムにおける特定状況挙動格納処理部の処理を説明するためのフローチャートである。第１実施形態の一例としてのコンピュータシステムにおける第２特定状況判定部の処理を説明するためのフローチャートである。第１実施形態の一例としてのコンピュータシステムにおける第２挙動抽出部の処理を説明するためのフローチャートである。第１実施形態の一例としてのコンピュータシステムにおける挙動比較部の処理を説明するためのフローチャートである。第１実施形態の一例としてのコンピュータシステムにおける評価部の処理を説明するためのフローチャートである。第１実施形態の一例としてのコンピュータシステムにおけるなりすまし検知処理を用いたシミュレーションを例示する図である。第２実施形態の一例としてのコンピュータシステムの機能構成を例示する図である。第２実施形態の一例としてのコンピュータシステムにおける特定状況頻度データベースを例示する図である。第２実施形態の一例としてのコンピュータシステムにおける特定状況選別部の処理を説明するためのフローチャートである。第２実施形態の一例としてのコンピュータシステムにおける第２特定状況判定部の処理を説明するためのフローチャートである。第２実施形態の一例としてのコンピュータシステムにおけるなりすまし検知処理を用いたシミュレーションを例示する図である。第３実施形態の一例としてのコンピュータシステムの機能構成を例示する図である。第３実施形態の一例としてのコンピュータシステムにおける特定状況作成質問情報を例示する図である。第３実施形態の一例としてのコンピュータシステムにおける第２特定状況判定部の処理を説明するためのフローチャートである。第４実施形態の一例としてのコンピュータシステムの機能構成を例示する図である。第４実施形態の一例としてのコンピュータシステムにおける特定状況誘導情報を例示する図である。第４実施形態の一例としてのコンピュータシステムにおける第２特定状況判定部の処理を説明するためのフローチャートである。

以下、図面を参照して本判定方法，情報処理装置および判定プログラムにかかる実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形（各実施形態を組み合わせる等）して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

（Ｉ）第１実施形態の説明
（Ａ）構成
図１は第１実施形態の一例としてのコンピュータシステム１のハードウェア構成を模式的に示す図、図２はその機能構成を例示する図である。

図１に例示するコンピュータシステム１は、情報処理装置1０と対話者端末２とをそなえる。これらの情報処理装置１０と対話者端末２とはネットワーク１８を介して相互に通信可能に接続されている。

コンピュータシステム１は、情報処理装置１０の利用者と対話者端末２の利用者との間でネットワーク１８を介して遠隔会話を実現する。

遠隔通話は、遠隔通話に参加可能に設定された複数のアカウントのうち、２つ以上のアカウント間で行なわれる。

本コンピュータシステム１においては、情報処理装置１０において、対話者端末２から送信される映像が、対話者端末２の利用者本人のものであるか、攻撃者が合成メディアにより生成したフェイク映像（ディープフェイク映像）であるかを検知するなりすまし検知処理を実現する。

以下、対話者端末２の利用者本人を発信者という場合があり、情報処理装置１０の利用者を受信者という場合がある。攻撃者はこの発信者になりすまして、発信者のアカウント（第１のアカウント）を用いて受信者と遠隔会話を行なう。攻撃者がディープフェイク映像を用いたなりすましを行なう場合には、発信者は実際には攻撃者である。発信者もしくは発信者になりすました攻撃者は第１のアカウントで遠隔通話に参加する。また、受信者は第２のアカウントで遠隔通話に参加する。

本コンピュータシステム１においては、一般的に、どんなとき取った挙動かわかっている状況（以降、特定状況という）で取った挙動は、同様の状況において、何の制約もない場合に比べて、その挙動を取る可能性が高い。そして、過去に取った挙動の特定状況を再現することで、過去に取った挙動をとらせることができるということを前提としてなりすまし検知を実現する。

また、攻撃者は、発信者のみの過去の遠隔会話のデータ（映像データ）から発信者の挙動を模倣するものとする。そのため、攻撃者は発信者が特定の挙動を取った特定状況が分からない。

特定状況において受信者が受け取る挙動パターンは、通常、なりすまし無の場合（すなわち発信者による挙動）となりすまし有の場合（すなわち攻撃者による挙動）とで異なるものとする。

受信者は、発信者との間で行なわれた遠隔会話の履歴データ（過去映像）から、発信者が過去の特定状況で取った挙動を知ることができるものとする。

攻撃者が参照可能な過去映像は発信者が映った映像のみであり、受信者が参照可能な過去映像は発信者が映った映像と受信者が映った映像との両方であるものとする。

情報処理装置１０は、図１に示すように、プロセッサ１１，メモリ１２，記憶装置１３，カメラ１４，キーボード１５，マウス１６，ディスプレイ１７およびデータベース群１０５を備える。

プロセッサ（制御部）１１は、情報処理装置１０全体を制御するプロセッサである。プロセッサ1１は、マルチプロセッサであってもよい。プロセッサ1１は、例えば、ＣＰＵ（Central Processing Unit），ＭＰＵ（Micro Processing Unit），ＤＳＰ（Digital Signal Processor），ＡＳＩＣ（Application Specific Integrated Circuit），ＰＬＤ（Programmable Logic Device），ＦＰＧＡ（Field Programmable Gate Array）のいずれか一つであってもよい。また、ＣＰＵに代えて、ＣＰＵ，ＭＰＵ，ＤＳＰ，ＡＳＩＣ，ＰＬＤ，ＦＰＧＡのうちの２種類以上の要素の組み合わせであってもよい。プロセッサ1１は、ＧＰＵ（Graphics Processing Unit）であってもよい。

そして、本コンピュータシステム１においては、プロセッサ１１が判定プログラムを実行することで、図２を用いて後述する、第１入力部１０１，第１特定状況判定部１０２，第１挙動抽出部１０３，特定状況挙動格納処理部１０４，第２入力部１０６，第２特定状況判定部１０７，第２挙動抽出部１１１，挙動比較部１１２および評価部１１３としての機能を実現する。

なお、これらの第１入力部１０１，第１特定状況判定部１０２，第１挙動抽出部１０３，特定状況挙動格納処理部１０４，第２入力部１０６，第２特定状況判定部１０７，第２挙動抽出部１１１，挙動比較部１１２および評価部１１３としての機能を実現するためのプログラム（判定プログラム）は、例えばフレキシブルディスク，ＣＤ（ＣＤ－ＲＯＭ，ＣＤ－Ｒ，ＣＤ－ＲＷ等），ＤＶＤ（ＤＶＤ－ＲＯＭ，ＤＶＤ－ＲＡＭ，ＤＶＤ－Ｒ，ＤＶＤ＋Ｒ，ＤＶＤ－ＲＷ，ＤＶＤ＋ＲＷ，ＨＤＤＶＤ等），ブルーレイディスク，磁気ディスク，光ディスク，光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、情報処理装置１０はその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。また、そのプログラムを、例えば磁気ディスク，光ディスク，光磁気ディスク等の記憶装置（記録媒体）に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。

第１入力部１０１，第１特定状況判定部１０２，第１挙動抽出部１０３，特定状況挙動格納処理部１０４，第２入力部１０６，第２特定状況判定部１０７，第２挙動抽出部１１１，挙動比較部１１２および評価部１１３としての機能を実現する際には、内部記憶装置（メモリ１２）に格納されたプログラムがコンピュータのマイクロプロセッサ（プロセッサ１１）によって実行される。このとき、記録媒体に記録されたプログラムをコンピュータが読み取って実行するようにしてもよい。

メモリ１２はＲＯＭ（Read Only Memory）およびＲＡＭ（Random Access Memory）を含む記憶メモリである。メモリ１２のＲＯＭには、情報処理装置1０を動作させるためのソフトウェアプログラムやこのプログラム用のデータ類が書き込まれている。メモリ１２上のソフトウェアプログラムは、プロセッサ１１に適宜読み込まれて実行される。また、メモリ１２のＲＡＭは、一次記憶メモリあるいはワーキングメモリとして利用される。

記憶装置１３は、ハードディスクドライブ（Hard Disk Drive：ＨＤＤ）、ＳＳＤ（Solid State Drive），ストレージクラスメモリ（Storage Class Memory：ＳＣＭ）や、等の記憶装置であって、ソフトウェアプログラムや種々のデータを格納するものである。

図１に示す例においては、記憶装置１３に判定プログラムが格納され、この判定プログラムが、メモリ１２のＲＡＭに展開された後、プロセッサ１１によって実行される。また、記憶装置１３には、データベース群１０５を構成する情報を記憶させてもよい。データベース群１０５は複数のデータベースを含む。

図３は第１実施形態の一例としてのコンピュータシステム１におけるデータベース群１０５に含まれる複数のデータベースを例示する図である。

この図３に示す例においては、データベース群１０５は、特定状況データベース１０５１，特定状況挙動データベース１０５２，特定状況数データベース１０５３，特徴量抽出データベース１０５４および提示文データベース１０５５を含む。これらの特定状況データベース１０５１，特定状況挙動データベース１０５２，特定状況数データベース１０５３，特徴量抽出データベース１０５４および提示文データベース１０５５の詳細については後述する。また、データベースをＤＢと表してもよい。ＤＢはData Baseの略語である。

メモリ１２や記憶装置１３には、第１入力部１０１，第１特定状況判定部１０２，第１挙動抽出部１０３，特定状況挙動格納処理部１０４，第２入力部１０６，第２特定状況判定部１０７，第２挙動抽出部１１１，挙動比較部１１２および評価部１１３がそれぞれの処理を実行する過程で生じたデータ等を記憶してもよい。

ディスプレイ１７は種々の情報を表示する表示装置であり、例えば、液晶ディスプレイ装置やＣＲＴ（Cathode Ray Tube）ディスプレイ装置である。本コンピュータシステム１においては、このディスプレイ１７に、対話者端末２から送信される発信者の映像が表示される。本第１実施形態においては、映像が動画像（ビデオ画像）である例について示す。映像は音声を含む。

また、ディスプレイ１７には評価部１１３が出力するメッセージ（提示文）等が表示される。

マウス１６およびキーボード１５は受信者が種々の入力を行なうために操作する入力装置である。

情報処理装置１０は、図２に示すように、第１入力部１０１，第１特定状況判定部１０２，第１挙動抽出部１０３，特定状況挙動格納処理部１０４，第２入力部１０６，第２特定状況判定部１０７，第２挙動抽出部１１１，挙動比較部１１２および評価部１１３としての機能を備える。

これらのうち、第１入力部１０１，第１特定状況判定部１０２，第１挙動抽出部１０３および特定状況挙動格納処理部１０４は、発信者と受信者との間で過去に行なわれた遠隔会話の映像（映像データ）を用いた事前処理を行なう。以下、映像データを単に映像という場合がある。映像データには音声データが含まれる。また、音声データを単に音声という場合がある。

また、第２入力部１０６，第２特定状況判定部１０７，第２挙動抽出部１１１，挙動比較部１１２および評価部１１３は、発信者と受信者との間で進行中の遠隔会話（遠隔会話中）の映像を用いたリアルタイム処理を行なう。

第１入力部１０１は、発信者と受信者との間で行なわれた過去の遠隔会話の映像を取得する。この映像には、発信者の映像と受信者の映像とが含まれる。第１入力部１０１は、例えば、記憶装置１３に記憶された過去の遠隔会話の映像データを読み出すことで取得してよい。

過去に行なわれた遠隔会議の映像データは、発信者（第１のアカウント）と受信者（第２のアカウント）との間で行なわれた第１の遠隔通話において生成された映像又は音声のいずれかを含む第１のセンシングデータに相当する。

第１入力部１０１は、第１のセンシングデータ（過去の映像データ）を受け付ける入力部に相当する。

第１特定状況判定部１０２は、第１入力部１０１が取得した過去の遠隔会話の映像に基づいて、映像中における発信者と受信者との状況（特定状況）を判定する。すなわち、第１特定状況判定部１０２は、過去の特定状況を判定する。第１特定状況判定部１０２は、特に映像中の発信者について特定状況の判定を行なう。

例えば、第１特定状況判定部１０２は、音声認識処理により、発信者の音声から特定のフレーズを検出する。音声認識処理は、例えば、発信者の音声に対して特徴量抽出処理を行ない、抽出した特徴量に基づいて発信者の音声からフレーズを検出する。なお、これらの発信者の音声からフレーズを検出する処理には既知の種々の手法を用いることができ、その説明は省略する。

第１特定状況判定部１０２が検出する特定のフレーズとは、遠隔会話中において、当該フレーズを発した発話者の状況を表すフレーズである。本第１実施形態においては、発信者が発話者に相当する。

例えば、フレーズ「嬉しいです」は、発話者が嬉しい状況（特定状況）にあることを表す。また、フレーズ「困っています」は、発話者が困っている状況を表し、フレーズ「考えている」は、発話者が緊張している状況を表す。以下、発話者が特定の状態であることを表す特定のフレーズを特定フレーズといってもよい。

第１特定状況判定部１０２は、フレーズ（特定フレーズ）と、当該特定フレーズが示す特定状況とを対応付ける。この対応付けは、例えば、フレーズと特定状況とを予め対応付けた情報を参照することで行なってもよい。

第１特定状況判定部１０２は、遠隔会話の映像中において、特定フレーズを検出すると、当該特定フレーズが表す状況に関する情報を収集する。

例えば、第１特定状況判定部１０２は、特定フレーズが検出された時刻（開始時間）と、特定フレーズの検出が終了した時刻（終了時間）とを収集する。第１特定状況判定部１０２は、例えば、特定フレーズが検出されたフレームのタイムスタンプを参照することで時刻（開始時間）と、特定フレーズの検出が終了した時刻（終了時間）とを取得してもよい。

また、第１特定状況判定部１０２は、既知の映像認識処理手法を用いて、発信者の表情を認識する。例えば、第１特定状況判定部１０２は、特定フレーズが検出された場合に、当該フレーズを発した発信者の表情を認識する。

第１特定状況判定部１０２は、映像認識特徴量を抽出し、この抽出した映像認識特徴量に基づいて発信者の表情認識を行なう。なお、表情認識は既知の種々の手法を用いて実現することができ、その詳細な説明は省略する。

そして、第１特定状況判定部１０２は、発話者が特定フレーズを発したことを認識すると、当該特定フレーズ（フレーズ）と、当該特定フレーズが示す特定状況と、認識した表情を表す情報（表情）と、開始時間と終了時間とを対応付けて特定状況データベース１０５１に記憶させる。

また、第１特定状況判定部１０２は、表情認識処理により、発信者の映像から特定の表情を検出する。第１特定状況判定部１０２が検出する特定の表情とは、遠隔会話中において、当該表情の発話者の状況を表す表情である。

例えば、表情「笑う」は、発話者が嬉しい状況（特定状況）にあることを表す。また、表情「悲しみ」は、発話者が困っている状況を表し、表情「強張る」は、発話者が緊張している状況を表す。以下、発話者が特定の状態であることを表す特定の表情を特定表情といってもよい。

第１特定状況判定部１０２は、表情（特定表情）と、当該特定表情が示す特定状況とを対応付ける。この対応付けは、例えば、表情と特定状況とを予め対応付けた情報を参照することで行なってもよい。

第１特定状況判定部１０２は、遠隔会話の映像中において、発信者の特定表情を検出すると、当該特定表情が表す状況に関する情報を収集する。

例えば、第１特定状況判定部１０２は、特定表情が検出された時刻（開始時間）と、特定表情の検出が終了した時刻（終了時間）とを収集する。

そして、第１特定状況判定部１０２は、発話者の特定表情を認識すると、当該特定表情（表情）と当該特定表情が示す特定状況と開始時間と終了時間とを対応付けて特定状況データベース１０５１に記憶させてもよい。第１特定状況判定部１０２における、特定状況の開始時間と終了時間との組み合わせによって特定される時間帯（時間枠）を特定状況検出時間帯といってもよい。

図４は第１実施形態の一例としてのコンピュータシステム１における特定状況データベース１０５１を例示する図である。

図４に例示する特定状況データベース１０５１は、特定状況，フレーズ，表情，挙動，開始時間および終了時間を関連付けている。挙動には、後述する第１挙動抽出部１０３が抽出する挙動を格納してもよい。

この特定状況データベース１０５１を参照することで、発信者において特定フレーズが検出された時刻や、その特定フレーズが示す特定状況等を把握することができる。

なお、図４に例示する特定状況データベース１０５１の各エントリには、それぞれフレーズ（特定フレーズ）と表情（特定表情）とが登録されているが、これに限定されるものではない。フレーズ（特定フレーズ）と表情（特定表情）とのいずれかを省略してもよい。

第１特定状況判定部１０２は、過去の遠隔会話の映像において特定状況の発生を検知し、特定状況データベース１０５１に記録する。

第１特定状況判定部１０２は、第１入力部１０１によって取得された複数の過去の遠隔会話の映像の全てに対して、特定状況の発生検知と、特定状況データベース１０５１への記録を行なう。

また、第１特定状況判定部１０２は、特定状況検出時間帯における映像中の特徴量点をフレーム単位で抽出し、特徴量抽出データベース１０５４に記録する。

図５は第１実施形態の一例としてのコンピュータシステム１における特徴量抽出データベース１０５４を例示する図である。

この図５に例示する特徴量抽出データベース１０５４は、特定状況検出時間帯におけるフレームの時刻と、当該フレームから抽出された画像特徴量点とが対応付けられている。

また、第１特定状況判定部１０２は、特定状況検出時間帯における映像（音声）中の音声特徴量点をフレーム単位で抽出し、特徴量抽出データベース１０５４に記録してもよい。
特徴量抽出データベース１０５４に登録された情報（画像特徴点，音声特徴量点）は、例えば、第１挙動抽出部１０３による発信者の特定状況挙動に用いられる。

第１挙動抽出部１０３は、第１特定状況判定部１０２に記録された各特定状況に基づき、過去の遠隔会話の映像の中から、各特定状況検出時間帯もしくは特定状況検出時間帯内の一部の時間帯において、発信者の特徴的な挙動を検出する。特定状況検出時間帯において検出される特徴的な挙動を特定状況挙動といってもよい。

図６は第１実施形態の一例としてのコンピュータシステム１における、特定状況挙動を例示する図である。

図６に例示する特定状況挙動を示す情報は、分類，動作内容および判定パターンを備える。

分類は、挙動の分類であり、例えば、第１挙動抽出部１０３および後述する第２挙動抽出部１１１が挙動を検出する際に着目する対象を示す。

動作内容は、分類に示された対象について、第１挙動抽出部１０３が検出する挙動の内容を示す。動作内容は、特定状況において一般に観察される特徴的な動作内容である。第１挙動抽出部１０３および第２挙動抽出部１１１は、この動作内容に該当する動作を検出する。

判定パターンは、例えば、動作内容に示される動作を検出するための判定条件である。動作内容に示される動作について、第１挙動抽出部１０３および第２挙動抽出部１１１は、この判定パターンに示された判定条件が満たされるかを判定する。

なお、図６に示す例においては、便宜上、スピードや回数等の文字が示されているが、実際には判定の閾値となる具体的な数値を設定してもよい。

また、判定パターンは、動作内容に示される動作の検出時に付随的に判定される内容（サブ判定条件）であってもよい。

例えば、視線の動きについては、第１挙動抽出部１０３および第２挙動抽出部１１１は、視線が移動した角度に加えて、視線の移動方法（上／下／左／右）も判定することを示す。

第１挙動抽出部１０３は、検出位置や回数等で判定パターンを決定してもよい。例えば、検出された手の位置で右側か左側かを判定してもよい。第１挙動抽出部１０３および第２挙動抽出部１１１は、この判定パターンも検出する。

なお、動作内容によっては、判定パターンを省略してもよい。

第１挙動抽出部１０３は、例えば、既知の映像認識手法を用いて映像の特徴量を抽出し、この抽出した特徴量に基づいて、特定状況挙動の検出を行なう。

第１挙動抽出部１０３は、過去の遠隔会話の映像における特定状況検出時間帯の映像データから画像認識により特徴量（画像特徴点）を抽出する。

第１挙動抽出部１０３は、画像特徴点や音声特徴点に基づき、特定状況挙動を検出する。第１挙動抽出部１０３は、画像特徴点に基づき、例えば、頭部の動き検出，手の動き検出，瞬き検出，視線の動き検出等を行なう。

第１挙動抽出部１０３は、音声特徴点に基づき、例えば、音声認識処理により、発信者の話す癖やレスポンスなどの挙動を検出する。

また、第１挙動抽出部１０３は、映像認識により、顔の特徴量座標変化から頭部の動き，瞬きを検出してもよい。また、第１挙動抽出部１０３は、視線検出から視線の動きを検出してもよい。さらに、第１挙動抽出部１０３は、ジェスチャー認識で手の動きなどの挙動を検出してもよい。

また、第１挙動抽出部１０３は、例えば、既知の音声認識手法を用いて映像に含まれる音声の特徴量を抽出し、この抽出した特徴量に基づいて特定状況挙動の検出を行なう。

これらの特定状況挙動の検出は既知の手法で実現することができ、その詳細な説明は省略する。

第１挙動抽出部１０３は、過去の遠隔会話の映像における特定状況検出時間帯の音声データから音声認識により特徴量（音声特徴点）を抽出する。

第１挙動抽出部１０３は、音声特徴点に基づき、例えば、話の癖検出，レスポンス検出等を行なう。これらの特定状況挙動の検出は既知の手法で実現することができ、その説明は省略する。

第１挙動抽出部１０３は、発信者と受信者との間で行なわれた過去の遠隔会話の映像の中から抽出した特定状況挙動の情報を、メモリ１２や記憶装置１３の所定の記憶領域に記憶させる。特定状況挙動の情報には判定パターンが含まれる。

また、第１挙動抽出部１０３は、発信者との遠隔会話の映像データから検出した特定状況挙動の数を特定状況数データベース１０５３に格納して管理する。

図７は第１実施形態の一例としてのコンピュータシステム１における特定状況数データベース１０５３を例示する図である。

この図７に例示する特定状況数データベース１０５３は、項目として人物ＩＤ（identification）と特定状況挙動数とを備え、これらの項目に対応付けてそれぞれデータが記憶されている。

人物ＩＤは発信者を特定する識別情報であり、図７に示す例においては“0001”が設定されている。

特定状況挙動数は、人物ＩＤで特定される発信者について、第１挙動抽出部１０３が過去の遠隔会話の映像データから検出した特定状況挙動の数を示す。

なお、第１挙動抽出部１０３は、特徴量抽出データベース１０５４から特定状況検出時間帯の音声特徴点および画像特徴点を取得してもよい。

第１挙動抽出部１０３は、第１のセンシングデータ（過去の映像データ）および第２のセンシングデータ（リアルタイムの映像データ）に基づき、発信者にとって特定状況が発生したことを検知すると、挙動および判定パターン（特徴情報）を特定状況挙動データベース１０５２を参照する。そして、第１挙動抽出部１０３は、発生した特定状況に対応付けられた特徴情報（挙動，判定パターン）を特定する。すなわち、第１挙動抽出部１０３は、特徴情報特定部に相当する。

特定状況挙動格納処理部１０４は、第１挙動抽出部１０３が抽出した複数の特定状況挙動に基づき、各特定状況に対して、最も頻度が多い特定状況挙動を決定する。

すなわち、特定状況挙動格納処理部１０４は、各特定状況に対応する特徴的な挙動をそれぞれ決定する。

そして、特定状況挙動格納処理部１０４は、特定状況毎の特定状況挙動の情報を、特定状況挙動データベース１０５２に記録する。

図８は第１実施形態の一例としてのコンピュータシステム１における特定状況挙動データベース１０５２を例示する図である。

図８に例示する特定状況挙動データベース１０５２は、番号，特定状況，挙動および判定パターンを関連付けている。

特定状況挙動データベース１０５２には、過去の遠隔会話において検出された特定状況において発信者が最も高い頻度で表した挙動が登録される。従って、この特定状況挙動データベース１０５２を参照することで、特定状況において発信者が示す挙動を把握することができる。
特定状況挙動データベース１０５２は、過去の遠隔会話の映像データ（第１のセンシングデータ）において発信者にとって特定の状況（特定状況）が発生した際に抽出された特徴情報（挙動，判定パターン）を記憶する記憶部に相当する。

特定状況挙動格納処理部１０４は、検出された全ての挙動（フレーズ、表情など）に対して、予め定義した挙動とのマッチング処理を行ない、マッチングスコアが第１の閾値ＴＨ１以上の挙動が第２の閾値ＴＨ２回以上であれば、当該挙動を特定状況の挙動パターンと判断してもよい。

第２入力部１０６は、発信者と受信者との間で行なわれている（リアルタイムで実行中の）遠隔会話の映像を取得する。この映像には、発信者の映像と受信者の映像とが含まれる。発信者と受信者との間で行なわれている遠隔会話の映像は、例えば、情報処理装置１０と対話者端末２との間での遠隔通話を実現するプログラムによって生成され、例えば、メモリ１２や記憶装置１３の所定の記憶領域に記憶される。第２入力部１０６は、この記憶された遠隔会話の映像データを読み出すことで取得してもよい。

発信者と受信者との間で行なわれている（リアルタイムで実行中の）遠隔会話の映像データは、発信者（第１のアカウント）と受信者（第２のアカウント）との間で行なわれた第２の遠隔通話において生成された映像又は音声のいずれかを含む第２のセンシングデータに相当する。

第２入力部１０６は、第２のセンシングデータ（リアルタイムの映像データ）を受け付ける入力部に相当する。

第２特定状況判定部１０７は、第２入力部１０６が取得したリアルタイムで進行中（現在進行中）の遠隔会話の映像に基づいて、映像中における発信者と受信者との状況（特定状況）を判定する。リアルタイムで進行中（現在進行中）の遠隔会話を現在の遠隔会話といってもよい。また、現在の遠隔会話から検出される特定状況を現在の特定状況といってもよい。

第２特定状況判定部１０７は、現在の特定状況を判定する。第２特定状況判定部１０７は、特に映像中の発信者について特定状況の判定を行なう。

第２特定状況判定部１０７は、検出した現在の特定状況と過去の遠隔会話において検出された特定状況とを比較し、現在の特定状況の検出数が過去に検出された特定状況数に到達するまで、特定状況を発生させるための処理を行なう。

第２特定状況判定部１０７は、図２に示すように、特定状況モニタリング部１０８，特定状況数算出部１０９および特定状況作成部１１０としての機能を備える。

特定状況モニタリング部１０８は、第２入力部１０６が取得したリアルタイムで進行中の遠隔会話の映像中から、第１特定状況判定部１０２と同様の手法を用いて、特定状況の発生検知を行なう。

例えば、特定状況モニタリング部１０８は、音声認識処理により、遠隔通話中の映像において発信者の音声から特定フレーズを検出する。また、特定状況モニタリング部１０８は、遠隔会話の映像中において特定フレーズを検出すると、当該特定フレーズが表す状況に関する情報を収集する。特定状況モニタリング部１０８は、特定フレーズと特定状況とを対応付ける。

また、特定状況モニタリング部１０８は、表情認識処理により、発信者の映像から特定の表情を検出する。また、特定状況モニタリング部１０８は、遠隔会話の映像中において、発信者の特定表情を検出すると、当該特定表情が表す状況に関する情報を収集する。特定状況モニタリング部１０８は、特定表情と特定状況とを対応付ける。

特定状況モニタリング部１０８は、検出した特定状況に基づいて特定状況挙動データベース１０５２を参照（特定状況比較）して、検出した特定状況と一致する特定状況が特定状況挙動データベース１０５２に登録されているかを確認する。

特定状況モニタリング部１０８は、検出した特定状況と一致する特定状況が特定状況挙動データベース１０５２に登録されているかの確認を行なうために、例えば、テキストマッチングを行なってもよい。すなわち、特定状況モニタリング部１０８は、検出した特定状況を示す語（例：嬉しい時）を用いて、特定状況挙動データベース１０５２に登録されている特定状況に対してテキストマッチングを行ない、一致する場合に、登録されていると判断する。

特定状況モニタリング部１０８は、検出した特定状況と一致する特定状況が特定状況挙動データベース１０５２に登録されている場合に、当該特定状況を示す情報を、メモリ１２や記憶装置１３等の所定の記憶領域に記憶させる。

特定状況モニタリング部１０８は、進行中の遠隔会話の経過時間が、予め規定された所定時間（指定時間Ｔ１）以上となった場合に、当該の遠隔会話の映像中からの特定状況の発生検知を行なう。これにより、本情報処理装置１０の負荷を軽減することができる。

特定状況数算出部１０９は、特定状況モニタリング部１０８が所定時間内で判定できた特定状況と、特定状況挙動データベース１０５２に登録された特定状況とに基づいて、後述する特定状況作成部１１０が作成する特定状況の数（特定状況数）を算出する。

特定状況数算出部１０９は、特定状況挙動データベース１０５２に登録された全ての特定状況の数（全特定状況数）から、特定状況モニタリング部１０８が検出（判定）した特定状況の数（判定済特定状況数）を減算することで、特定状況作成部１１０が作成する（必要な）特定状況数（作成必要特定状況数）を求める。

特定状況作成部１１０は、特定状況を発生させる（作り出す）処理を行なう。例えば、特定状況作成部１１０は、相手が想定挙動をとった状況になるように質問または誘導してもよい。

ここで、特定状況でとった発信者の挙動は、例えば、普段は黙って話さないが、会話中にある地名が出たという特定状況においては喜んで話す、同じ話を２，３回繰り返しただけでは我慢するが１０回以上繰り返すと怒り出す、等であってもよい。

また、発信者の挙動は、例えば、困る時に頭を横向け、嬉しい時に左手を挙げる等であってもよい。

特定状況作成部１１０は、発信者が想定挙動をとった状況になるような質問を受信者から発信者にさせてもよい。

質問には複数の解釈（左右、上下など）があり、その特定状況で発信者がとる特徴的な挙動が異なる（困る時の頭部の横向けは？嬉しいとき手の挙げ方は？）。

特定状況作成部１１０は、相手が想定挙動を取った状況になるような誘導を行なってもよい。例えば、特定状況作成部１１０は、発信者が話す状況を作るために、相手が気になる地名を言うように受信者を誘導してもよく、相手が怒る状況を作るために、同じ話を１０回以上繰り返すよう誘導してもよい。

本コンピュータシステム１においては、事前に、複数種類の特定状況に対応させて、当該特定状況を発生させるために、受信者が発信者に対して投げかける質問や、発信者を誘導するための提示文が用意され、提示文データベース１０５５に記録される。

図９は第１実施形態の一例としてのコンピュータシステム１における提示文データベース１０５５を例示する図である。

この図９に例示する提示文データベース１０５５においては、特定状況に対して、フレーズが対応付けられるとともに、提示文（質問文）もしくは提示文（誘導）が対応付けられている。また、各特定状況には特定状況の種類を表すユニークな識別情報（種類）が対応付けられている。この図９に示す例においては、種類として自然数が設定されている。

提示文（質問文）は、対応する特定状況を発生させるために、受信者が発信者に対して投げかけると効果的と考えられる質問文である。提示文（誘導）は、対応する特定状況を発生させるために、受信者が発信者に対して行なうと効果的と考えられる行動を示唆するアドバイス文（誘導文）である。

この図９においては、例えば、特定状況「嬉しいとき」に対して、フレーズ「嬉しい」と、提示文（質問文）「嬉しい？嬉しいときの挙動は？」が登録されている。

また、特定状況「緊張」に対して、フレーズ「緊張している」と、提示文（誘導）「緊張させる話をしてあげる」が登録されている。

提示文データベース１０５５に登録された、提示文は、システムが自動で生成してもよく、また、ユーザ等が予め設定してもよい。また、提示文はユーザ（受信者）が任意に変更可能とすることが望ましい。特定状況および提示文は、図９に例示されたものに限定されるものではなく、適宜変更して実施することができる。

特定状況作成部１１０は、特定状況数取得処理，特定状況の画面提示処理，特定状況作成処理，特定状況フレーズ検出および特定状況記録処理を実行する。

特定状況数取得処理について、特定状況作成部１１０は、特定状況数算出部１０９が算出した特定状況数を、特定状況モニタリング部１０８による発生検知において指定時間Ｔ１に到達したタイミングで取得する。

特定状況の画面提示処理について、特定状況作成部１１０は、提示文データベース１０５５を参照して、当該提示文データベース１０５５に登録された特定状況のうち、特定状況モニタリング部１０８によって検知された特定状況以外の特定状況を特定状況数だけ読み出す。特定状況作成部１１０は、これらの特定状況数の提示文をディスプレイ１７に表示させる。

例えば、特定状況作成部１１０は、特定状況モニタリング部１０８による発生検知において指定時間Ｔ１に到達したタイミングで、これらの特定状況数の提示文をディスプレイ１７に表示させる。

なお、特定状況モニタリング部１０８により挙動が検出された特定状況については、特定状況作成部１１０は、当該特定状況に対応する提示文は表示させない。

特定状況作成処理においては、受信者は、ディスプレイ１７に表示された提示文（質問文，誘導文）を読み上げたり、当該提示文の内容に沿った質問文や誘導文を発信者に対して発話する。受信者が提示文の内容を発話するタイミングは、受信者が決めることが望ましい。また、受信者は、発信者の発話に特定状況のフレーズが含まれるタイミングで提示文の内容を発話してもよい。

特定状況フレーズ検出処理において、特定状況作成部１１０は、発信者による発話から特定状況に含まれるフレーズ（特定状況フレーズ）を検出する。この特定状況フレーズの検出は、第１特定状況判定部１０２や特定状況モニタリング部１０８と同様の手法で実現することができる。

特定状況記録処理においては、特定状況作成部１１０は、検出された特定状況フレーズに対応する特定状況に関する情報を、メモリ１２や記憶装置１３等の所定の記憶領域に記憶させる。

検出された特定状況フレーズに対応する特定状況に関する情報は、図４に例示した特定状況データベース１０５１と同様に、特定状況，フレーズ，表情，挙動，開始時間および終了時間を関連付けて記録することが望ましい。

また、第２特定状況判定部１０７によって発生させた特定状況についての映像は、メモリ１２や記憶装置１３等の所定の記憶領域に記憶される。

特定状況作成部１１０は、進行中の遠隔通話（リアルタイムの映像データ）を行なう受信者に対して提示情報（質問文，誘導）を出力することで、発信者にとっての特定の状況（特定状況）を発生させる特定状況作成部に相当する。

特定状況作成部１１０は、過去の遠隔会話の映像データに基づいて検出された、発信者にとっての特定状況が、リアルタイムの遠隔会話の映像データに基づいて検出された、発信者本人にとっての特定状況と異なる（不一致）場合に、発信者にとっての特定の状況（特定状況）を発生させる。

第２挙動抽出部１１１は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部１０８が検知した特定状況と、第２特定状況判定部１０７によって発生させた特定状況とについて、発信者の特徴的な挙動を検出する。

第２挙動抽出部１１１は、第１挙動抽出部１０３と同様の手法を用いて発信者の特徴的な挙動（特定状況挙動）を検出する。第２挙動抽出部１１１が現在の遠隔会話の映像データから検出した特定状況挙動を現在特定状況挙動といってもよい。現在特定状況挙動には判定パターンを含んでもよい。挙動および判定パターンは、特徴情報に相当する。

第２挙動抽出部１１１は、各特定状況について、各特定状況検出時間帯もしくは特定状況検出時間帯内の一部の時間帯において、発信者の特徴的な挙動を検出する。

第２挙動抽出部１１１は、特定状況挙動の検出にかける時間（特定状況時間枠Ｔ２）を予め設定し、この特定状況時間枠Ｔ２内で特定状況挙動の検出を行なう。これにより、特定状況挙動の検出に際限なく時間が費やされることがなく、効率的に処理を行なうことができる。

第２挙動抽出部１１１は、発信者と受信者との間で行なわれた過去の遠隔会話の映像の中から抽出した特定状況挙動の情報を、メモリ１２や記憶装置１３の所定の記憶領域に記憶させる。

挙動比較部１１２は、第２挙動抽出部１１１が抽出した各現在特定状況挙動を、特定状況挙動データベース１０５２に登録されている挙動および判定パターンと比較する。

挙動比較部１１２は、特定状況挙動データベース１０５２に登録されている全ての特定状況について、特定状況挙動および判定パターンが、第２挙動抽出部１１１が抽出した特定状況挙動のうち特定状況が一致する特定状況挙動および判定パターンと一致するかを判定する。

挙動比較部１１２は、第１挙動抽出部１０３が検出した特定状況挙動と、第２挙動抽出部１１１が検出した特定状況挙動とを比較するのである。

図１０は第１実施形態の一例としてのコンピュータシステム１における挙動比較部１１２による処理を説明するための図である。

この図１０に示す例において、符号Ａは特定状況挙動データベース１０５２に登録されている挙動および判定パターンを示しており、符号Ｂは第２挙動抽出部１１１が抽出した各特定状況挙動および判定パターンを示している。また、符号Ｃは、符号Ａに示した特定状況挙動データベース１０５２に登録されている挙動および判定パターンと、符号Ｂに示した第２挙動抽出部１１１が抽出した各特定状況挙動および判定パターンとの比較結果を示す。この図９の符号Ｃに示す例において、比較結果“1”が一致していることを示し、比較結果“0”が不一致であることを示す。

挙動比較部１１２は、比較結果において、特定状況挙動データベース１０５２と現在特定状況挙動とを比較し、一致する場合にその特定状況に対して“1”を、不一致の場合にその特定状況に対して“0”を、それぞれ設定する。

この図１０に示す例においては、特定状況「嬉しい時」および「考える時」については一致するが、「困る時」の判定パターン（サブ判定条件）が不一致である（符号Ｃ参照）。

挙動比較部１１２による比較結果は、メモリ１２や記憶装置１３の所定の記憶領域に記憶（蓄積，累積）される。

評価部１１３は、挙動比較部１１２による比較結果に基づき、発信者と受信者との間で行なわれている遠隔会話の映像における発信者についてのなりすまし度を評価する。

評価部１１３は、挙動比較部１１２による比較結果に基づき、なりすまし度を表す値（なりすまし度評価値）を算出する。

例えば、評価部１１３は、特定状況挙動データベース１０５２に登録されている全ての特定状況挙動と、第２挙動抽出部１１１が抽出した特定状況挙動との全比較数のうち、比較結果において不一致であった数の比をなりすまし度評価値として算出する。なりすまし度評価値をなりすまし度といってもよい。

評価部１１３は、なりすましに関する判定を行なう処理として、過去の遠隔会話の映像データから抽出された特定状況における挙動および判定パターン（特徴情報）と、リアルタイムで進行中の遠隔会話の映像データから抽出された特定状況における挙動および判定パターンとの一致数に基づいて、なりすましを判定する指標値（なりすまし度評価値）を算出する。

評価部１１３は、特定状況挙動データベース１０５２（記憶部）における特定状況に対する挙動および判定パターン（特徴情報）と、現在進行中の遠隔会話の映像データ（第２のセンシングデータ）から検知された特定状況に対する挙動および判定パターン（特徴情報）との一致状態に基づき、なりすましに関する判定を行なう判定部に相当する。

評価部１１３は、算出したなりすまし度評価値（なりすまし度）を、ディスプレイ１７に表示（出力）させることで受信者に通知する。この際、評価部１１３は、特定状況挙動データベース１０５２に登録されている特定状況挙動と、第２挙動抽出部１１１が抽出した特定状況挙動との全ての比較結果をディスプレイ１７に表示（出力）させることで受信者に通知してもよい。

図１１は第１実施形態の一例としてのコンピュータシステム１におけるなりすまし検知結果の出力イメージを例示する図である。

図１１において、符号Ａは、受信者の情報処理装置１０のディスプレイ１７に表示されるなりすまし検知結果の例を示す。

この図１１に例示するなりすまし検知結果は、なりすまし度（符号Ｂ参照）と、特定状況毎の特定状況挙動の比較結果（符号Ｃ参照）とを含む。なお、この図１１においては、比較結果を〇かＸかで示している。

受信者は、このようにディスプレイ１７に表示されたなりすまし検知結果を見ることで、攻撃者が発信者になりすましているおそれがあることを知ることができる。受信者は、例えば、遠隔会話を中止したり、秘匿性の高い情報を遠隔通話で話すことを抑止する等の対応をとることができる。

（Ｂ）動作
本コンピュータシステム１においては、発信者と受信者との間での遠隔会話のやり取りの中で、特定状況モニタリング部１０８が、過去にあった特定状況をモニタリングするか、または特定状況作成部１１０がその特定状況を生じさせる。そして、挙動比較部１１２および評価部１１３が、過去と同様な特定状況で取った相手の挙動パターンを用いてなりすましを検知する。

上述の如く構成された第１実施形態の一例としてのコンピュータシステム１における第１特定状況判定部１０２の処理を、図１２に示すフローチャート（ステップＡ１～Ａ９）に従って説明する。

ステップＡ１において、情報処理装置１０に発信者と受信者との間で行なわれた過去の遠隔会話の映像が入力され、この映像を取得する。第１特定状況判定部１０２は、この過去に行なわれた遠隔会話の録画映像データに対して処理を行なう。

ステップＡ２において、第１特定状況判定部１０２は、音声認識処理により、発信者の音声に対して特徴量抽出処理を行なう。

ステップＡ３において、第１特定状況判定部１０２は、抽出した特徴量に基づいて発信者の音声からフレーズを検出する。

ステップＡ４において、第１特定状況判定部１０２は、フレーズ（特定フレーズ）が示す特定状況を特定し、当該フレーズ（特定フレーズ）と、特定した特定状況とを対応付ける。その後、処理はステップＡ８に移行する。

また、上述したステップＡ２～Ａ４の処理と並行して、ステップＡ５～Ａ７の処理が行なわれる。

ステップＡ５において、第１特定状況判定部１０２は、映像認識処理により、発信者の映像に対して特徴量抽出処理を行なう。

ステップＡ６において、第１特定状況判定部１０２は、抽出した特徴量に基づいて発信者の表情認識を行なう。

ステップＡ７において、第１特定状況判定部１０２は、表情（特定表情）が示す特定状況を特定し、当該表情（特定表情）と、特定した特定状況とを対応付ける。その後、処理はステップＡ８に移行する。

ステップＡ８において、第１特定状況判定部１０２は、特定状況に対して、認識した特定フレーズ（フレーズ）と、認識した表情を表す情報（表情）と、開始時間と終了時間とを対応付けて特定状況データベース１０５１に記憶させる。

ステップＡ９において、第１特定状況判定部１０２は、過去の遠隔会話の全ての映像（音声）データに対して、処理を行なったかを確認する。確認の結果、まだ処理が行なわれていない映像があるない場合には（ステップＡ９のＮＯルート参照）、ステップＡ１に戻る。一方、全ての映像（音声）データに対して処理を行なった場合には（ステップＡ９のＹＥＳルート参照）、処理を終了する。

次に、第１実施形態の一例としてのコンピュータシステム１における第１挙動抽出部１０３の処理を、図１３に示すフローチャート（ステップＢ１～Ｂ１２）に従って説明する。

ステップＢ１において、第１挙動抽出部１０３には、過去の遠隔会話の映像データが入力される。

ステップＢ２において、第１挙動抽出部１０３は、特定状況データベース１０５１を参照して、特定状況が検出された時間枠（特定状況検出時間帯）を取得し、この特定状況検出時間帯の映像を取得（設定）する。

ステップＢ３において、第１挙動抽出部１０３は、過去の遠隔会話の映像における特定状況検出時間帯の音声データから音声認識により特徴量（音声特徴点）を抽出する。その後、処理はステップＢ４およびステップＢ５に移行する。第１挙動抽出部１０３は、特徴量抽出データベース１０５４から特徴量の情報抽出モデルを取得してもよい。

ステップＢ４において、第１挙動抽出部１０３は、音声特徴点に基づき、話の癖検出を行なう。

ステップＢ５において、第１挙動抽出部１０３は、音声特徴点に基づき、レスポンス検出を行なう。

また、上述したステップＢ３～Ｂ５の処理と並行して、ステップＢ６～Ｂ１０の処理が行なわれる。

ステップＢ６において、第１挙動抽出部１０３は、過去の遠隔会話の映像における特定状況検出時間帯の映像データから画像認識により特徴量（画像特徴点）を抽出する。ここで、第１挙動抽出部１０３は、特徴量抽出データベース１０５４から特徴量の情報抽出モデルを取得してもよい。その後、処理はステップＢ７～Ｂ１０に移行する。

ステップＢ７において、第１挙動抽出部１０３は、画像特徴点に基づき、頭部の動き検出を行なう。

ステップＢ８において、第１挙動抽出部１０３は、画像特徴点に基づき、手の動き検出を行なう。

ステップＢ９において、第１挙動抽出部１０３は、画像特徴点に基づき、瞬き検出を行なう。

ステップＢ１０において、第１挙動抽出部１０３は、画像特徴点に基づき、視線の動き
検出を行なう。

その後、ステップＢ１１において、第１挙動抽出部１０３は、検出した特定状況挙動と判定パターンの情報をメモリ１２や記憶装置１３の所定の記憶領域に記憶させる。

ステップＢ１２において、第１挙動抽出部１０３は、全ての特定状況に対して、特定状況挙動および判定パターンの抽出を行なったかを確認する。確認の結果、特定状況挙動および判定パターンの抽出を行なっていない特定状況がある場合には（ステップＢ１２のＮＯルート参照）、ステップＢ１に戻る。

また、全ての特定状況に対して特定状況挙動および判定パターンの抽出を行なった場合には（ステップＢ１２のＹＥＳルート参照）、処理を終了する。処理は、図１４に示す、特定状況挙動格納処理部１０４による処理に移行する。

第１実施形態の一例としてのコンピュータシステム１における特定状況挙動格納処理部１０４の処理を、図１４に示すフローチャート（ステップＣ１～Ｃ４）に従って説明する。

ステップＣ１において、特定状況挙動格納処理部１０４は、特定状況データベース１０５１に登録された複数の特定状況のうち、一つの特定状況を選択する。

ステップＣ２において、特定状況挙動格納処理部１０４は、選択された特定状況について第１挙動抽出部１０３によって抽出された挙動の検出数の累積値（頻度）を確認する。

ステップＣ３において、特定状況挙動格納処理部１０４は、当該挙動の検出数の累積値が最も多いか、すなわち、特定状況において最も多い挙動であるかを確認する。確認の結果、最も多い挙動でない場合には（ステップＣ３のＮＯルート参照）、ステップＣ２に戻り、他の挙動を選択する。

また、確認の結果、最も多い挙動である場合には（ステップＣ３のＹＥＳルート参照）、ステップＣ４に移行する。ステップＣ４において、特定状況挙動格納処理部１０４は、特定状況挙動データベース１０５２に、最も頻度が多い特定状況挙動を特定状況に対応付けて格納する。その後、処理を終了する。

次に、第１実施形態の一例としてのコンピュータシステム１における第２特定状況判定部１０７の処理を、図１５に示すフローチャート（ステップＤ１～Ｄ１６）に従って説明する。

本処理においては、第２特定状況判定部１０７に、進行中の遠隔会話の映像データが入力され、第２特定状況判定部１０７は、この進行中の遠隔会話の映像データに対して処理を行なう。
ステップＤ１において、第２特定状況判定部１０７は、進行中の遠隔会話の経過時間が指定時間Ｔ１未満であるかを確認する。

進行中の遠隔会話の経過時間が指定時間Ｔ１未満である場合に（ステップＤ１のＹＥＳルート参照）、ステップＤ２に移行する。

ステップＤ２において、特定状況モニタリング部１０８は、音声認識処理により、発信者の音声に対して特徴量抽出処理を行なう。

ステップＤ３において、特定状況モニタリング部１０８は、抽出した特徴量に基づいて発信者の音声からフレーズを検出する。

ステップＤ４において、特定状況モニタリング部１０８は、フレーズ（特定フレーズ）が示す特定状況を特定し、当該フレーズ（特定フレーズ）と、特定した特定状況とを対応付ける。その後、処理はステップＤ８に移行する。

また、上述したステップＤ２～Ｄ４の処理と並行して、ステップＤ５～Ｄ７の処理が行なわれる。

ステップＤ５において、特定状況モニタリング部１０８は、映像認識処理により、発信者の映像に対して特徴量抽出処理を行なう。

ステップＤ６において、特定状況モニタリング部１０８は、抽出した特徴量に基づいて発信者の表情認識を行なう。

ステップＤ７において、特定状況モニタリング部１０８は、表情（特定表情）が示す特定状況を特定し、当該表情（特定表情）と、特定した特定状況とを対応付ける。その後、処理はステップＤ８に移行する。

ステップＤ８において、特定状況モニタリング部１０８は、検出した特定状況に基づいて特定状況挙動データベース１０５２を参照（特定状況比較）して、検出した特定状況と一致する特定状況が特定状況挙動データベース１０５２に登録されているかを確認する。特定状況モニタリング部１０８は、検出した特定状況が特定状況挙動データベース１０５２に登録されている特定状況と一致するかを確認する。

確認の結果、検出した特定状況が特定状況挙動データベース１０５２に登録されている特定状況と一致しない場合には（ステップＤ９のＮＯルート参照）、ステップＤ１に戻る。

また、検出した特定状況が特定状況挙動データベース１０５２に登録されている特定状況と一致する場合には（ステップＤ９のＹＥＳルート参照）、ステップＤ１０に移行する。

ステップＤ１０において、特定状況モニタリング部１０８は、検出された特定状況を示す情報を、メモリ１２や記憶装置１３等の所定の記憶領域に記憶させる。その後、処理を終了する。

また、ステップＤ１における確認の結果、進行中の遠隔会話の経過時間が指定時間Ｔ１以上である場合に（ステップＤ１のＮＯルート参照）、ステップＤ１１に移行する。
ステップＤ１１において、特定状況数算出部１０９が、特定状況挙動データベース１０５２に登録された全ての特定状況の数（全特定状況数）から、特定状況モニタリング部１０８が検出（判定）した特定状況の数（判定済特定状況数）を減算することで作成必要特定状況数を算出する。

ステップＤ１２において、特定状況作成部１１０が、特定状況数算出部１０９が算出した特定状況数を、特定状況モニタリング部１０８による発生検知において指定時間Ｔ１に到達したタイミングで取得する。

ステップＤ１３において、特定状況作成部１１０が、提示文データベース１０５５を参照して、当該提示文データベース１０５５に登録された特定状況のうち、特定状況モニタリング部１０８によって検知された特定状況以外の特定状況を特定状況数だけ読み出す。特定状況作成部１１０は、これらの特定状況数の提示文をディスプレイ１７に表示させる。

ステップＤ１４において、受信者は、ディスプレイ１７に表示された提示文（質問文，誘導文）を読み上げたり、当該提示文の内容に沿った質問文や誘導文を発信者に対して発話する。

ステップＤ１５において、特定状況作成部１１０が、発信者による発話から特定状況に含まれるフレーズ（特定状況フレーズ）を検出する。

ステップＤ１６において、特定状況作成部１１０が、検出された特定状況フレーズに対応する特定状況に関する情報を、メモリ１２や記憶装置１３等の所定の記憶領域に記憶させる。その後、処理を終了する。

また、ステップＤ１において、指定時間Ｔ１が進行中の遠隔通話の通話時間のMAX区間と一致する場合に、ステップＤ２～Ｄ１０の処理のみを行なってもよい。また、指定時間Ｔ１が０の場合に、ステップＤ１１からＤ１６の処理を行なってもよい。

次に、第１実施形態の一例としてのコンピュータシステム１における第２挙動抽出部１１１の処理を、図１６に示すフローチャート（ステップＥ１～Ｅ１２）に従って説明する。

ステップＥ１において、第２挙動抽出部１１１は特定状況時間枠Ｔ２を設定する。

ステップＥ２において、第２挙動抽出部１１１に、現在進行中の遠隔会話の映像データが入力される。

ステップＥ３において、第２挙動抽出部１１１は、現在の遠隔会話の映像における特定状況検出時間帯の音声データから音声認識により特徴量（音声特徴点）を抽出する。その後、処理はステップＥ４およびステップＥ５に移行する。

ステップＥ４において、第２挙動抽出部１１１は、音声特徴点に基づき、話の癖検出を行なう。

ステップＥ５において、第２挙動抽出部１１１は、音声特徴点に基づき、レスポンス検出を行なう。

また、上述したステップＥ３～Ｅ５の処理と並行して、ステップＥ６～Ｅ１０の処理が行なわれる。

ステップＥ６において、第２挙動抽出部１１１は、現在の遠隔会話の映像における特定状況検出時間帯の映像データから画像認識により特徴量（画像特徴点）を抽出する。その後、処理はステップＥ７～Ｅ１０に移行する。

ステップＥ７において、第２挙動抽出部１１１は、画像特徴点に基づき、頭部の動き検出を行なう。

ステップＥ８において、第２挙動抽出部１１１は、画像特徴点に基づき、手の動き検出を行なう。

ステップＥ９において、第２挙動抽出部１１１は、画像特徴点に基づき、瞬き検出を行なう。

ステップＥ１０において、第２挙動抽出部１１１は、画像特徴点に基づき、視線の動き
検出を行なう。

その後、ステップＥ１１において、第２挙動抽出部１１１は、検出した特定状況挙動と判定パターンの情報をメモリ１２や記憶装置１３の所定の記憶領域に記憶させる。

ステップＥ１２において、第２挙動抽出部１１１は、特定状況挙動の検出を開始してからの経過時間が特定状況検出時間枠Ｔ２以上であるかを確認する。確認の結果、経過時間が特定状況検出時間枠Ｔ２未満である場合には（ステップＥ１２のＮＯルート参照）、ステップＥ１に戻る。

また、経過時間が特定状況検出時間枠Ｔ２以上の場合には（ステップＥ１２のＹＥＳルート参照）、処理を終了する。処理は、図１７に示す、挙動比較部１１２による処理に移行する。

次に、第１実施形態の一例としてのコンピュータシステム１における挙動比較部１１２の処理を、図１７に示すフローチャート（ステップＦ１～Ｆ２）に従って説明する。

挙動比較部１１２は、第２挙動抽出部１１１が抽出した各特定状況挙動を、特定状況挙動データベース１０５２に登録されている挙動および判定パターンと比較する。

ステップＦ１において、挙動比較部１１２は、第２挙動抽出部１１１が抽出した特定状況挙動と、特定状況挙動データベース１０５２に登録されている挙動とのマッチングを行なう。

挙動比較部１１２は、特定状況挙動データベース１０５２の全ての特定状況について、特定状況挙動および判定パターンが、第２挙動抽出部１１１が抽出した現在特定状況挙動のうち特定状況が一致する特定状況挙動および判定パターンと一致するかを判定する。

ステップＦ２において、挙動比較部１１２は、特定状況挙動データベース１０５２に登録されている全ての特定状況に対して現在特定状況挙動とのマッチングを行なったかを確認する。

確認の結果、現在特定状況挙動とのマッチングを行なっていない特定状況がある場合には（ステップＦ２のＮＯルート参照）、ステップＦ１に戻る。また、全ての特定状況に対して現在特定状況挙動とのマッチングを行なった場合には（ステップＦ２のＹＥＳルート参照）、処理を終了する。処理は、図１８に示す評価部１１３による処理に移行する。

次に、第１実施形態の一例としてのコンピュータシステム１における評価部１１３の処理を、図１８に示すフローチャート（ステップＧ１～Ｇ２）に従って説明する。

ステップＧ１において、挙動比較部１１２による比較結果が、メモリ１２や記憶装置１３の所定の記憶領域に記憶（蓄積，累積）される。

ステップＧ２において、評価部１１３は、挙動比較部１１２による比較結果に基づき、なりすまし度を表す値（なりすまし度評価値）を算出する。また、評価部１１３は、算出したなりすまし度評価値（なりすまし度）を、ディスプレイ１７に表示（出力）させることで受信者に通知する。その後、処理を終了する。

図１９は第１実施形態の一例としてのコンピュータシステム１におけるなりすまし検知処理を用いたシミュレーションを例示する図である。

この図１９においては、発信者と受信者との間でプリペイドカード詐欺のおそれがある遠隔会話が行なわれている例を示す。

図１９において、符号Ａは発信者と受信者との間で行なわれる遠隔会話のシナリオを示しており、下線を付した発言が受信者の発言を示し、下線のない発言が発信者の発言を示す。

また、図１９の符号Ｂは、情報処理装置１０の特定状況作成部１１０，特定状況モニタリング部１０８，第２挙動抽出部１１１および挙動比較部１１２の各処理を示す。また、この図１９には、特定状況挙動データベース１０５２も示している。

発信者が、困る時の挙動とともに「携帯が壊れて困っている」と発言すると（符号Ｐ１参照）、特定状況モニタリング部１０８が、この発言中の特定フレーズや発信者の特定表情に基づき、特定状況「困る時」を検出する（符号Ｐ２参照）。

第２挙動抽出部１１１は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部１０８が検知した特定状況と、第２特定状況判定部１０７によって発生させた特定状況とについて、発信者の特徴的な挙動（困る時の挙動）を検出する（符号Ｐ３参照）。

挙動比較部１１２は、第２挙動抽出部１１１が抽出した現在特定状況挙動（困る時の挙動）を、特定状況挙動データベース１０５２に登録されている挙動および判定パターンと比較する（符号Ｐ４参照）。

また、発信者が、嬉しい時の挙動とともに「嬉しい」との発言をすると（符号Ｐ５参照）、特定状況モニタリング部１０８が、この発言中の特定フレーズや発信者の特定表情に基づき、特定状況「嬉しい時」を検出する（符号Ｐ６参照）。

第２挙動抽出部１１１は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部１０８が検知した特定状況と、第２特定状況判定部１０７によって発生させた特定状況とについて、発信者の特徴的な挙動（嬉しい時の挙動）を検出する（符号Ｐ７参照）。

挙動比較部１１２は、第２挙動抽出部１１１が抽出した現在特定状況挙動（嬉しい時の挙動）を、特定状況挙動データベース１０５２に登録されている挙動および判定パターンと比較する（符号Ｐ８参照）。

ここで、特定状況挙動データベース１０５２には、特定状況「困る時」，「嬉しい時」の他に、特定状況「緊張する時」も記録されており、３つの特定状況が記録されている。

特定状況数算出部１０９は、特定状況挙動データベース１０５２に登録された全特定状況数（３）から、特定状況モニタリング部１０８が検出（判定）した判定済特定状況数（２）を減算することで、作成必要特定状況数（１）を求める。

特定状況作成部１１０は、特定状況挙動データベース１０５２に登録されているが、特定状況モニタリング部１０８によって検出されていない特定状況「緊張する時」を生じさせるための提示文を提示文データベース１０５５から取得し、受信者に提示する（符号Ｐ９参照）。

受信者は、ディスプレイ１７に表示された特定状況「緊張する時」を生じさせるための提示文（質問文，誘導文）を読み上げたり、当該提示文の内容に沿った質問文や誘導文を発信者に対して発話する。図１９に示す例においては、受信者は「見えてない。どうすればいい？」という質問文を発信者に対して発話する（符号Ｐ１０）。

この質問文に対して発信者が、緊張する時の挙動とともに「え、本当？」との発言をする（符号Ｐ１１参照）。

第２挙動抽出部１１１は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部１０８が検知した特定状況と、第２特定状況判定部１０７によって発生させた特定状況とについて、発信者の特徴的な挙動（緊張する時の挙動）を検出する（符号Ｐ１２参照）。

挙動比較部１１２は、第２挙動抽出部１１１が抽出した現在特定状況挙動（緊張する時の挙動）を、特定状況挙動データベース１０５２に登録されている挙動および判定パターンと比較する（符号Ｐ１３参照）。

これにより、特定状況挙動データベース１０５２に登録されている全特定状況に対応する現在特定状況挙動が得られ、その後、挙動比較部１１２および評価部１１３による処理が実行される。

（Ｃ）効果
このように、第１実施形態の一例としてのコンピュータシステム１によれば、特定状況モニタリング部１０８が特定状況をモニタリングし、特定状況作成部１１０が特定状況を発生させる。これにより、過去の遠隔会話において検出された特定状況を遠隔会話中に発生させることができる。

そして、このような特定状況において過去に検知された発信者の挙動と、遠隔会話中に発生させた特定状況での発信者がリアルタイムにとる挙動とを挙動比較部１１２が比較し、評価部１１３が評価（なりすまし度を算出）することで、遠隔会話中の発信者が攻撃者によるなりすましであるかを容易に判定することができる。

特定状況作成部１１０が、相手が想定挙動を取った状況になるように、受信者に対して発信者へ質問させる提示文を出力したり、受信者に誘導を行な提示文を出力することで、容易に特定状況を生じさせることができる。

（ＩＩ）第２実施形態の説明
（Ａ）構成
図２０は第２実施形態の一例としてのコンピュータシステム１の機能構成を例示する図である。

この図２０に示すように、第２実施形態のコンピュータシステム１は、第１実施形態のコンピュータシステム１の特定状況数算出部１０９に代えて特定状況選別部１１４をそなえるものであり、その他の部分は第１実施形態のコンピュータシステム１と同様に構成されている。

本第２実施形態においては、プロセッサ１１が判定プログラムを実行することで、第１入力部１０１，第１特定状況判定部１０２，第１挙動抽出部１０３，特定状況挙動格納処理部１０４，第２入力部１０６，第２特定状況判定部１０７（特定状況選別部１１４，特定状況モニタリング部１０８および特定状況作成部１１０），第２挙動抽出部１１１，挙動比較部１１２および評価部１１３としての機能が実現される。

図中、既述の符号と同一の符号は同様の部分を示しているので、その説明は省略する

特定状況選別部１１４は、特定状況モニタリング部１０８に進行中の遠隔会話の映像中から検出させる特定状況と、特定状況作成部１１０に発生させる特定状況とを切り分ける。

特定状況選別部１１４は、特定状況挙動データベース１０５２から、特定状況を取得する。

そして、特定状況選別部１１４は、特定状況の種類毎に特定状況の出現頻度を算出する。特定状況選別部１１４は、全ての特定状況種類に対して出現頻度の算出を行なう。

特定状況選別部１１４は、算出した特定状況の種類毎の出現頻度を、特定状況頻度データベース１０５６に登録する。

図２１は第２実施形態の一例としてのコンピュータシステム１における特定状況頻度データベース１０５６を例示する図である。

この図２１に例示する特定状況頻度データベース１０５６は、特定状況に対して頻度が対応付けられている。また、各特定状況には特定状況を表す種類も対応付けられている。

特定状況の出現頻度は、過去から現在までに累積され、入力データによって更新される。

特定状況選別部１１４は、特定状況の出現頻度が選別閾値Ｔｈより大きい場合に、当該特定状況を特定状況モニタリング部１０８に処理させるよう分類する。特定状況選別部１１４は、特定状況の出現頻度が選別閾値Ｔｈ以下の場合に、当該特定状況を特定状況作成部１１０に処理させるよう分類する。

選別閾値Ｔｈは、例えば、出現頻度中間値にしてもよく、受信者が事前に任意に設定してもよい。

例えば、図２１に例示する特定状況頻度データベース１０５６において、選別閾値Ｔｈ=8の場合に、特定状況「困る時」の頻度「10」は選別閾値Ｔｈ以上である。そこで、特定状況選別部１１４は、この特定状況「困る時」を特定状況モニタリング部１０８に処理させるよう分類する。

一方、特定状況「嬉しい時」の頻度は“8”であり、特定状況「緊張する時」の頻度は“5”であり、いずれも選別閾値Ｔｈ以下である。そこで、特定状況選別部１１４は、この特定状況「嬉しい」および特定状況「緊張する時」を、特定状況作成部１１０に処理させるよう分類する。

なお、特定状況選別部１１４は、全ての種類の特定状況を受信者に提示し、各特定状況を特定状況モニタリング部１０８と特定状況作成部１１０とのいずれに処理させるかを、受信者にそれぞれ選択させてもよい。

（Ｂ）動作
第２実施形態の一例としてのコンピュータシステム１における特定状況選別部１１４の処理を、図２２に示すフローチャート（ステップＨ１～Ｈ１６）にしたがって説明する。

ステップＨ１において、特定状況選別部１１４は、特定状況挙動データベース１０５２から、特定状況を取得する。

ステップＨ２において、特定状況選別部１１４は、特定状況の種類毎に特定状況の出現頻度を算出する。特定状況選別部１１４は、特定状況挙動データベース１０５２に登録された全ての特定状況に対して出現頻度の算出を行なう。また、特定状況選別部１１４は、算出した出現頻度を特定状況毎に累計する。

ステップＨ３において、特定状況選別部１１４は、特定状況挙動データベース１０５２に登録された全ての特定状況に対して出現頻度の算出を行なったかを確認する。

確認の結果、特定状況挙動データベース１０５２に登録された特定状況において、出現頻度の算出を行なっていないものがある場合には（ステップＨ３のＮＯルート参照）、ステップＨ２に戻る。

また、特定状況挙動データベース１０５２に登録された全ての特定状況の出現頻度の算出を行なった場合には（ステップＨ３のＹＥＳルート参照）、ステップＨ４に移行する。

ステップＨ４において、特定状況選別部１１４は、特定状況の出現頻度を選別閾値Ｔｈと比較する。比較の結果、特定状況の出現頻度が選別閾値Ｔｈより大きい場合に（ステップＨ４のＹＥＳルート参照）、特定状況選別部１１４は、当該特定状況を特定状況モニタリング部１０８に割り当てる（ステップＨ５）。

一方、特定状況の出現頻度が選別閾値Ｔｈ以下の場合に（ステップＨ４のＮＯルート参照）、特定状況選別部１１４は、当該特定状況を特定状況作成部１１０に割り当てる（ステップＨ６）。その後、処理を終了する。

次に、第２実施形態の一例としてのコンピュータシステム１における第２特定状況判定部１０７の処理を、図２３に示すフローチャート（ステップＤ２１，Ｄ２２，Ｄ２～Ｄ１０，Ｄ２３，Ｄ１３～Ｄ１６）に従って説明する。

図中、既述の符号と同一の符号を付した処理は同様の処理を示しているので、その説明は省略する。

本処理においては、第２特定状況判定部１０７に、進行中の遠隔会話の映像データが入力され、第２特定状況判定部１０７は、この進行中の遠隔会話の映像データに対して処理を行なう。
ステップＤ２１において、特定状況選別部１１４は、特定状況頻度データベース１０５６の頻度に基づき、特定状況を特定状況モニタリング部１０８に処理させるか、特定状況作成部１１０に処理させるかを選別する。

その後、ステップＤ２２およびステップＤ２３に移行する。

ステップＤ２２において、特定状況モニタリング部１０８は、自身に割り当てられた特定状況を取得する。その後、ステップＤ２～Ｄ１０の各処理が実行される。

一方、ステップＤ２３においては、特定状況作成部１１０は、自身に割り当てられた特定状況を取得する。その後、ステップＤ１３～Ｄ１６の各処理が実行される。

また、ステップＤ１０およびステップＤ１６の各処理の後に本フローは終了する。

図２４は第２実施形態の一例としてのコンピュータシステム１におけるなりすまし検知処理を用いたシミュレーションを例示する図である。

この図２４においても、発信者と受信者との間でプリペイドカード詐欺のおそれがある遠隔会話が行なわれている例を示す。

図２４において、符号Ａは発信者と受信者との間で行なわれる遠隔会話のシナリオを示しており、下線を付した発言が受信者の発言を示し、下線のない発言が発信者の発言を示す。

また、図２４の符号Ｂは、情報処理装置１０の特定状況選別部１１４，特定状況作成部１１０，特定状況モニタリング部１０８，第２挙動抽出部１１１および挙動比較部１１２の各処理を示す。また、この図２４には、特定状況挙動データベース１０５２も示している。

特定状況選別部１１４は、特定状況頻度データベース１０５６を参照して、特定状況「困る時」の出現頻度を選別閾値Ｔｈと比較し、当該特定状況「困る時」を特定状況モニタリング部１０８に割り当てる（符号Ｐ２参照）。
また、特定状況選別部１１４は、特定状況頻度データベース１０５６を参照し、特定状況「嬉しい時」の頻度を選別閾値Ｔｈと比較して、特定状況「嬉しい時」を特定状況作成部１１０に割り当てる（符号Ｐ６参照）。

また、特定状況選別部１１４は、特定状況頻度データベース１０５６を参照し、特定状況「緊張する時」の頻度を選別閾値Ｔｈと比較して、特定状況「緊張する時」を特定状況作成部１１０に割り当てる（符号Ｐ１２参照）。
すなわち、特定状況選別部１１４は、「困る時」、「嬉しい時」、「緊張する時」の各状況選別を一括で処理する。

特定状況モニタリング部１０８が、この発言中の特定フレーズや発信者の特定表情に基づき、特定状況「困る時」を検出する（符号Ｐ３参照）。
第２挙動抽出部１１１は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部１０８が検知した特定状況と、第２特定状況判定部１０７によって発生させた特定状況とについて、発信者の特徴的な挙動（困る時の挙動）を検出する（符号Ｐ４参照）。

挙動比較部１１２は、第２挙動抽出部１１１が抽出した現在特定状況挙動（困る時の挙動）を、特定状況挙動データベース１０５２に登録されている挙動および判定パターンと比較する（符号Ｐ５参照）。

特定状況作成部１１０は、特定状況「嬉しい時」を生じさせるための提示文を提示文データベース１０５５から取得し、受信者に提示する（符号Ｐ７参照）。

受信者は、ディスプレイ１７に表示された特定状況「嬉しい時」を生じさせるための提示文（質問文，誘導文）を読み上げたり、当該提示文の内容に沿った質問文や誘導文を発信者に対して発話する。図２４に示す例においては、受信者は「わかった」という発言を発信者に対して行なう（符号Ｐ８参照）。

この質問文に対して発信者が、嬉しい時の挙動とともに「嬉しい、助かる」との発言をすると（符号Ｐ９参照）、特定状況モニタリング部１０８が、この発言中の特定フレーズや発信者の特定表情に基づき、特定状況「嬉しい時」を検出する。

第２挙動抽出部１１１は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部１０８が検知した特定状況と、第２特定状況判定部１０７によって発生させた特定状況とについて、発信者の特徴的な挙動（嬉しい時の挙動）を検出する（符号Ｐ１０参照）。

挙動比較部１１２は、第２挙動抽出部１１１が抽出した現在特定状況挙動（嬉しい時の挙動）を、特定状況挙動データベース１０５２に登録されている挙動および判定パターンと比較する（符号Ｐ１１参照）。

特定状況作成部１１０は、特定状況「緊張する時」を生じさせるための提示文を提示文データベース１０５５から取得し、受信者に提示する（符号Ｐ１３参照）。

受信者は、ディスプレイ１７に表示された特定状況「緊張する時」を生じさせるための提示文（質問文，誘導文）を読み上げたり、当該提示文の内容に沿った質問文や誘導文を発信者に対して発話する。図２４に示す例においては、受信者は「見えていない。どうすればいい？」という発言を発信者に対して行なう（符号Ｐ１４参照）。

この質問文に対して発信者が、緊張する時の挙動とともに「え、本当？」との発言をすると（符号Ｐ１５参照）、特定状況モニタリング部１０８が、この発言中の特定フレーズや発信者の特定表情に基づき、特定状況「緊張する時」を検出する。

第２挙動抽出部１１１は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部１０８が検知した特定状況と、第２特定状況判定部１０７によって発生させた特定状況とについて、発信者の特徴的な挙動（緊張する時の挙動）を検出する（符号Ｐ１６参照）。

挙動比較部１１２は、第２挙動抽出部１１１が抽出した現在特定状況挙動（緊張する時の挙動）を、特定状況挙動データベース１０５２に登録されている挙動および判定パターンと比較する（符号Ｐ１７参照）。

（Ｃ）効果
このように、第２実施形態の一例としてのコンピュータシステム１によれば、上述した第１実施形態と同様の作用効果を得ることができる他、特定状況選別部１１４が、特定状況モニタリング部１０８に処理させる特定状況と、特定状況作成部１１０に処理させる特定状況とを選別する。

これにより、特定状況判定にかかる時間を短縮できる。また、特定状況選別処理は、過去の特定状況データが蓄積されることで選別精度をより高くすることができる。

（ＩＩＩ）第３実施形態の説明
（Ａ）構成
図２５は第３実施形態の一例としてのコンピュータシステム１の機能構成を例示する図である。

この図２５に示すように、第３実施形態のコンピュータシステム１は、第２実施形態のコンピュータシステム１の特定状況作成部１１０に、質問部１１５としての機能を備えるものであり、その他の部分は第２実施形態のコンピュータシステム１と同様に構成されている。

本第３実施形態においては、プロセッサ１１が判定プログラムを実行することで、第１入力部１０１，第１特定状況判定部１０２，第１挙動抽出部１０３，特定状況挙動格納処理部１０４，第２入力部１０６，第２特定状況判定部１０７（特定状況選別部１１４，特定状況モニタリング部１０８，特定状況作成部１１０および質問部１１５），第２挙動抽出部１１１，挙動比較部１１２および評価部１１３としての機能が実現される。

質問部１１５は、適用する特定状況を実現するための方法を受信者に提示し、受信者がこの提示された方法に従った対応を発信者に対して行なうことで、特定状況を発生させる。

質問部１１５は、例えば、特定状況と該当特定状況を実現するために受信者から発信者に対して発話すべき質問文とを受信者に提示する。

質問部１１５は、例えば、情報処理装置１０のディスプレイ１７に特定状況と当該特定状況を実現するための質問文を表示させる。

本第３実施形態のコンピュータシステム１においては、予め、複数種類の特定状況に対して、各特定状況を実現するために受信者から発信者に対して発話すべき質問文をそれぞれ対応付けた特定状況作成質問情報を、記憶装置１３等の所定の記憶領域に記憶させておく。

図２６は第３実施形態の一例としてのコンピュータシステム１における特定状況作成質問情報を例示する図である。

この図２６に例示する特定状況作成質問情報においては、特定状況に対して、挙動パターンと提示方法（質問）とが対応付けられている。

提示方法（質問）は受信者に対して提示されるアドバイスであり、例えば、特定状況「嬉しい時」に提示方法（質問）として“「困っている？困っているときいつもの挙動は？」と質問”が設定されている。

受信者がこの提示方法（質問）に従って、発信者に対して「困っている？困っているときいつもの挙動は？」と質問することで、発信者に特定状況「困る時」の挙動をとらせることができる。

（Ｂ）動作
第３実施形態の一例としてのコンピュータシステム１における第２特定状況判定部１０７の処理を、図２７に示すフローチャート（ステップＤ２１，Ｄ２２，Ｄ２～Ｄ１０，Ｄ２３，Ｄ１３，Ｄ３１，Ｄ１５，Ｄ１６）に従って説明する。

ステップＤ３１において、質問部１１５が、特定状況を実現するための方法（質問文）を受信者に提示し、受信者がこの提示された質問文を発信者に対して行なうことで、特定状況を発生させる。

その後、ステップＤ１５，Ｄ１６の処理が行なわれ、処理が終了する。

（Ｃ）効果
このように、第３実施形態の一例としてのコンピュータシステム１によれば、上述した第２実施形態と同様の作用効果を得ることができる他、質問部１１５が、特定状況を実現するための方法（質問文）を受信者に提示し、受信者がこの提示された質問文を発信者に対して行なうことで、特定状況を発生させる。これにより、特定状況を確実に発生させることができる。

（ＩＶ）第４実施形態の説明
（Ａ）構成
図２８は第４実施形態の一例としてのコンピュータシステム１の機能構成を例示する図である。

この図２８に示すように、第４実施形態のコンピュータシステム１は、第３実施形態のコンピュータシステム１の特定状況作成部１１０に、質問部１１５の代わりに誘導部１１６としての機能を備えるものであり、その他の部分は第３実施形態のコンピュータシステム１と同様に構成されている。

本第４実施形態においては、プロセッサ１１が判定プログラムを実行することで、第１入力部１０１，第１特定状況判定部１０２，第１挙動抽出部１０３，特定状況挙動格納処理部１０４，第２入力部１０６，第２特定状況判定部１０７（特定状況選別部１１４，特定状況モニタリング部１０８，特定状況作成部１１０および誘導部１１６），第２挙動抽出部１１１，挙動比較部１１２および評価部１１３としての機能が実現される。

誘導部１１６は、適用する特定状況を実現するための方法を受信者に提示し、受信者がこの提示された方法に従った対応を発信者に対して行なうことで、特定状況を発生させる。

誘導部１１６は、例えば、特定状況と該当特定状況を実現するために受信者が発信者を誘導するために行なうべき動作とを受信者に提示する。

誘導部１１６は、例えば、情報処理装置１０のディスプレイ１７に特定状況と当該特定状況に導くために受信者が行なうべき動作とを表示させる。

本第４実施形態のコンピュータシステム１においては、予め、複数種類の特定状況に対して、各特定状況を実現するために受信者が行なうべき行動内容をそれぞれ対応付けた特定状況誘導情報を、記憶装置１３等の所定の記憶領域に記憶させておく。

図２９は第４実施形態の一例としてのコンピュータシステム１における特定状況誘導情報を例示する図である。

この図２９に例示する特定状況誘導情報においては、特定状況に対して、挙動パターンと提示方法（誘導）とが対応付けられている。

挙動パターンは、例えば、過去に行なわれた遠隔会話において発信者において検出された挙動パターンである。例えば、特定状況「怒る時」に、挙動パターンとして“同じ単語を１０回繰り返すと怒る”と設定されている。

提示方法（誘導）は、特定状況を発生させるために受信者が行なうべき行動を示す情報（アドバイス）であり、例えば、特定状況「怒る時」に“同じ単語を１０回相手に言う”と設定されている。

誘導部１１６は、特定状況誘導情報から特定状況に対応する提示方法（誘導）の内容を読み出し、受信者に提示する。

特定状況誘導情報は、受信者が任意に設定してもよい。また、例えば、本コンピュータシステム１において、特定状況挙動データベース１０５２を作成する際に検出した挙動を用いてシステムが生成してもよい。

（Ｂ）動作
第４実施形態の一例としてのコンピュータシステム１における第２特定状況判定部１０７の処理を、図３０に示すフローチャート（ステップＤ２１，Ｄ２２，Ｄ２～Ｄ１０，Ｄ２３，Ｄ１３，Ｄ４１，Ｄ１５，Ｄ１６）に従って説明する。

ステップＤ４１において、誘導部１１６が、特定状況誘導情報から取得した特定状況に対応する提示方法（誘導）の内容を受信者に提示し、受信者がこの提示された内容に従った行動を行なうことで、特定状況を発生させる。

（Ｃ）効果
このように、第４実施形態の一例としてのコンピュータシステム１によれば、上述した第３実施形態と同様の作用効果を得ることができる他、誘導部１１６が、特定状況を実現するために行なうべき行動内容を受信者に提示し、受信者がこの提示された行動を発信者に対して行なうことで、特定状況を発生させる。これにより、特定状況を確実に発生させることができる

（Ｖ）その他
上述した各実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

そして、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。

上述した各実施形態においては、映像が動画像であり、対話者端末２から動画像が送信される例を示しているが、これに限定されるものではない。例えば、対話者端末２から音声のみが送信されてもよい。

この場合に、対話者端末２から送信された音声から、抑揚やリズム等の韻律やフレーズ等を抽出して特定状況挙動として用いてもよい。

また、上述した各実施形態においては、発信者と受信者とが１対１で遠隔会話を行なう例を示したが、これに限定されるものではない。受信者は、１対多、多対多での遠隔会話で各実施形態に示すなりすまし検知を行なってもよい。

また、上述した開示により本実施形態を当業者によって実施・製造することが可能である

（ＶＩ）付記
以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）
第１のアカウントと第２のアカウントとの間で行なわれた第１の遠隔通話において生成された映像又は音声のいずれかを含む第１のセンシングデータと、前記第１のアカウントと前記第２のアカウントとの間で行なわれた第２の遠隔通話において生成された映像又は音声のいずれかを含む第２のセンシングデータとを受け付け、
前記第２のセンシングデータにおいて前記第１のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、前記第１のセンシングデータにおいて前記第１のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を前記特定の状況に対応付けて記憶する記憶部を参照して、
前記記憶部における前記特定の状況に対する前記特徴情報と、前記第２のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう
処理をコンピュータが実行することを特徴とする判定方法。

（付記２）
前記特定の状況の発生を検出する処理は、
前記第１のセンシングデータまたは前記第２のセンシングデータに対して解析処理を行なって特定の解析結果を検出した場合に、当該特定の解析結果に予め対応付けられた状況を、前記特定の状況として決定する処理を含む
ことを特徴とする付記１に記載の判定方法。

（付記３）
前記なりすましに関する判定を行なう処理は、
前記第１のセンシングデータから抽出された前記特定の状況における前記特徴情報と、前記第２のセンシングデータから抽出された前記特定の状況における前記特徴情報との一致数に基づいて、前記なりすましを判定する指標値を算出する処理を含む
ことを特徴とする付記１または２に記載の判定方法。

（付記４）
前記第１のセンシングデータが、過去に前記第１のアカウントと前記第２のアカウントとの間で行なわれた遠隔通話における前記第１のアカウントを撮影した映像を含み、
前記第２のセンシングデータが、前記第１のアカウントと前記第２のアカウントとの間で進行中の遠隔通話における前記第１のアカウントを撮影した映像を含む
ことを特徴とする付記１～３のいずれか１項に記載の判定方法。

（付記５）
前記第１のセンシングデータに基づいて検出された、前記第１のアカウンに応じた人物にとっての特定の状況が、前記第２のセンシングデータに基づいて検出された、前記第１のアカウントに応じた人物にとっての特定の状況と異なる場合に、
前記進行中の遠隔通話を行なう前記第２のアカウントに応じた人物に対して提示情報を出力することで、前記第１のアカウントに応じた人物にとっての特定の状況を発生させる特定状況作成処理
を前記コンピュータが実行することを特徴とする付記４に記載の判定方法。

（付記６）
前記コンピュータが、
前記第２のセンシングデータに基づいて検出された、前記第１のアカウントに応じた人物にとっての特定の状況の出現頻度を算出し、
前記出現頻度が閾値より大きい場合に、前記特定の状況を検出する処理を行ない、
出現頻度が前記閾値以下の場合に、前記特定状況作成処理を行なう
ことを特徴とする付記５に記載の判定方法。

（付記７）
前記提示情報が、前記第２のアカウントに応じた人物から前記第１のアカウントに対して発話される質問文である
ことを特徴とする、付記５または６に記載の判定方法。

（付記８）
前記提示情報が、前記第２のアカウントに応じた人物が前記第１のアカウントに対して行なうべき行動を示す情報抽出学習データである
ことを特徴とする、付記５～７のいずれか１項に記載の判定方法。

（付記９）
第１のアカウントと第２のアカウントとの間で行なわれた第１の遠隔通話において生成された映像又は音声のいずれかを含む第１のセンシングデータと、前記第１のアカウントと前記第２のアカウントとの間で行なわれた第２の遠隔通話において生成された映像又は音声のいずれかを含む第２のセンシングデータとを受け付ける入力部と、
前記第２のセンシングデータに基づき、前記第１のアカウンに応じた人物にとって特定の状況が発生したことを検知すると、前記第１のセンシングデータにおいて前記第１のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を記憶する記憶部を参照して、前記記憶部における前記特定の状況に対する前記特徴情報と、前記第２のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう判定部と
を備えることを特徴とする情報処理装置。

（付記１０）
前記第１のセンシングデータまたは前記第２のセンシングデータに対して解析処理を行なって特定の解析結果を検出した場合に、当該特定の解析結果に予め対応付けられた状況を、前記特定の状況として決定する特定状況検出部を備える
ことを特徴とする付記９に記載の情報処理装置。

（付記１１）
前記判定部は、
前記第１のセンシングデータから抽出された前記特定の状況における前記特徴情報と、前記第２のセンシングデータから抽出された前記特定の状況における前記特徴情報との一致数に基づいて、前記なりすましを判定する指標値を算出する
ことを特徴とする付記９または１０に記載の情報処理装置。

（付記１２）
前記第１のセンシングデータが、過去に前記第１のアカウントと前記第２のアカウントとの間で行なわれた遠隔通話における前記第１のアカウントを撮影した映像を含み、
前記第２のセンシングデータが、前記第１のアカウントと前記第２のアカウントとの間で進行中の遠隔通話における前記第１のアカウントを撮影した映像を含む
ことを特徴とする付記９～１１のいずれか１項に記載の情報処理装置。

（付記１３）
前記第１のセンシングデータに基づいて検出された、前記第１のアカウントに応じた人物にとっての特定の状況が、前記第２のセンシングデータに基づいて検出された、前記第１のアカウントに応じた人物にとっての特定の状況と異なる場合に、前記進行中の遠隔通話を行なう前記第２のアカウントに応じた人物に対して提示情報を出力することで、前記第１のアカウントに応じた人物とっての特定の状況を発生させる特定状況作成部
を備えることを特徴とする付記１２に記載の情報処理装置。

（付記１４）
前記第２のセンシングデータに基づいて検出された、前記第１のアカウントに応じた人物にとっての特定の状況の出現頻度を算出し、
前記出現頻度が閾値より大きい場合に、前記特定状況検出部に処理を実行させ、
出現頻度が前記閾値以下の場合に、前記特定状況作成部に処理を実行させる
特定状況選別部を備える
ことを特徴とする付記１３に記載の情報処理装置。

（付記１５）
前記提示情報が、前記第２のアカウントに応じた人物から前記第１のアカウントに対して発話される質問文である
ことを特徴とする、付記１３または１４に記載の情報処理装置。

（付記１６）
前記提示情報が、前記第２のアカウントに応じた人物が前記第１のアカウントに対して行なうべき行動を示す情報抽出学習データである
ことを特徴とする、付記１３～１５のいずれか１項に記載の情報処理装置。

（付記１７）
第１のアカウントと第２のアカウントとの間で行なわれた第１の遠隔通話において生成された映像又は音声のいずれかを含む第１のセンシングデータと、前記第１のアカウントと前記第２のアカウントとの間で行なわれた第２の遠隔通話において生成された映像又は音声のいずれかを含む第２のセンシングデータとを受け付け、
前記第２のセンシングデータにおいて前記第１のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、前記第１のセンシングデータにおいて前記第１のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を前記特定の状況に対応付けて記憶する記憶部を参照して、
前記記憶部における前記特定の状況に対する前記特徴情報と、前記第２のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう
処理をコンピュータに実行させることを特徴とする判定プログラム。

（付記１８）
特定の状況の発生を検出する処理は、
前記第１のセンシングデータまたは前記第２のセンシングデータに対して解析処理を行なって特定の解析結果を検出した場合に、当該特定の解析結果に予め対応付けられた状況を、前記特定の状況として決定する処理を含む
ことを特徴とする付記１７に記載の判定プログラム。

（付記１９）
前記なりすましに関する判定を行なう処理は、
前記第１のセンシングデータから抽出された前記特定の状況における前記特徴情報と、前記第２のセンシングデータから抽出された前記特定の状況における前記特徴情報との一致数に基づいて、前記なりすましを判定する指標値を算出する処理を含む
ことを特徴とする付記１７または１８に記載の判定プログラム。

（付記２０）
前記第１のセンシングデータが、過去に前記第１のアカウントと前記第２のアカウントとの間で行なわれた遠隔通話における前記第１のアカウントを撮影した映像を含み、
前記第２のセンシングデータが、前記第１のアカウントと前記第２のアカウントとの間で進行中の遠隔通話における前記第１のアカウントを撮影した映像を含む
ことを特徴とする付記１７～１９のいずれか１項に記載の判定プログラム。

（付記２１）
前記第１のセンシングデータに基づいて検出された、前記第１のアカウントに応じた人物にとっての特定の状況が、前記第２のセンシングデータに基づいて検出された、前記第１のアカウントに応じた人物にとっての特定の状況と異なる場合に、
前記進行中の遠隔通話を行なう前記第２のアカウントに応じた人物に対して提示情報を出力することで、前記第１のアカウントに応じた人物にとっての特定の状況を発生させる特定状況作成処理
を前記コンピュータに実行させることを特徴とする付記２０に記載の判定プログラム。

（付記２２）
前記第２のセンシングデータに基づいて検出された、前記第１のアカウントに応じた人物にとっての特定の状況の出現頻度を算出し、
前記出現頻度が閾値より大きい場合に、前記特定の状況を検出する処理を行ない、
出現頻度が前記閾値以下の場合に、前記特定状況作成処理を行なう
処理を前記コンピュータに実行させることを特徴とする付記２１に記載の判定プログラム。

（付記２３）
前記提示情報が、前記第２のアカウントに応じた人物から前記第１のアカウントに対して発話される質問文である
ことを特徴とする、付記２１または２２に記載の判定プログラム。

（付記２４）
前記提示情報が、前記第２のアカウントに応じた人物が前記第１のアカウントに対して行なうべき行動を示す情報抽出学習データである
ことを特徴とする、付記２１～２３のいずれか１項に記載の判定プログラム。

１コンピュータシステム
２対話者端末
１０情報処理装置
１１プロセッサ
１２メモリ
１３記憶装置
１４カメラ
１４ａモニタ
１５キーボード
１６マウス
１７ディスプレイ
１８ネットワーク
１０１第１入力部
１０２第１特定状況判定部
１０３第１挙動抽出部
１０４特定状況挙動格納処理部
１０５データベース群
１０６第２入力部
１０７第２特定状況判定部
１０８特定状況モニタリング部
１０９特定状況算出部
１１０特定状況作成部
１１１第２挙動抽出部
１１２挙動比較部
１１３評価部
１１４特定状況選別部
１０５１特定状況データベース
１０５２特定状況挙動データベース
１０５３特定状況数データベース
１０５４特徴量抽出データベース
１０５５提示文データベース
１０５６特定状況頻度データベース

Claims

第１のアカウントと第２のアカウントとの間で行なわれた第１の遠隔通話において生成された映像又は音声のいずれかを含む第１のセンシングデータと、前記第１のアカウントと前記第２のアカウントとの間で行なわれた第２の遠隔通話において生成された映像又は音声のいずれかを含む第２のセンシングデータとを受け付け、
前記第２のセンシングデータにおいて前記第１のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、前記第１のセンシングデータにおいて前記第１のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を前記特定の状況に対応付けて記憶する記憶部を参照して、
前記記憶部における前記特定の状況に対する前記特徴情報と、前記第２のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう
処理をコンピュータが実行することを特徴とする判定方法。
前記特定の状況の発生を検出する処理は、
前記第１のセンシングデータまたは前記第２のセンシングデータに対して解析処理を行なって特定の解析結果を検出した場合に、当該特定の解析結果に予め対応付けられた状況を、前記特定の状況として決定する処理を含む
ことを特徴とする請求項１に記載の判定方法。
前記なりすましに関する判定を行なう処理は、
前記第１のセンシングデータから抽出された前記特定の状況における前記特徴情報と、前記第２のセンシングデータから抽出された前記特定の状況における前記特徴情報との一致数に基づいて、前記なりすましを判定する指標値を算出する処理を含む
ことを特徴とする請求項１または２に記載の判定方法。
前記第１のセンシングデータが、過去に前記第１のアカウントと前記第２のアカウントとの間で行なわれた遠隔通話における前記第１のアカウントを撮影した映像を含み、
前記第２のセンシングデータが、前記第１のアカウントと前記第２のアカウントとの間で進行中の遠隔通話における前記第１のアカウントを撮影した映像を含む
ことを特徴とする請求項１～３のいずれか１項に記載の判定方法。
前記第１のセンシングデータに基づいて検出された、前記第１のアカウントに応じた人物にとっての特定の状況が、前記第２のセンシングデータに基づいて検出された、前記第１のアカウントに応じた人物にとっての特定の状況と異なる場合に、
前記進行中の遠隔通話を行なう前記第２のアカウントに応じた人物に対して提示情報を出力することで、前記第１のアカウントに応じた人物にとっての特定の状況を発生させる特定状況作成処理
を前記コンピュータが実行することを特徴とする請求項４に記載の判定方法。
前記コンピュータが、
前記第２のセンシングデータに基づいて検出された、前記第１のアカウントに応じた人物にとっての特定の状況の出現頻度を算出し、
前記出現頻度が閾値より大きい場合に、前記特定の状況を検出する処理を行ない、
出現頻度が前記閾値以下の場合に、前記特定状況作成処理を行なう
ことを特徴とする請求項５に記載の判定方法。
前記提示情報が、前記第２のアカウントに応じた人物から前記第１のアカウントに対して発話される質問文である
ことを特徴とする、請求項５または６に記載の判定方法。
前記提示情報が、前記第２のアカウントに応じた人物が前記第１のアカウントに対して行なうべき行動を示す情報抽出学習データである
ことを特徴とする、請求項５～７のいずれか１項に記載の判定方法。
第１のアカウントと第２のアカウントとの間で行なわれた第１の遠隔通話において生成された映像又は音声のいずれかを含む第１のセンシングデータと、前記第１のアカウントと前記第２のアカウントとの間で行なわれた第２の遠隔通話において生成された映像又は音声のいずれかを含む第２のセンシングデータとを受け付ける入力部と、
前記第２のセンシングデータに基づき、前記第１のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、前記第１のセンシングデータにおいて前記第１のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を記憶する記憶部を参照して、前記記憶部における前記特定の状況に対する前記特徴情報と、前記第２のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう判定部とを備えることを特徴とする情報処理装置。
第１のアカウントと第２のアカウントとの間で行なわれた第１の遠隔通話において生成された映像又は音声のいずれかを含む第１のセンシングデータと、前記第１のアカウントと前記第２のアカウントとの間で行なわれた第２の遠隔通話において生成された映像又は音声のいずれかを含む第２のセンシングデータとを受け付け、
前記第２のセンシングデータにおいて前記第１のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、前記第１のセンシングデータにおいて前記第１のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を前記特定の状況に対応付けて記憶する記憶部を参照して、
前記記憶部における前記特定の状況に対する前記特徴情報と、前記第２のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう処理をコンピュータに実行させることを特徴とする判定プログラム。