JP2023094428A - 判定方法,情報処理装置および判定プログラム - Google Patents

判定方法,情報処理装置および判定プログラム Download PDF

Info

Publication number
JP2023094428A
JP2023094428A JP2021209901A JP2021209901A JP2023094428A JP 2023094428 A JP2023094428 A JP 2023094428A JP 2021209901 A JP2021209901 A JP 2021209901A JP 2021209901 A JP2021209901 A JP 2021209901A JP 2023094428 A JP2023094428 A JP 2023094428A
Authority
JP
Japan
Prior art keywords
specific situation
behavior
account
specific
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021209901A
Other languages
English (en)
Inventor
明燮 鄭
Mingbian Zheng
潤 高橋
Jun Takahashi
敏幸 吉武
Toshiyuki Yoshitake
健太郎 辻
Kentaro Tsuji
雅芳 清水
Masayoshi Shimizu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2021209901A priority Critical patent/JP2023094428A/ja
Priority to US17/960,200 priority patent/US20230208966A1/en
Publication of JP2023094428A publication Critical patent/JP2023094428A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/18Comparators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42008Systems for anonymous communication between parties, e.g. by use of disposal contact identifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Technology Law (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Figure 2023094428000001
【課題】遠隔通話におけるなりすましの検知精度を向上させることができるようにする。
【解決手段】第1の遠隔通話において生成された映像又は音声のいずれかを含む第1のセンシングデータと第2の遠隔通話において生成された映像又は音声のいずれかを含む第2のセンシングデータとを受け付ける入力部101と、第2のセンシングデータに基づき、第1のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、第1のセンシングデータにおいて特定の状況が発生した際に抽出された特徴情報を記憶する記憶部を参照して、記憶部における特定の状況に対する特徴情報と、第2のセンシングデータから検知された特定の状況に対する特徴情報との一致状態に基づき、なりすましに関する判定を行なう判定部113とを備える。
【選択図】図2

Description

本発明は、判定方法,情報処理装置および判定プログラムに関する。
近年、AI(Artificial Intelligence)を使って生成・編集した画像や音声を使った合成メディア(Synthetic Media)が開発され、様々な分野での活用が期待されている。その反面、不正な目的で操作された合成メディアが社会問題となっている。
不正な目的で操作された合成メディアをディープフェイクといってもよい。また、ディープフェイクにより生成されたフェイク画像をディープフェイク画像といってもよく、ディープフェイクにより生成されたフェイク映像をディープフェイク映像といってもよい。
AIの技術進化と計算機資源の充実により、実際には存在しないディープフェイク画像・ディープフェイク映像の生成が技術的に可能となり、ディープフェイク画像・ディープフェイク映像による詐欺被害等が発生し社会問題となっている。
そして、ディープフェイク画像やディープフェイク映像がなりすましに悪用されることで、被害はさらに大きくなるおそれがある。
合成メディアによるディープフェイク映像を検知するために、例えば、インターネットを介した遠隔会話時に、遠隔対話から過去と現時点の挙動を比較して、挙動が一致しない場合は参加者本人ではないと警告する手法が知られている。
特許第6901190号明細書 特開2008-15800号公報
しかしながら、このような従来のディープフェイクの判定手法においては、現時点で出るべき過去の挙動が出ない場合には挙動の比較できず、判定を行なうことができない。
例えば、過去に楽しい会話で笑うとき手で口を覆い隠す挙動があったが、現時点は悲しい内容の会話を行なっており、過去において検出された挙動が出ていない場合には、判定を行なうことができない。
また、過去のデータから挙動が模倣されることで、現時点の挙動と類似する場合は、ディープフェイクの判定が困難である。
1つの側面では、本発明は、遠隔通話におけるなりすましの検知精度を向上させることができるようにする。
このため、この判定方法は、第1のアカウントと第2のアカウントとの間で行なわれた第1の遠隔通話において生成された映像又は音声のいずれかを含む第1のセンシングデータと、前記第1のアカウントと前記第2のアカウントとの間で行なわれた第2の遠隔通話において生成された映像又は音声のいずれかを含む第2のセンシングデータとを受け付け、前記第2のセンシングデータにおいて前記第1のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、前記第1のセンシングデータにおいて前記第1のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を前記特定の状況に対応付けて記憶する記憶部を参照して、前記記憶部における前記特定の状況に対する前記特徴情報と、前記第2のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう。
一実施形態によれば、遠隔通話におけるなりすましの検知精度を向上させることができる。
第1実施形態の一例としてのコンピュータシステムのハードウェア構成を模式的に示す図である。 第1実施形態の一例としてのコンピュータシステムの機能構成を例示する図である。 第1実施形態の一例としてのコンピュータシステムにおけるデータベース群に含まれる複数のデータベースを例示する図である。 第1実施形態の一例としてのコンピュータシステムにおける特定状況データベース1051を例示する図である。 第1実施形態の一例としてのコンピュータシステムにおける特徴量抽出データベースを例示する図である。 第1実施形態の一例としてのコンピュータシステムにおける、特定状況挙動を例示する図である。 第1実施形態の一例としてのコンピュータシステムにおける特定状況数データベースを例示する図である。 第1実施形態の一例としてのコンピュータシステムにおける特定状況挙動データベースを例示する図である。 第1実施形態の一例としてのコンピュータシステムにおける提示文データベースを例示する図である。 第1実施形態の一例としてのコンピュータシステムにおける挙動比較部による処理を説明するための図である。 第1実施形態の一例としてのコンピュータシステムにおけるなりすまし検知結果の出力イメージを例示する図である。 第1実施形態の一例としてのコンピュータシステムにおける第1特定状況判定部の処理を説明するためのフローチャートである。 第1実施形態の一例としてのコンピュータシステムにおける第1挙動抽出部の処理を説明するためのフローチャートである。 第1実施形態の一例としてのコンピュータシステムにおける特定状況挙動格納処理部の処理を説明するためのフローチャートである。 第1実施形態の一例としてのコンピュータシステムにおける第2特定状況判定部の処理を説明するためのフローチャートである。 第1実施形態の一例としてのコンピュータシステムにおける第2挙動抽出部の処理を説明するためのフローチャートである。 第1実施形態の一例としてのコンピュータシステムにおける挙動比較部の処理を説明するためのフローチャートである。 第1実施形態の一例としてのコンピュータシステムにおける評価部の処理を説明するためのフローチャートである。 第1実施形態の一例としてのコンピュータシステムにおけるなりすまし検知処理を用いたシミュレーションを例示する図である。 第2実施形態の一例としてのコンピュータシステムの機能構成を例示する図である。 第2実施形態の一例としてのコンピュータシステムにおける特定状況頻度データベースを例示する図である。 第2実施形態の一例としてのコンピュータシステムにおける特定状況選別部の処理を説明するためのフローチャートである。 第2実施形態の一例としてのコンピュータシステムにおける第2特定状況判定部の処理を説明するためのフローチャートである。 第2実施形態の一例としてのコンピュータシステムにおけるなりすまし検知処理を用いたシミュレーションを例示する図である。 第3実施形態の一例としてのコンピュータシステムの機能構成を例示する図である。 第3実施形態の一例としてのコンピュータシステムにおける特定状況作成質問情報を例示する図である。 第3実施形態の一例としてのコンピュータシステムにおける第2特定状況判定部の処理を説明するためのフローチャートである。 第4実施形態の一例としてのコンピュータシステムの機能構成を例示する図である。 第4実施形態の一例としてのコンピュータシステムにおける特定状況誘導情報を例示する図である。 第4実施形態の一例としてのコンピュータシステムにおける第2特定状況判定部の処理を説明するためのフローチャートである。
以下、図面を参照して本判定方法,情報処理装置および判定プログラムにかかる実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形(各実施形態を組み合わせる等)して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
(I)第1実施形態の説明
(A)構成
図1は第1実施形態の一例としてのコンピュータシステム1のハードウェア構成を模式的に示す図、図2はその機能構成を例示する図である。
図1に例示するコンピュータシステム1は、情報処理装置10と対話者端末2とをそなえる。これらの情報処理装置10と対話者端末2とはネットワーク18を介して相互に通信可能に接続されている。
コンピュータシステム1は、情報処理装置10の利用者と対話者端末2の利用者との間でネットワーク18を介して遠隔会話を実現する。
遠隔通話は、遠隔通話に参加可能に設定された複数のアカウントのうち、2つ以上のアカウント間で行なわれる。
本コンピュータシステム1においては、情報処理装置10において、対話者端末2から送信される映像が、対話者端末2の利用者本人のものであるか、攻撃者が合成メディアにより生成したフェイク映像(ディープフェイク映像)であるかを検知するなりすまし検知処理を実現する。
以下、対話者端末2の利用者本人を発信者という場合があり、情報処理装置10の利用者を受信者という場合がある。攻撃者はこの発信者になりすまして、発信者のアカウント(第1のアカウント)を用いて受信者と遠隔会話を行なう。攻撃者がディープフェイク映像を用いたなりすましを行なう場合には、発信者は実際には攻撃者である。発信者もしくは発信者になりすました攻撃者は第1のアカウントで遠隔通話に参加する。また、受信者は第2のアカウントで遠隔通話に参加する。
本コンピュータシステム1においては、一般的に、どんなとき取った挙動かわかっている状況(以降、特定状況という)で取った挙動は、同様の状況において、何の制約もない場合に比べて、その挙動を取る可能性が高い。そして、過去に取った挙動の特定状況を再現することで、過去に取った挙動をとらせることができるということを前提としてなりすまし検知を実現する。
また、攻撃者は、発信者のみの過去の遠隔会話のデータ(映像データ)から発信者の挙動を模倣するものとする。そのため、攻撃者は発信者が特定の挙動を取った特定状況が分からない。
特定状況において受信者が受け取る挙動パターンは、通常、なりすまし無の場合(すなわち発信者による挙動)となりすまし有の場合(すなわち攻撃者による挙動)とで異なるものとする。
受信者は、発信者との間で行なわれた遠隔会話の履歴データ(過去映像)から、発信者が過去の特定状況で取った挙動を知ることができるものとする。
攻撃者が参照可能な過去映像は発信者が映った映像のみであり、受信者が参照可能な過去映像は発信者が映った映像と受信者が映った映像との両方であるものとする。
情報処理装置10は、図1に示すように、プロセッサ11,メモリ12,記憶装置13,カメラ14,キーボード15,マウス16,ディスプレイ17およびデータベース群105を備える。
プロセッサ(制御部)11は、情報処理装置10全体を制御するプロセッサである。プロセッサ11は、マルチプロセッサであってもよい。プロセッサ11は、例えば、CPU(Central Processing Unit),MPU(Micro Processing Unit),DSP(Digital Signal Processor),ASIC(Application Specific Integrated Circuit),PLD(Programmable Logic Device),FPGA(Field Programmable Gate Array)のいずれか一つであってもよい。また、CPUに代えて、CPU,MPU,DSP,ASIC,PLD,FPGAのうちの2種類以上の要素の組み合わせであってもよい。プロセッサ11は、GPU(Graphics Processing Unit)であってもよい。
そして、本コンピュータシステム1においては、プロセッサ11が判定プログラムを実行することで、図2を用いて後述する、第1入力部101,第1特定状況判定部102,第1挙動抽出部103,特定状況挙動格納処理部104,第2入力部106,第2特定状況判定部107,第2挙動抽出部111,挙動比較部112および評価部113としての機能を実現する。
なお、これらの第1入力部101,第1特定状況判定部102,第1挙動抽出部103,特定状況挙動格納処理部104,第2入力部106,第2特定状況判定部107,第2挙動抽出部111,挙動比較部112および評価部113としての機能を実現するためのプログラム(判定プログラム)は、例えばフレキシブルディスク,CD(CD-ROM,CD-R,CD-RW等),DVD(DVD-ROM,DVD-RAM,DVD-R,DVD+R,DVD-RW,DVD+RW,HD DVD等),ブルーレイディスク,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、情報処理装置10はその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。また、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。
第1入力部101,第1特定状況判定部102,第1挙動抽出部103,特定状況挙動格納処理部104,第2入力部106,第2特定状況判定部107,第2挙動抽出部111,挙動比較部112および評価部113としての機能を実現する際には、内部記憶装置(メモリ12)に格納されたプログラムがコンピュータのマイクロプロセッサ(プロセッサ11)によって実行される。このとき、記録媒体に記録されたプログラムをコンピュータが読み取って実行するようにしてもよい。
メモリ12はROM(Read Only Memory)およびRAM(Random Access Memory)を含む記憶メモリである。メモリ12のROMには、情報処理装置10を動作させるためのソフトウェアプログラムやこのプログラム用のデータ類が書き込まれている。メモリ12上のソフトウェアプログラムは、プロセッサ11に適宜読み込まれて実行される。また、メモリ12のRAMは、一次記憶メモリあるいはワーキングメモリとして利用される。
記憶装置13は、ハードディスクドライブ(Hard Disk Drive:HDD)、SSD(Solid State Drive),ストレージクラスメモリ(Storage Class Memory:SCM)や、等の記憶装置であって、ソフトウェアプログラムや種々のデータを格納するものである。
図1に示す例においては、記憶装置13に判定プログラムが格納され、この判定プログラムが、メモリ12のRAMに展開された後、プロセッサ11によって実行される。また、記憶装置13には、データベース群105を構成する情報を記憶させてもよい。データベース群105は複数のデータベースを含む。
図3は第1実施形態の一例としてのコンピュータシステム1におけるデータベース群105に含まれる複数のデータベースを例示する図である。
この図3に示す例においては、データベース群105は、特定状況データベース1051,特定状況挙動データベース1052,特定状況数データベース1053,特徴量抽出データベース1054および提示文データベース1055を含む。これらの特定状況データベース1051,特定状況挙動データベース1052,特定状況数データベース1053,特徴量抽出データベース1054および提示文データベース1055の詳細については後述する。また、データベースをDBと表してもよい。DBはData Baseの略語である。
メモリ12や記憶装置13には、第1入力部101,第1特定状況判定部102,第1挙動抽出部103,特定状況挙動格納処理部104,第2入力部106,第2特定状況判定部107,第2挙動抽出部111,挙動比較部112および評価部113がそれぞれの処理を実行する過程で生じたデータ等を記憶してもよい。
ディスプレイ17は種々の情報を表示する表示装置であり、例えば、液晶ディスプレイ装置やCRT(Cathode Ray Tube)ディスプレイ装置である。本コンピュータシステム1においては、このディスプレイ17に、対話者端末2から送信される発信者の映像が表示される。本第1実施形態においては、映像が動画像(ビデオ画像)である例について示す。映像は音声を含む。
また、ディスプレイ17には評価部113が出力するメッセージ(提示文)等が表示される。
マウス16およびキーボード15は受信者が種々の入力を行なうために操作する入力装置である。
情報処理装置10は、図2に示すように、第1入力部101,第1特定状況判定部102,第1挙動抽出部103,特定状況挙動格納処理部104,第2入力部106,第2特定状況判定部107,第2挙動抽出部111,挙動比較部112および評価部113としての機能を備える。
これらのうち、第1入力部101,第1特定状況判定部102,第1挙動抽出部103および特定状況挙動格納処理部104は、発信者と受信者との間で過去に行なわれた遠隔会話の映像(映像データ)を用いた事前処理を行なう。以下、映像データを単に映像という場合がある。映像データには音声データが含まれる。また、音声データを単に音声という場合がある。
また、第2入力部106,第2特定状況判定部107,第2挙動抽出部111,挙動比較部112および評価部113は、発信者と受信者との間で進行中の遠隔会話(遠隔会話中)の映像を用いたリアルタイム処理を行なう。
第1入力部101は、発信者と受信者との間で行なわれた過去の遠隔会話の映像を取得する。この映像には、発信者の映像と受信者の映像とが含まれる。第1入力部101は、例えば、記憶装置13に記憶された過去の遠隔会話の映像データを読み出すことで取得してよい。
過去に行なわれた遠隔会議の映像データは、発信者(第1のアカウント)と受信者(第2のアカウント)との間で行なわれた第1の遠隔通話において生成された映像又は音声のいずれかを含む第1のセンシングデータに相当する。
第1入力部101は、第1のセンシングデータ(過去の映像データ)を受け付ける入力部に相当する。
第1特定状況判定部102は、第1入力部101が取得した過去の遠隔会話の映像に基づいて、映像中における発信者と受信者との状況(特定状況)を判定する。すなわち、第1特定状況判定部102は、過去の特定状況を判定する。第1特定状況判定部102は、特に映像中の発信者について特定状況の判定を行なう。
例えば、第1特定状況判定部102は、音声認識処理により、発信者の音声から特定のフレーズを検出する。音声認識処理は、例えば、発信者の音声に対して特徴量抽出処理を行ない、抽出した特徴量に基づいて発信者の音声からフレーズを検出する。なお、これらの発信者の音声からフレーズを検出する処理には既知の種々の手法を用いることができ、その説明は省略する。
第1特定状況判定部102が検出する特定のフレーズとは、遠隔会話中において、当該フレーズを発した発話者の状況を表すフレーズである。本第1実施形態においては、発信者が発話者に相当する。
例えば、フレーズ「嬉しいです」は、発話者が嬉しい状況(特定状況)にあることを表す。また、フレーズ「困っています」は、発話者が困っている状況を表し、フレーズ「考えている」は、発話者が緊張している状況を表す。以下、発話者が特定の状態であることを表す特定のフレーズを特定フレーズといってもよい。
第1特定状況判定部102は、フレーズ(特定フレーズ)と、当該特定フレーズが示す特定状況とを対応付ける。この対応付けは、例えば、フレーズと特定状況とを予め対応付けた情報を参照することで行なってもよい。
第1特定状況判定部102は、遠隔会話の映像中において、特定フレーズを検出すると、当該特定フレーズが表す状況に関する情報を収集する。
例えば、第1特定状況判定部102は、特定フレーズが検出された時刻(開始時間)と、特定フレーズの検出が終了した時刻(終了時間)とを収集する。第1特定状況判定部102は、例えば、特定フレーズが検出されたフレームのタイムスタンプを参照することで時刻(開始時間)と、特定フレーズの検出が終了した時刻(終了時間)とを取得してもよい。
また、第1特定状況判定部102は、既知の映像認識処理手法を用いて、発信者の表情を認識する。例えば、第1特定状況判定部102は、特定フレーズが検出された場合に、当該フレーズを発した発信者の表情を認識する。
第1特定状況判定部102は、映像認識特徴量を抽出し、この抽出した映像認識特徴量に基づいて発信者の表情認識を行なう。なお、表情認識は既知の種々の手法を用いて実現することができ、その詳細な説明は省略する。
そして、第1特定状況判定部102は、発話者が特定フレーズを発したことを認識すると、当該特定フレーズ(フレーズ)と、当該特定フレーズが示す特定状況と、認識した表情を表す情報(表情)と、開始時間と終了時間とを対応付けて特定状況データベース1051に記憶させる。
また、第1特定状況判定部102は、表情認識処理により、発信者の映像から特定の表情を検出する。第1特定状況判定部102が検出する特定の表情とは、遠隔会話中において、当該表情の発話者の状況を表す表情である。
例えば、表情「笑う」は、発話者が嬉しい状況(特定状況)にあることを表す。また、表情「悲しみ」は、発話者が困っている状況を表し、表情「強張る」は、発話者が緊張している状況を表す。以下、発話者が特定の状態であることを表す特定の表情を特定表情といってもよい。
第1特定状況判定部102は、表情(特定表情)と、当該特定表情が示す特定状況とを対応付ける。この対応付けは、例えば、表情と特定状況とを予め対応付けた情報を参照することで行なってもよい。
第1特定状況判定部102は、遠隔会話の映像中において、発信者の特定表情を検出すると、当該特定表情が表す状況に関する情報を収集する。
例えば、第1特定状況判定部102は、特定表情が検出された時刻(開始時間)と、特定表情の検出が終了した時刻(終了時間)とを収集する。
そして、第1特定状況判定部102は、発話者の特定表情を認識すると、当該特定表情(表情)と当該特定表情が示す特定状況と開始時間と終了時間とを対応付けて特定状況データベース1051に記憶させてもよい。第1特定状況判定部102における、特定状況の開始時間と終了時間との組み合わせによって特定される時間帯(時間枠)を特定状況検出時間帯といってもよい。
図4は第1実施形態の一例としてのコンピュータシステム1における特定状況データベース1051を例示する図である。
図4に例示する特定状況データベース1051は、特定状況,フレーズ,表情,挙動,開始時間および終了時間を関連付けている。挙動には、後述する第1挙動抽出部103が抽出する挙動を格納してもよい。
この特定状況データベース1051を参照することで、発信者において特定フレーズが検出された時刻や、その特定フレーズが示す特定状況等を把握することができる。
なお、図4に例示する特定状況データベース1051の各エントリには、それぞれフレーズ(特定フレーズ)と表情(特定表情)とが登録されているが、これに限定されるものではない。フレーズ(特定フレーズ)と表情(特定表情)とのいずれかを省略してもよい。
第1特定状況判定部102は、過去の遠隔会話の映像において特定状況の発生を検知し、特定状況データベース1051に記録する。
第1特定状況判定部102は、第1入力部101によって取得された複数の過去の遠隔会話の映像の全てに対して、特定状況の発生検知と、特定状況データベース1051への記録を行なう。
また、第1特定状況判定部102は、特定状況検出時間帯における映像中の特徴量点をフレーム単位で抽出し、特徴量抽出データベース1054に記録する。
図5は第1実施形態の一例としてのコンピュータシステム1における特徴量抽出データベース1054を例示する図である。
この図5に例示する特徴量抽出データベース1054は、特定状況検出時間帯におけるフレームの時刻と、当該フレームから抽出された画像特徴量点とが対応付けられている。
また、第1特定状況判定部102は、特定状況検出時間帯における映像(音声)中の音声特徴量点をフレーム単位で抽出し、特徴量抽出データベース1054に記録してもよい。
特徴量抽出データベース1054に登録された情報(画像特徴点,音声特徴量点)は、例えば、第1挙動抽出部103による発信者の特定状況挙動に用いられる。
第1挙動抽出部103は、第1特定状況判定部102に記録された各特定状況に基づき、過去の遠隔会話の映像の中から、各特定状況検出時間帯もしくは特定状況検出時間帯内の一部の時間帯において、発信者の特徴的な挙動を検出する。特定状況検出時間帯において検出される特徴的な挙動を特定状況挙動といってもよい。
図6は第1実施形態の一例としてのコンピュータシステム1における、特定状況挙動を例示する図である。
図6に例示する特定状況挙動を示す情報は、分類,動作内容および判定パターンを備える。
分類は、挙動の分類であり、例えば、第1挙動抽出部103および後述する第2挙動抽出部111が挙動を検出する際に着目する対象を示す。
動作内容は、分類に示された対象について、第1挙動抽出部103が検出する挙動の内容を示す。動作内容は、特定状況において一般に観察される特徴的な動作内容である。第1挙動抽出部103および第2挙動抽出部111は、この動作内容に該当する動作を検出する。
判定パターンは、例えば、動作内容に示される動作を検出するための判定条件である。動作内容に示される動作について、第1挙動抽出部103および第2挙動抽出部111は、この判定パターンに示された判定条件が満たされるかを判定する。
なお、図6に示す例においては、便宜上、スピードや回数等の文字が示されているが、実際には判定の閾値となる具体的な数値を設定してもよい。
また、判定パターンは、動作内容に示される動作の検出時に付随的に判定される内容(サブ判定条件)であってもよい。
例えば、視線の動きについては、第1挙動抽出部103および第2挙動抽出部111は、視線が移動した角度に加えて、視線の移動方法(上/下/左/右)も判定することを示す。
第1挙動抽出部103は、検出位置や回数等で判定パターンを決定してもよい。例えば、検出された手の位置で右側か左側かを判定してもよい。第1挙動抽出部103および第2挙動抽出部111は、この判定パターンも検出する。
なお、動作内容によっては、判定パターンを省略してもよい。
第1挙動抽出部103は、例えば、既知の映像認識手法を用いて映像の特徴量を抽出し、この抽出した特徴量に基づいて、特定状況挙動の検出を行なう。
第1挙動抽出部103は、過去の遠隔会話の映像における特定状況検出時間帯の映像データから画像認識により特徴量(画像特徴点)を抽出する。
第1挙動抽出部103は、画像特徴点や音声特徴点に基づき、特定状況挙動を検出する。第1挙動抽出部103は、画像特徴点に基づき、例えば、頭部の動き検出,手の動き検出,瞬き検出,視線の動き検出等を行なう。
第1挙動抽出部103は、音声特徴点に基づき、例えば、音声認識処理により、発信者の話す癖やレスポンスなどの挙動を検出する。
また、第1挙動抽出部103は、映像認識により、顔の特徴量座標変化から頭部の動き,瞬きを検出してもよい。また、第1挙動抽出部103は、視線検出から視線の動きを検出してもよい。さらに、第1挙動抽出部103は、ジェスチャー認識で手の動きなどの挙動を検出してもよい。
また、第1挙動抽出部103は、例えば、既知の音声認識手法を用いて映像に含まれる音声の特徴量を抽出し、この抽出した特徴量に基づいて特定状況挙動の検出を行なう。
これらの特定状況挙動の検出は既知の手法で実現することができ、その詳細な説明は省略する。
第1挙動抽出部103は、過去の遠隔会話の映像における特定状況検出時間帯の音声データから音声認識により特徴量(音声特徴点)を抽出する。
第1挙動抽出部103は、音声特徴点に基づき、例えば、話の癖検出,レスポンス検出等を行なう。これらの特定状況挙動の検出は既知の手法で実現することができ、その説明は省略する。
第1挙動抽出部103は、発信者と受信者との間で行なわれた過去の遠隔会話の映像の中から抽出した特定状況挙動の情報を、メモリ12や記憶装置13の所定の記憶領域に記憶させる。特定状況挙動の情報には判定パターンが含まれる。
また、第1挙動抽出部103は、発信者との遠隔会話の映像データから検出した特定状況挙動の数を特定状況数データベース1053に格納して管理する。
図7は第1実施形態の一例としてのコンピュータシステム1における特定状況数データベース1053を例示する図である。
この図7に例示する特定状況数データベース1053は、項目として人物ID(identification)と特定状況挙動数とを備え、これらの項目に対応付けてそれぞれデータが記憶されている。
人物IDは発信者を特定する識別情報であり、図7に示す例においては“0001”が設定されている。
特定状況挙動数は、人物IDで特定される発信者について、第1挙動抽出部103が過去の遠隔会話の映像データから検出した特定状況挙動の数を示す。
なお、第1挙動抽出部103は、特徴量抽出データベース1054から特定状況検出時間帯の音声特徴点および画像特徴点を取得してもよい。
第1挙動抽出部103は、第1のセンシングデータ(過去の映像データ)および第2のセンシングデータ(リアルタイムの映像データ)に基づき、発信者にとって特定状況が発生したことを検知すると、挙動および判定パターン(特徴情報)を特定状況挙動データベース1052を参照する。そして、第1挙動抽出部103は、発生した特定状況に対応付けられた特徴情報(挙動,判定パターン)を特定する。すなわち、第1挙動抽出部103は、特徴情報特定部に相当する。
特定状況挙動格納処理部104は、第1挙動抽出部103が抽出した複数の特定状況挙動に基づき、各特定状況に対して、最も頻度が多い特定状況挙動を決定する。
すなわち、特定状況挙動格納処理部104は、各特定状況に対応する特徴的な挙動をそれぞれ決定する。
そして、特定状況挙動格納処理部104は、特定状況毎の特定状況挙動の情報を、特定状況挙動データベース1052に記録する。
図8は第1実施形態の一例としてのコンピュータシステム1における特定状況挙動データベース1052を例示する図である。
図8に例示する特定状況挙動データベース1052は、番号,特定状況,挙動および判定パターンを関連付けている。
特定状況挙動データベース1052には、過去の遠隔会話において検出された特定状況において発信者が最も高い頻度で表した挙動が登録される。従って、この特定状況挙動データベース1052を参照することで、特定状況において発信者が示す挙動を把握することができる。
特定状況挙動データベース1052は、過去の遠隔会話の映像データ(第1のセンシングデータ)において発信者にとって特定の状況(特定状況)が発生した際に抽出された特徴情報(挙動,判定パターン)を記憶する記憶部に相当する。
特定状況挙動格納処理部104は、検出された全ての挙動(フレーズ、表情など)に対して、予め定義した挙動とのマッチング処理を行ない、マッチングスコアが第1の閾値TH1以上の挙動が第2の閾値TH2回以上であれば、当該挙動を特定状況の挙動パターンと判断してもよい。
第2入力部106は、発信者と受信者との間で行なわれている(リアルタイムで実行中の)遠隔会話の映像を取得する。この映像には、発信者の映像と受信者の映像とが含まれる。発信者と受信者との間で行なわれている遠隔会話の映像は、例えば、情報処理装置10と対話者端末2との間での遠隔通話を実現するプログラムによって生成され、例えば、メモリ12や記憶装置13の所定の記憶領域に記憶される。第2入力部106は、この記憶された遠隔会話の映像データを読み出すことで取得してもよい。
発信者と受信者との間で行なわれている(リアルタイムで実行中の)遠隔会話の映像データは、発信者(第1のアカウント)と受信者(第2のアカウント)との間で行なわれた第2の遠隔通話において生成された映像又は音声のいずれかを含む第2のセンシングデータに相当する。
第2入力部106は、第2のセンシングデータ(リアルタイムの映像データ)を受け付ける入力部に相当する。
第2特定状況判定部107は、第2入力部106が取得したリアルタイムで進行中(現在進行中)の遠隔会話の映像に基づいて、映像中における発信者と受信者との状況(特定状況)を判定する。リアルタイムで進行中(現在進行中)の遠隔会話を現在の遠隔会話といってもよい。また、現在の遠隔会話から検出される特定状況を現在の特定状況といってもよい。
第2特定状況判定部107は、現在の特定状況を判定する。第2特定状況判定部107は、特に映像中の発信者について特定状況の判定を行なう。
第2特定状況判定部107は、検出した現在の特定状況と過去の遠隔会話において検出された特定状況とを比較し、現在の特定状況の検出数が過去に検出された特定状況数に到達するまで、特定状況を発生させるための処理を行なう。
第2特定状況判定部107は、図2に示すように、特定状況モニタリング部108,特定状況数算出部109および特定状況作成部110としての機能を備える。
特定状況モニタリング部108は、第2入力部106が取得したリアルタイムで進行中の遠隔会話の映像中から、第1特定状況判定部102と同様の手法を用いて、特定状況の発生検知を行なう。
例えば、特定状況モニタリング部108は、音声認識処理により、遠隔通話中の映像において発信者の音声から特定フレーズを検出する。また、特定状況モニタリング部108は、遠隔会話の映像中において特定フレーズを検出すると、当該特定フレーズが表す状況に関する情報を収集する。特定状況モニタリング部108は、特定フレーズと特定状況とを対応付ける。
また、特定状況モニタリング部108は、表情認識処理により、発信者の映像から特定の表情を検出する。また、特定状況モニタリング部108は、遠隔会話の映像中において、発信者の特定表情を検出すると、当該特定表情が表す状況に関する情報を収集する。特定状況モニタリング部108は、特定表情と特定状況とを対応付ける。
特定状況モニタリング部108は、検出した特定状況に基づいて特定状況挙動データベース1052を参照(特定状況比較)して、検出した特定状況と一致する特定状況が特定状況挙動データベース1052に登録されているかを確認する。
特定状況モニタリング部108は、検出した特定状況と一致する特定状況が特定状況挙動データベース1052に登録されているかの確認を行なうために、例えば、テキストマッチングを行なってもよい。すなわち、特定状況モニタリング部108は、検出した特定状況を示す語(例:嬉しい時)を用いて、特定状況挙動データベース1052に登録されている特定状況に対してテキストマッチングを行ない、一致する場合に、登録されていると判断する。
特定状況モニタリング部108は、検出した特定状況と一致する特定状況が特定状況挙動データベース1052に登録されている場合に、当該特定状況を示す情報を、メモリ12や記憶装置13等の所定の記憶領域に記憶させる。
特定状況モニタリング部108は、進行中の遠隔会話の経過時間が、予め規定された所定時間(指定時間T1)以上となった場合に、当該の遠隔会話の映像中からの特定状況の発生検知を行なう。これにより、本情報処理装置10の負荷を軽減することができる。
特定状況数算出部109は、特定状況モニタリング部108が所定時間内で判定できた特定状況と、特定状況挙動データベース1052に登録された特定状況とに基づいて、後述する特定状況作成部110が作成する特定状況の数(特定状況数)を算出する。
特定状況数算出部109は、特定状況挙動データベース1052に登録された全ての特定状況の数(全特定状況数)から、特定状況モニタリング部108が検出(判定)した特定状況の数(判定済特定状況数)を減算することで、特定状況作成部110が作成する(必要な)特定状況数(作成必要特定状況数)を求める。
特定状況作成部110は、特定状況を発生させる(作り出す)処理を行なう。例えば、特定状況作成部110は、相手が想定挙動をとった状況になるように質問または誘導してもよい。
ここで、特定状況でとった発信者の挙動は、例えば、普段は黙って話さないが、会話中にある地名が出たという特定状況においては喜んで話す、同じ話を2,3回繰り返しただけでは我慢するが10回以上繰り返すと怒り出す、等であってもよい。
また、発信者の挙動は、例えば、困る時に頭を横向け、嬉しい時に左手を挙げる等であってもよい。
特定状況作成部110は、発信者が想定挙動をとった状況になるような質問を受信者から発信者にさせてもよい。
質問には複数の解釈(左右、上下など)があり、その特定状況で発信者がとる特徴的な挙動が異なる(困る時の頭部の横向けは?嬉しいとき手の挙げ方は?)。
特定状況作成部110は、相手が想定挙動を取った状況になるような誘導を行なってもよい。例えば、特定状況作成部110は、発信者が話す状況を作るために、相手が気になる地名を言うように受信者を誘導してもよく、相手が怒る状況を作るために、同じ話を10回以上繰り返すよう誘導してもよい。
本コンピュータシステム1においては、事前に、複数種類の特定状況に対応させて、当該特定状況を発生させるために、受信者が発信者に対して投げかける質問や、発信者を誘導するための提示文が用意され、提示文データベース1055に記録される。
図9は第1実施形態の一例としてのコンピュータシステム1における提示文データベース1055を例示する図である。
この図9に例示する提示文データベース1055においては、特定状況に対して、フレーズが対応付けられるとともに、提示文(質問文)もしくは提示文(誘導)が対応付けられている。また、各特定状況には特定状況の種類を表すユニークな識別情報(種類)が対応付けられている。この図9に示す例においては、種類として自然数が設定されている。
提示文(質問文)は、対応する特定状況を発生させるために、受信者が発信者に対して投げかけると効果的と考えられる質問文である。提示文(誘導)は、対応する特定状況を発生させるために、受信者が発信者に対して行なうと効果的と考えられる行動を示唆するアドバイス文(誘導文)である。
この図9においては、例えば、特定状況「嬉しいとき」に対して、フレーズ「嬉しい」と、提示文(質問文)「嬉しい? 嬉しいときの挙動は?」が登録されている。
また、特定状況「緊張」に対して、フレーズ「緊張している」と、提示文(誘導)「緊張させる話をしてあげる」が登録されている。
提示文データベース1055に登録された、提示文は、システムが自動で生成してもよく、また、ユーザ等が予め設定してもよい。また、提示文はユーザ(受信者)が任意に変更可能とすることが望ましい。特定状況および提示文は、図9に例示されたものに限定されるものではなく、適宜変更して実施することができる。
特定状況作成部110は、特定状況数取得処理,特定状況の画面提示処理,特定状況作成処理,特定状況フレーズ検出および特定状況記録処理を実行する。
特定状況数取得処理について、特定状況作成部110は、特定状況数算出部109が算出した特定状況数を、特定状況モニタリング部108による発生検知において指定時間T1に到達したタイミングで取得する。
特定状況の画面提示処理について、特定状況作成部110は、提示文データベース1055を参照して、当該提示文データベース1055に登録された特定状況のうち、特定状況モニタリング部108によって検知された特定状況以外の特定状況を特定状況数だけ読み出す。特定状況作成部110は、これらの特定状況数の提示文をディスプレイ17に表示させる。
例えば、特定状況作成部110は、特定状況モニタリング部108による発生検知において指定時間T1に到達したタイミングで、これらの特定状況数の提示文をディスプレイ17に表示させる。
なお、特定状況モニタリング部108により挙動が検出された特定状況については、特定状況作成部110は、当該特定状況に対応する提示文は表示させない。
特定状況作成処理においては、受信者は、ディスプレイ17に表示された提示文(質問文,誘導文)を読み上げたり、当該提示文の内容に沿った質問文や誘導文を発信者に対して発話する。受信者が提示文の内容を発話するタイミングは、受信者が決めることが望ましい。また、受信者は、発信者の発話に特定状況のフレーズが含まれるタイミングで提示文の内容を発話してもよい。
特定状況フレーズ検出処理において、特定状況作成部110は、発信者による発話から特定状況に含まれるフレーズ(特定状況フレーズ)を検出する。この特定状況フレーズの検出は、第1特定状況判定部102や特定状況モニタリング部108と同様の手法で実現することができる。
特定状況記録処理においては、特定状況作成部110は、検出された特定状況フレーズに対応する特定状況に関する情報を、メモリ12や記憶装置13等の所定の記憶領域に記憶させる。
検出された特定状況フレーズに対応する特定状況に関する情報は、図4に例示した特定状況データベース1051と同様に、特定状況,フレーズ,表情,挙動,開始時間および終了時間を関連付けて記録することが望ましい。
また、第2特定状況判定部107によって発生させた特定状況についての映像は、メモリ12や記憶装置13等の所定の記憶領域に記憶される。
特定状況作成部110は、進行中の遠隔通話(リアルタイムの映像データ)を行なう受信者に対して提示情報(質問文,誘導)を出力することで、発信者にとっての特定の状況(特定状況)を発生させる特定状況作成部に相当する。
特定状況作成部110は、過去の遠隔会話の映像データに基づいて検出された、発信者にとっての特定状況が、リアルタイムの遠隔会話の映像データに基づいて検出された、発信者本人にとっての特定状況と異なる(不一致)場合に、発信者にとっての特定の状況(特定状況)を発生させる。
第2挙動抽出部111は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部108が検知した特定状況と、第2特定状況判定部107によって発生させた特定状況とについて、発信者の特徴的な挙動を検出する。
第2挙動抽出部111は、第1挙動抽出部103と同様の手法を用いて発信者の特徴的な挙動(特定状況挙動)を検出する。第2挙動抽出部111が現在の遠隔会話の映像データから検出した特定状況挙動を現在特定状況挙動といってもよい。現在特定状況挙動には判定パターンを含んでもよい。挙動および判定パターンは、特徴情報に相当する。
第2挙動抽出部111は、各特定状況について、各特定状況検出時間帯もしくは特定状況検出時間帯内の一部の時間帯において、発信者の特徴的な挙動を検出する。
第2挙動抽出部111は、特定状況挙動の検出にかける時間(特定状況時間枠T2)を予め設定し、この特定状況時間枠T2内で特定状況挙動の検出を行なう。これにより、特定状況挙動の検出に際限なく時間が費やされることがなく、効率的に処理を行なうことができる。
第2挙動抽出部111は、発信者と受信者との間で行なわれた過去の遠隔会話の映像の中から抽出した特定状況挙動の情報を、メモリ12や記憶装置13の所定の記憶領域に記憶させる。
挙動比較部112は、第2挙動抽出部111が抽出した各現在特定状況挙動を、特定状況挙動データベース1052に登録されている挙動および判定パターンと比較する。
挙動比較部112は、特定状況挙動データベース1052に登録されている全ての特定状況について、特定状況挙動および判定パターンが、第2挙動抽出部111が抽出した特定状況挙動のうち特定状況が一致する特定状況挙動および判定パターンと一致するかを判定する。
挙動比較部112は、第1挙動抽出部103が検出した特定状況挙動と、第2挙動抽出部111が検出した特定状況挙動とを比較するのである。
図10は第1実施形態の一例としてのコンピュータシステム1における挙動比較部112による処理を説明するための図である。
この図10に示す例において、符号Aは特定状況挙動データベース1052に登録されている挙動および判定パターンを示しており、符号Bは第2挙動抽出部111が抽出した各特定状況挙動および判定パターンを示している。また、符号Cは、符号Aに示した特定状況挙動データベース1052に登録されている挙動および判定パターンと、符号Bに示した第2挙動抽出部111が抽出した各特定状況挙動および判定パターンとの比較結果を示す。この図9の符号Cに示す例において、比較結果“1”が一致していることを示し、比較結果“0”が不一致であることを示す。
挙動比較部112は、比較結果において、特定状況挙動データベース1052と現在特定状況挙動とを比較し、一致する場合にその特定状況に対して“1”を、不一致の場合にその特定状況に対して“0”を、それぞれ設定する。
この図10に示す例においては、特定状況「嬉しい時」および「考える時」については一致するが、「困る時」の判定パターン(サブ判定条件)が不一致である(符号C参照)。
挙動比較部112による比較結果は、メモリ12や記憶装置13の所定の記憶領域に記憶(蓄積,累積)される。
評価部113は、挙動比較部112による比較結果に基づき、発信者と受信者との間で行なわれている遠隔会話の映像における発信者についてのなりすまし度を評価する。
評価部113は、挙動比較部112による比較結果に基づき、なりすまし度を表す値(なりすまし度評価値)を算出する。
例えば、評価部113は、特定状況挙動データベース1052に登録されている全ての特定状況挙動と、第2挙動抽出部111が抽出した特定状況挙動との全比較数のうち、比較結果において不一致であった数の比をなりすまし度評価値として算出する。なりすまし度評価値をなりすまし度といってもよい。
評価部113は、なりすましに関する判定を行なう処理として、過去の遠隔会話の映像データから抽出された特定状況における挙動および判定パターン(特徴情報)と、リアルタイムで進行中の遠隔会話の映像データから抽出された特定状況における挙動および判定パターンとの一致数に基づいて、なりすましを判定する指標値(なりすまし度評価値)を算出する。
評価部113は、特定状況挙動データベース1052(記憶部)における特定状況に対する挙動および判定パターン(特徴情報)と、現在進行中の遠隔会話の映像データ(第2のセンシングデータ)から検知された特定状況に対する挙動および判定パターン(特徴情報)との一致状態に基づき、なりすましに関する判定を行なう判定部に相当する。
評価部113は、算出したなりすまし度評価値(なりすまし度)を、ディスプレイ17に表示(出力)させることで受信者に通知する。この際、評価部113は、特定状況挙動データベース1052に登録されている特定状況挙動と、第2挙動抽出部111が抽出した特定状況挙動との全ての比較結果をディスプレイ17に表示(出力)させることで受信者に通知してもよい。
図11は第1実施形態の一例としてのコンピュータシステム1におけるなりすまし検知結果の出力イメージを例示する図である。
図11において、符号Aは、受信者の情報処理装置10のディスプレイ17に表示されるなりすまし検知結果の例を示す。
この図11に例示するなりすまし検知結果は、なりすまし度(符号B参照)と、特定状況毎の特定状況挙動の比較結果(符号C参照)とを含む。なお、この図11においては、比較結果を〇かXかで示している。
受信者は、このようにディスプレイ17に表示されたなりすまし検知結果を見ることで、攻撃者が発信者になりすましているおそれがあることを知ることができる。受信者は、例えば、遠隔会話を中止したり、秘匿性の高い情報を遠隔通話で話すことを抑止する等の対応をとることができる。
(B)動作
本コンピュータシステム1においては、発信者と受信者との間での遠隔会話のやり取りの中で、特定状況モニタリング部108が、過去にあった特定状況をモニタリングするか、または特定状況作成部110がその特定状況を生じさせる。そして、挙動比較部112および評価部113が、過去と同様な特定状況で取った相手の挙動パターンを用いてなりすましを検知する。
上述の如く構成された第1実施形態の一例としてのコンピュータシステム1における第1特定状況判定部102の処理を、図12に示すフローチャート(ステップA1~A9)に従って説明する。
ステップA1において、情報処理装置10に発信者と受信者との間で行なわれた過去の遠隔会話の映像が入力され、この映像を取得する。第1特定状況判定部102は、この過去に行なわれた遠隔会話の録画映像データに対して処理を行なう。
ステップA2において、第1特定状況判定部102は、音声認識処理により、発信者の音声に対して特徴量抽出処理を行なう。
ステップA3において、第1特定状況判定部102は、抽出した特徴量に基づいて発信者の音声からフレーズを検出する。
ステップA4において、第1特定状況判定部102は、フレーズ(特定フレーズ)が示す特定状況を特定し、当該フレーズ(特定フレーズ)と、特定した特定状況とを対応付ける。その後、処理はステップA8に移行する。
また、上述したステップA2~A4の処理と並行して、ステップA5~A7の処理が行なわれる。
ステップA5において、第1特定状況判定部102は、映像認識処理により、発信者の映像に対して特徴量抽出処理を行なう。
ステップA6において、第1特定状況判定部102は、抽出した特徴量に基づいて発信者の表情認識を行なう。
ステップA7において、第1特定状況判定部102は、表情(特定表情)が示す特定状況を特定し、当該表情(特定表情)と、特定した特定状況とを対応付ける。その後、処理はステップA8に移行する。
ステップA8において、第1特定状況判定部102は、特定状況に対して、認識した特定フレーズ(フレーズ)と、認識した表情を表す情報(表情)と、開始時間と終了時間とを対応付けて特定状況データベース1051に記憶させる。
ステップA9において、第1特定状況判定部102は、過去の遠隔会話の全ての映像(音声)データに対して、処理を行なったかを確認する。確認の結果、まだ処理が行なわれていない映像があるない場合には(ステップA9のNOルート参照)、ステップA1に戻る。一方、全ての映像(音声)データに対して処理を行なった場合には(ステップA9のYESルート参照)、処理を終了する。
次に、第1実施形態の一例としてのコンピュータシステム1における第1挙動抽出部103の処理を、図13に示すフローチャート(ステップB1~B12)に従って説明する。
ステップB1において、第1挙動抽出部103には、過去の遠隔会話の映像データが入力される。
ステップB2において、第1挙動抽出部103は、特定状況データベース1051を参照して、特定状況が検出された時間枠(特定状況検出時間帯)を取得し、この特定状況検出時間帯の映像を取得(設定)する。
ステップB3において、第1挙動抽出部103は、過去の遠隔会話の映像における特定状況検出時間帯の音声データから音声認識により特徴量(音声特徴点)を抽出する。その後、処理はステップB4およびステップB5に移行する。第1挙動抽出部103は、特徴量抽出データベース1054から特徴量の情報抽出モデルを取得してもよい。
ステップB4において、第1挙動抽出部103は、音声特徴点に基づき、話の癖検出を行なう。
ステップB5において、第1挙動抽出部103は、音声特徴点に基づき、レスポンス検出を行なう。
また、上述したステップB3~B5の処理と並行して、ステップB6~B10の処理が行なわれる。
ステップB6において、第1挙動抽出部103は、過去の遠隔会話の映像における特定状況検出時間帯の映像データから画像認識により特徴量(画像特徴点)を抽出する。ここで、第1挙動抽出部103は、特徴量抽出データベース1054から特徴量の情報抽出モデルを取得してもよい。その後、処理はステップB7~B10に移行する。
ステップB7において、第1挙動抽出部103は、画像特徴点に基づき、頭部の動き検出を行なう。
ステップB8において、第1挙動抽出部103は、画像特徴点に基づき、手の動き検出を行なう。
ステップB9において、第1挙動抽出部103は、画像特徴点に基づき、瞬き検出を行なう。
ステップB10において、第1挙動抽出部103は、画像特徴点に基づき、視線の動き
検出を行なう。
その後、ステップB11において、第1挙動抽出部103は、検出した特定状況挙動と判定パターンの情報をメモリ12や記憶装置13の所定の記憶領域に記憶させる。
ステップB12において、第1挙動抽出部103は、全ての特定状況に対して、特定状況挙動および判定パターンの抽出を行なったかを確認する。確認の結果、特定状況挙動および判定パターンの抽出を行なっていない特定状況がある場合には(ステップB12のNOルート参照)、ステップB1に戻る。
また、全ての特定状況に対して特定状況挙動および判定パターンの抽出を行なった場合には(ステップB12のYESルート参照)、処理を終了する。処理は、図14に示す、特定状況挙動格納処理部104による処理に移行する。
第1実施形態の一例としてのコンピュータシステム1における特定状況挙動格納処理部104の処理を、図14に示すフローチャート(ステップC1~C4)に従って説明する。
ステップC1において、特定状況挙動格納処理部104は、特定状況データベース1051に登録された複数の特定状況のうち、一つの特定状況を選択する。
ステップC2において、特定状況挙動格納処理部104は、選択された特定状況について第1挙動抽出部103によって抽出された挙動の検出数の累積値(頻度)を確認する。
ステップC3において、特定状況挙動格納処理部104は、当該挙動の検出数の累積値が最も多いか、すなわち、特定状況において最も多い挙動であるかを確認する。確認の結果、最も多い挙動でない場合には(ステップC3のNOルート参照)、ステップC2に戻り、他の挙動を選択する。
また、確認の結果、最も多い挙動である場合には(ステップC3のYESルート参照)、ステップC4に移行する。ステップC4において、特定状況挙動格納処理部104は、特定状況挙動データベース1052に、最も頻度が多い特定状況挙動を特定状況に対応付けて格納する。その後、処理を終了する。
次に、第1実施形態の一例としてのコンピュータシステム1における第2特定状況判定部107の処理を、図15に示すフローチャート(ステップD1~D16)に従って説明する。
本処理においては、第2特定状況判定部107に、進行中の遠隔会話の映像データが入力され、第2特定状況判定部107は、この進行中の遠隔会話の映像データに対して処理を行なう。
ステップD1において、第2特定状況判定部107は、進行中の遠隔会話の経過時間が指定時間T1未満であるかを確認する。
進行中の遠隔会話の経過時間が指定時間T1未満である場合に(ステップD1のYESルート参照)、ステップD2に移行する。
ステップD2において、特定状況モニタリング部108は、音声認識処理により、発信者の音声に対して特徴量抽出処理を行なう。
ステップD3において、特定状況モニタリング部108は、抽出した特徴量に基づいて発信者の音声からフレーズを検出する。
ステップD4において、特定状況モニタリング部108は、フレーズ(特定フレーズ)が示す特定状況を特定し、当該フレーズ(特定フレーズ)と、特定した特定状況とを対応付ける。その後、処理はステップD8に移行する。
また、上述したステップD2~D4の処理と並行して、ステップD5~D7の処理が行なわれる。
ステップD5において、特定状況モニタリング部108は、映像認識処理により、発信者の映像に対して特徴量抽出処理を行なう。
ステップD6において、特定状況モニタリング部108は、抽出した特徴量に基づいて発信者の表情認識を行なう。
ステップD7において、特定状況モニタリング部108は、表情(特定表情)が示す特定状況を特定し、当該表情(特定表情)と、特定した特定状況とを対応付ける。その後、処理はステップD8に移行する。
ステップD8において、特定状況モニタリング部108は、検出した特定状況に基づいて特定状況挙動データベース1052を参照(特定状況比較)して、検出した特定状況と一致する特定状況が特定状況挙動データベース1052に登録されているかを確認する。特定状況モニタリング部108は、検出した特定状況が特定状況挙動データベース1052に登録されている特定状況と一致するかを確認する。
確認の結果、検出した特定状況が特定状況挙動データベース1052に登録されている特定状況と一致しない場合には(ステップD9のNOルート参照)、ステップD1に戻る。
また、検出した特定状況が特定状況挙動データベース1052に登録されている特定状況と一致する場合には(ステップD9のYESルート参照)、ステップD10に移行する。
ステップD10において、特定状況モニタリング部108は、検出された特定状況を示す情報を、メモリ12や記憶装置13等の所定の記憶領域に記憶させる。その後、処理を終了する。
また、ステップD1における確認の結果、進行中の遠隔会話の経過時間が指定時間T1以上である場合に(ステップD1のNOルート参照)、ステップD11に移行する。
ステップD11において、特定状況数算出部109が、特定状況挙動データベース1052に登録された全ての特定状況の数(全特定状況数)から、特定状況モニタリング部108が検出(判定)した特定状況の数(判定済特定状況数)を減算することで作成必要特定状況数を算出する。
ステップD12において、特定状況作成部110が、特定状況数算出部109が算出した特定状況数を、特定状況モニタリング部108による発生検知において指定時間T1に到達したタイミングで取得する。
ステップD13において、特定状況作成部110が、提示文データベース1055を参照して、当該提示文データベース1055に登録された特定状況のうち、特定状況モニタリング部108によって検知された特定状況以外の特定状況を特定状況数だけ読み出す。特定状況作成部110は、これらの特定状況数の提示文をディスプレイ17に表示させる。
ステップD14において、受信者は、ディスプレイ17に表示された提示文(質問文,誘導文)を読み上げたり、当該提示文の内容に沿った質問文や誘導文を発信者に対して発話する。
ステップD15において、特定状況作成部110が、発信者による発話から特定状況に含まれるフレーズ(特定状況フレーズ)を検出する。
ステップD16において、特定状況作成部110が、検出された特定状況フレーズに対応する特定状況に関する情報を、メモリ12や記憶装置13等の所定の記憶領域に記憶させる。その後、処理を終了する。
また、ステップD1において、指定時間T1が進行中の遠隔通話の通話時間のMAX区間と一致する場合に、ステップD2~D10の処理のみを行なってもよい。また、指定時間T1が0の場合に、ステップD11からD16の処理を行なってもよい。
次に、第1実施形態の一例としてのコンピュータシステム1における第2挙動抽出部111の処理を、図16に示すフローチャート(ステップE1~E12)に従って説明する。
ステップE1において、第2挙動抽出部111は特定状況時間枠T2を設定する。
ステップE2において、第2挙動抽出部111に、現在進行中の遠隔会話の映像データが入力される。
ステップE3において、第2挙動抽出部111は、現在の遠隔会話の映像における特定状況検出時間帯の音声データから音声認識により特徴量(音声特徴点)を抽出する。その後、処理はステップE4およびステップE5に移行する。
ステップE4において、第2挙動抽出部111は、音声特徴点に基づき、話の癖検出を行なう。
ステップE5において、第2挙動抽出部111は、音声特徴点に基づき、レスポンス検出を行なう。
また、上述したステップE3~E5の処理と並行して、ステップE6~E10の処理が行なわれる。
ステップE6において、第2挙動抽出部111は、現在の遠隔会話の映像における特定状況検出時間帯の映像データから画像認識により特徴量(画像特徴点)を抽出する。その後、処理はステップE7~E10に移行する。
ステップE7において、第2挙動抽出部111は、画像特徴点に基づき、頭部の動き検出を行なう。
ステップE8において、第2挙動抽出部111は、画像特徴点に基づき、手の動き検出を行なう。
ステップE9において、第2挙動抽出部111は、画像特徴点に基づき、瞬き検出を行なう。
ステップE10において、第2挙動抽出部111は、画像特徴点に基づき、視線の動き
検出を行なう。
その後、ステップE11において、第2挙動抽出部111は、検出した特定状況挙動と判定パターンの情報をメモリ12や記憶装置13の所定の記憶領域に記憶させる。
ステップE12において、第2挙動抽出部111は、特定状況挙動の検出を開始してからの経過時間が特定状況検出時間枠T2以上であるかを確認する。確認の結果、経過時間が特定状況検出時間枠T2未満である場合には(ステップE12のNOルート参照)、ステップE1に戻る。
また、経過時間が特定状況検出時間枠T2以上の場合には(ステップE12のYESルート参照)、処理を終了する。処理は、図17に示す、挙動比較部112による処理に移行する。
次に、第1実施形態の一例としてのコンピュータシステム1における挙動比較部112の処理を、図17に示すフローチャート(ステップF1~F2)に従って説明する。
挙動比較部112は、第2挙動抽出部111が抽出した各特定状況挙動を、特定状況挙動データベース1052に登録されている挙動および判定パターンと比較する。
ステップF1において、挙動比較部112は、第2挙動抽出部111が抽出した特定状況挙動と、特定状況挙動データベース1052に登録されている挙動とのマッチングを行なう。
挙動比較部112は、特定状況挙動データベース1052の全ての特定状況について、特定状況挙動および判定パターンが、第2挙動抽出部111が抽出した現在特定状況挙動のうち特定状況が一致する特定状況挙動および判定パターンと一致するかを判定する。
ステップF2において、挙動比較部112は、特定状況挙動データベース1052に登録されている全ての特定状況に対して現在特定状況挙動とのマッチングを行なったかを確認する。
確認の結果、現在特定状況挙動とのマッチングを行なっていない特定状況がある場合には(ステップF2のNOルート参照)、ステップF1に戻る。また、全ての特定状況に対して現在特定状況挙動とのマッチングを行なった場合には(ステップF2のYESルート参照)、処理を終了する。処理は、図18に示す評価部113による処理に移行する。
次に、第1実施形態の一例としてのコンピュータシステム1における評価部113の処理を、図18に示すフローチャート(ステップG1~G2)に従って説明する。
ステップG1において、挙動比較部112による比較結果が、メモリ12や記憶装置13の所定の記憶領域に記憶(蓄積,累積)される。
ステップG2において、評価部113は、挙動比較部112による比較結果に基づき、なりすまし度を表す値(なりすまし度評価値)を算出する。また、評価部113は、算出したなりすまし度評価値(なりすまし度)を、ディスプレイ17に表示(出力)させることで受信者に通知する。その後、処理を終了する。
図19は第1実施形態の一例としてのコンピュータシステム1におけるなりすまし検知処理を用いたシミュレーションを例示する図である。
この図19においては、発信者と受信者との間でプリペイドカード詐欺のおそれがある遠隔会話が行なわれている例を示す。
図19において、符号Aは発信者と受信者との間で行なわれる遠隔会話のシナリオを示しており、下線を付した発言が受信者の発言を示し、下線のない発言が発信者の発言を示す。
また、図19の符号Bは、情報処理装置10の特定状況作成部110,特定状況モニタリング部108,第2挙動抽出部111および挙動比較部112の各処理を示す。また、この図19には、特定状況挙動データベース1052も示している。
発信者が、困る時の挙動とともに「携帯が壊れて困っている」と発言すると(符号P1参照)、特定状況モニタリング部108が、この発言中の特定フレーズや発信者の特定表情に基づき、特定状況「困る時」を検出する(符号P2参照)。
第2挙動抽出部111は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部108が検知した特定状況と、第2特定状況判定部107によって発生させた特定状況とについて、発信者の特徴的な挙動(困る時の挙動)を検出する(符号P3参照)。
挙動比較部112は、第2挙動抽出部111が抽出した現在特定状況挙動(困る時の挙動)を、特定状況挙動データベース1052に登録されている挙動および判定パターンと比較する(符号P4参照)。
また、発信者が、嬉しい時の挙動とともに「嬉しい」との発言をすると(符号P5参照)、特定状況モニタリング部108が、この発言中の特定フレーズや発信者の特定表情に基づき、特定状況「嬉しい時」を検出する(符号P6参照)。
第2挙動抽出部111は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部108が検知した特定状況と、第2特定状況判定部107によって発生させた特定状況とについて、発信者の特徴的な挙動(嬉しい時の挙動)を検出する(符号P7参照)。
挙動比較部112は、第2挙動抽出部111が抽出した現在特定状況挙動(嬉しい時の挙動)を、特定状況挙動データベース1052に登録されている挙動および判定パターンと比較する(符号P8参照)。
ここで、特定状況挙動データベース1052には、特定状況「困る時」,「嬉しい時」の他に、特定状況「緊張する時」も記録されており、3つの特定状況が記録されている。
特定状況数算出部109は、特定状況挙動データベース1052に登録された全特定状況数(3)から、特定状況モニタリング部108が検出(判定)した判定済特定状況数(2)を減算することで、作成必要特定状況数(1)を求める。
特定状況作成部110は、特定状況挙動データベース1052に登録されているが、特定状況モニタリング部108によって検出されていない特定状況「緊張する時」を生じさせるための提示文を提示文データベース1055から取得し、受信者に提示する(符号P9参照)。
受信者は、ディスプレイ17に表示された特定状況「緊張する時」を生じさせるための提示文(質問文,誘導文)を読み上げたり、当該提示文の内容に沿った質問文や誘導文を発信者に対して発話する。図19に示す例においては、受信者は「見えてない。どうすればいい?」という質問文を発信者に対して発話する(符号P10)。
この質問文に対して発信者が、緊張する時の挙動とともに「え、本当?」との発言をする(符号P11参照)。
第2挙動抽出部111は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部108が検知した特定状況と、第2特定状況判定部107によって発生させた特定状況とについて、発信者の特徴的な挙動(緊張する時の挙動)を検出する(符号P12参照)。
挙動比較部112は、第2挙動抽出部111が抽出した現在特定状況挙動(緊張する時の挙動)を、特定状況挙動データベース1052に登録されている挙動および判定パターンと比較する(符号P13参照)。
これにより、特定状況挙動データベース1052に登録されている全特定状況に対応する現在特定状況挙動が得られ、その後、挙動比較部112および評価部113による処理が実行される。
(C)効果
このように、第1実施形態の一例としてのコンピュータシステム1によれば、特定状況モニタリング部108が特定状況をモニタリングし、特定状況作成部110が特定状況を発生させる。これにより、過去の遠隔会話において検出された特定状況を遠隔会話中に発生させることができる。
そして、このような特定状況において過去に検知された発信者の挙動と、遠隔会話中に発生させた特定状況での発信者がリアルタイムにとる挙動とを挙動比較部112が比較し、評価部113が評価(なりすまし度を算出)することで、遠隔会話中の発信者が攻撃者によるなりすましであるかを容易に判定することができる。
特定状況作成部110が、相手が想定挙動を取った状況になるように、受信者に対して発信者へ質問させる提示文を出力したり、受信者に誘導を行な提示文を出力することで、容易に特定状況を生じさせることができる。
(II)第2実施形態の説明
(A)構成
図20は第2実施形態の一例としてのコンピュータシステム1の機能構成を例示する図である。
この図20に示すように、第2実施形態のコンピュータシステム1は、第1実施形態のコンピュータシステム1の特定状況数算出部109に代えて特定状況選別部114をそなえるものであり、その他の部分は第1実施形態のコンピュータシステム1と同様に構成されている。
本第2実施形態においては、プロセッサ11が判定プログラムを実行することで、第1入力部101,第1特定状況判定部102,第1挙動抽出部103,特定状況挙動格納処理部104,第2入力部106,第2特定状況判定部107(特定状況選別部114,特定状況モニタリング部108および特定状況作成部110),第2挙動抽出部111,挙動比較部112および評価部113としての機能が実現される。
図中、既述の符号と同一の符号は同様の部分を示しているので、その説明は省略する
特定状況選別部114は、特定状況モニタリング部108に進行中の遠隔会話の映像中から検出させる特定状況と、特定状況作成部110に発生させる特定状況とを切り分ける。
特定状況選別部114は、特定状況挙動データベース1052から、特定状況を取得する。
そして、特定状況選別部114は、特定状況の種類毎に特定状況の出現頻度を算出する。特定状況選別部114は、全ての特定状況種類に対して出現頻度の算出を行なう。
特定状況選別部114は、算出した特定状況の種類毎の出現頻度を、特定状況頻度データベース1056に登録する。
図21は第2実施形態の一例としてのコンピュータシステム1における特定状況頻度データベース1056を例示する図である。
この図21に例示する特定状況頻度データベース1056は、特定状況に対して頻度が対応付けられている。また、各特定状況には特定状況を表す種類も対応付けられている。
特定状況の出現頻度は、過去から現在までに累積され、入力データによって更新される。
特定状況選別部114は、特定状況の出現頻度が選別閾値Thより大きい場合に、当該特定状況を特定状況モニタリング部108に処理させるよう分類する。特定状況選別部114は、特定状況の出現頻度が選別閾値Th以下の場合に、当該特定状況を特定状況作成部110に処理させるよう分類する。
選別閾値Thは、例えば、出現頻度中間値にしてもよく、受信者が事前に任意に設定してもよい。
例えば、図21に例示する特定状況頻度データベース1056において、選別閾値Th=8の場合に、特定状況「困る時」の頻度「10」は選別閾値Th以上である。そこで、特定状況選別部114は、この特定状況「困る時」を特定状況モニタリング部108に処理させるよう分類する。
一方、特定状況「嬉しい時」の頻度は“8”であり、特定状況「緊張する時」の頻度は“5”であり、いずれも選別閾値Th以下である。そこで、特定状況選別部114は、この特定状況「嬉しい」および特定状況「緊張する時」を、特定状況作成部110に処理させるよう分類する。
なお、特定状況選別部114は、全ての種類の特定状況を受信者に提示し、各特定状況を特定状況モニタリング部108と特定状況作成部110とのいずれに処理させるかを、受信者にそれぞれ選択させてもよい。
(B)動作
第2実施形態の一例としてのコンピュータシステム1における特定状況選別部114の処理を、図22に示すフローチャート(ステップH1~H16)にしたがって説明する。
ステップH1において、特定状況選別部114は、特定状況挙動データベース1052から、特定状況を取得する。
ステップH2において、特定状況選別部114は、特定状況の種類毎に特定状況の出現頻度を算出する。特定状況選別部114は、特定状況挙動データベース1052に登録された全ての特定状況に対して出現頻度の算出を行なう。また、特定状況選別部114は、算出した出現頻度を特定状況毎に累計する。
ステップH3において、特定状況選別部114は、特定状況挙動データベース1052に登録された全ての特定状況に対して出現頻度の算出を行なったかを確認する。
確認の結果、特定状況挙動データベース1052に登録された特定状況において、出現頻度の算出を行なっていないものがある場合には(ステップH3のNOルート参照)、ステップH2に戻る。
また、特定状況挙動データベース1052に登録された全ての特定状況の出現頻度の算出を行なった場合には(ステップH3のYESルート参照)、ステップH4に移行する。
ステップH4において、特定状況選別部114は、特定状況の出現頻度を選別閾値Thと比較する。比較の結果、特定状況の出現頻度が選別閾値Thより大きい場合に(ステップH4のYESルート参照)、特定状況選別部114は、当該特定状況を特定状況モニタリング部108に割り当てる(ステップH5)。
一方、特定状況の出現頻度が選別閾値Th以下の場合に(ステップH4のNOルート参照)、特定状況選別部114は、当該特定状況を特定状況作成部110に割り当てる(ステップH6)。その後、処理を終了する。
次に、第2実施形態の一例としてのコンピュータシステム1における第2特定状況判定部107の処理を、図23に示すフローチャート(ステップD21,D22,D2~D10,D23,D13~D16)に従って説明する。
図中、既述の符号と同一の符号を付した処理は同様の処理を示しているので、その説明は省略する。
本処理においては、第2特定状況判定部107に、進行中の遠隔会話の映像データが入力され、第2特定状況判定部107は、この進行中の遠隔会話の映像データに対して処理を行なう。
ステップD21において、特定状況選別部114は、特定状況頻度データベース1056の頻度に基づき、特定状況を特定状況モニタリング部108に処理させるか、特定状況作成部110に処理させるかを選別する。
その後、ステップD22およびステップD23に移行する。
ステップD22において、特定状況モニタリング部108は、自身に割り当てられた特定状況を取得する。その後、ステップD2~D10の各処理が実行される。
一方、ステップD23においては、特定状況作成部110は、自身に割り当てられた特定状況を取得する。その後、ステップD13~D16の各処理が実行される。
また、ステップD10およびステップD16の各処理の後に本フローは終了する。
図24は第2実施形態の一例としてのコンピュータシステム1におけるなりすまし検知処理を用いたシミュレーションを例示する図である。
この図24においても、発信者と受信者との間でプリペイドカード詐欺のおそれがある遠隔会話が行なわれている例を示す。
図24において、符号Aは発信者と受信者との間で行なわれる遠隔会話のシナリオを示しており、下線を付した発言が受信者の発言を示し、下線のない発言が発信者の発言を示す。
また、図24の符号Bは、情報処理装置10の特定状況選別部114,特定状況作成部110,特定状況モニタリング部108,第2挙動抽出部111および挙動比較部112の各処理を示す。また、この図24には、特定状況挙動データベース1052も示している。
特定状況選別部114は、特定状況頻度データベース1056を参照して、特定状況「困る時」の出現頻度を選別閾値Thと比較し、当該特定状況「困る時」を特定状況モニタリング部108に割り当てる(符号P2参照)。
また、特定状況選別部114は、特定状況頻度データベース1056を参照し、特定状況「嬉しい時」の頻度を選別閾値Thと比較して、特定状況「嬉しい時」を特定状況作成部110に割り当てる(符号P6参照)。
また、特定状況選別部114は、特定状況頻度データベース1056を参照し、特定状況「緊張する時」の頻度を選別閾値Thと比較して、特定状況「緊張する時」を特定状況作成部110に割り当てる(符号P12参照)。
すなわち、特定状況選別部114は、「困る時」、「嬉しい時」、「緊張する時」の各状況選別を一括で処理する。
特定状況モニタリング部108が、この発言中の特定フレーズや発信者の特定表情に基づき、特定状況「困る時」を検出する(符号P3参照)。
第2挙動抽出部111は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部108が検知した特定状況と、第2特定状況判定部107によって発生させた特定状況とについて、発信者の特徴的な挙動(困る時の挙動)を検出する(符号P4参照)。
挙動比較部112は、第2挙動抽出部111が抽出した現在特定状況挙動(困る時の挙動)を、特定状況挙動データベース1052に登録されている挙動および判定パターンと比較する(符号P5参照)。
特定状況作成部110は、特定状況「嬉しい時」を生じさせるための提示文を提示文データベース1055から取得し、受信者に提示する(符号P7参照)。
受信者は、ディスプレイ17に表示された特定状況「嬉しい時」を生じさせるための提示文(質問文,誘導文)を読み上げたり、当該提示文の内容に沿った質問文や誘導文を発信者に対して発話する。図24に示す例においては、受信者は「わかった」という発言を発信者に対して行なう(符号P8参照)。
この質問文に対して発信者が、嬉しい時の挙動とともに「嬉しい、助かる」との発言をすると(符号P9参照)、特定状況モニタリング部108が、この発言中の特定フレーズや発信者の特定表情に基づき、特定状況「嬉しい時」を検出する。
第2挙動抽出部111は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部108が検知した特定状況と、第2特定状況判定部107によって発生させた特定状況とについて、発信者の特徴的な挙動(嬉しい時の挙動)を検出する(符号P10参照)。
挙動比較部112は、第2挙動抽出部111が抽出した現在特定状況挙動(嬉しい時の挙動)を、特定状況挙動データベース1052に登録されている挙動および判定パターンと比較する(符号P11参照)。
特定状況作成部110は、特定状況「緊張する時」を生じさせるための提示文を提示文データベース1055から取得し、受信者に提示する(符号P13参照)。
受信者は、ディスプレイ17に表示された特定状況「緊張する時」を生じさせるための提示文(質問文,誘導文)を読み上げたり、当該提示文の内容に沿った質問文や誘導文を発信者に対して発話する。図24に示す例においては、受信者は「見えていない。どうすればいい?」という発言を発信者に対して行なう(符号P14参照)。
この質問文に対して発信者が、緊張する時の挙動とともに「え、本当?」との発言をすると(符号P15参照)、特定状況モニタリング部108が、この発言中の特定フレーズや発信者の特定表情に基づき、特定状況「緊張する時」を検出する。
第2挙動抽出部111は、リアルタイムで進行中の遠隔会話の映像中から、特定状況モニタリング部108が検知した特定状況と、第2特定状況判定部107によって発生させた特定状況とについて、発信者の特徴的な挙動(緊張する時の挙動)を検出する(符号P16参照)。
挙動比較部112は、第2挙動抽出部111が抽出した現在特定状況挙動(緊張する時の挙動)を、特定状況挙動データベース1052に登録されている挙動および判定パターンと比較する(符号P17参照)。
これにより、特定状況挙動データベース1052に登録されている全特定状況に対応する現在特定状況挙動が得られ、その後、挙動比較部112および評価部113による処理が実行される。
(C)効果
このように、第2実施形態の一例としてのコンピュータシステム1によれば、上述した第1実施形態と同様の作用効果を得ることができる他、特定状況選別部114が、特定状況モニタリング部108に処理させる特定状況と、特定状況作成部110に処理させる特定状況とを選別する。
これにより、特定状況判定にかかる時間を短縮できる。また、特定状況選別処理は、過去の特定状況データが蓄積されることで選別精度をより高くすることができる。
(III)第3実施形態の説明
(A)構成
図25は第3実施形態の一例としてのコンピュータシステム1の機能構成を例示する図である。
この図25に示すように、第3実施形態のコンピュータシステム1は、第2実施形態のコンピュータシステム1の特定状況作成部110に、質問部115としての機能を備えるものであり、その他の部分は第2実施形態のコンピュータシステム1と同様に構成されている。
本第3実施形態においては、プロセッサ11が判定プログラムを実行することで、第1入力部101,第1特定状況判定部102,第1挙動抽出部103,特定状況挙動格納処理部104,第2入力部106,第2特定状況判定部107(特定状況選別部114,特定状況モニタリング部108,特定状況作成部110および質問部115),第2挙動抽出部111,挙動比較部112および評価部113としての機能が実現される。
質問部115は、適用する特定状況を実現するための方法を受信者に提示し、受信者がこの提示された方法に従った対応を発信者に対して行なうことで、特定状況を発生させる。
質問部115は、例えば、特定状況と該当特定状況を実現するために受信者から発信者に対して発話すべき質問文とを受信者に提示する。
質問部115は、例えば、情報処理装置10のディスプレイ17に特定状況と当該特定状況を実現するための質問文を表示させる。
本第3実施形態のコンピュータシステム1においては、予め、複数種類の特定状況に対して、各特定状況を実現するために受信者から発信者に対して発話すべき質問文をそれぞれ対応付けた特定状況作成質問情報を、記憶装置13等の所定の記憶領域に記憶させておく。
図26は第3実施形態の一例としてのコンピュータシステム1における特定状況作成質問情報を例示する図である。
この図26に例示する特定状況作成質問情報においては、特定状況に対して、挙動パターンと提示方法(質問)とが対応付けられている。
提示方法(質問)は受信者に対して提示されるアドバイスであり、例えば、特定状況「嬉しい時」に提示方法(質問)として“「困っている?困っているときいつもの挙動は?」と質問”が設定されている。
受信者がこの提示方法(質問)に従って、発信者に対して「困っている?困っているときいつもの挙動は?」と質問することで、発信者に特定状況「困る時」の挙動をとらせることができる。
(B)動作
第3実施形態の一例としてのコンピュータシステム1における第2特定状況判定部107の処理を、図27に示すフローチャート(ステップD21,D22,D2~D10,D23,D13,D31,D15,D16)に従って説明する。
図中、既述の符号と同一の符号を付した処理は同様の処理を示しているので、その説明は省略する。
ステップD31において、質問部115が、特定状況を実現するための方法(質問文)を受信者に提示し、受信者がこの提示された質問文を発信者に対して行なうことで、特定状況を発生させる。
その後、ステップD15,D16の処理が行なわれ、処理が終了する。
(C)効果
このように、第3実施形態の一例としてのコンピュータシステム1によれば、上述した第2実施形態と同様の作用効果を得ることができる他、質問部115が、特定状況を実現するための方法(質問文)を受信者に提示し、受信者がこの提示された質問文を発信者に対して行なうことで、特定状況を発生させる。これにより、特定状況を確実に発生させることができる。
(IV)第4実施形態の説明
(A)構成
図28は第4実施形態の一例としてのコンピュータシステム1の機能構成を例示する図である。
この図28に示すように、第4実施形態のコンピュータシステム1は、第3実施形態のコンピュータシステム1の特定状況作成部110に、質問部115の代わりに誘導部116としての機能を備えるものであり、その他の部分は第3実施形態のコンピュータシステム1と同様に構成されている。
本第4実施形態においては、プロセッサ11が判定プログラムを実行することで、第1入力部101,第1特定状況判定部102,第1挙動抽出部103,特定状況挙動格納処理部104,第2入力部106,第2特定状況判定部107(特定状況選別部114,特定状況モニタリング部108,特定状況作成部110および誘導部116),第2挙動抽出部111,挙動比較部112および評価部113としての機能が実現される。
誘導部116は、適用する特定状況を実現するための方法を受信者に提示し、受信者がこの提示された方法に従った対応を発信者に対して行なうことで、特定状況を発生させる。
誘導部116は、例えば、特定状況と該当特定状況を実現するために受信者が発信者を誘導するために行なうべき動作とを受信者に提示する。
誘導部116は、例えば、情報処理装置10のディスプレイ17に特定状況と当該特定状況に導くために受信者が行なうべき動作とを表示させる。
本第4実施形態のコンピュータシステム1においては、予め、複数種類の特定状況に対して、各特定状況を実現するために受信者が行なうべき行動内容をそれぞれ対応付けた特定状況誘導情報を、記憶装置13等の所定の記憶領域に記憶させておく。
図29は第4実施形態の一例としてのコンピュータシステム1における特定状況誘導情報を例示する図である。
この図29に例示する特定状況誘導情報においては、特定状況に対して、挙動パターンと提示方法(誘導)とが対応付けられている。
挙動パターンは、例えば、過去に行なわれた遠隔会話において発信者において検出された挙動パターンである。例えば、特定状況「怒る時」に、挙動パターンとして“同じ単語を10回繰り返すと怒る”と設定されている。
提示方法(誘導)は、特定状況を発生させるために受信者が行なうべき行動を示す情報(アドバイス)であり、例えば、特定状況「怒る時」に“同じ単語を10回相手に言う”と設定されている。
誘導部116は、特定状況誘導情報から特定状況に対応する提示方法(誘導)の内容を読み出し、受信者に提示する。
特定状況誘導情報は、受信者が任意に設定してもよい。また、例えば、本コンピュータシステム1において、特定状況挙動データベース1052を作成する際に検出した挙動を用いてシステムが生成してもよい。
(B)動作
第4実施形態の一例としてのコンピュータシステム1における第2特定状況判定部107の処理を、図30に示すフローチャート(ステップD21,D22,D2~D10,D23,D13,D41,D15,D16)に従って説明する。
図中、既述の符号と同一の符号を付した処理は同様の処理を示しているので、その説明は省略する。
ステップD41において、誘導部116が、特定状況誘導情報から取得した特定状況に対応する提示方法(誘導)の内容を受信者に提示し、受信者がこの提示された内容に従った行動を行なうことで、特定状況を発生させる。
その後、ステップD15,D16の処理が行なわれ、処理が終了する。
(C)効果
このように、第4実施形態の一例としてのコンピュータシステム1によれば、上述した第3実施形態と同様の作用効果を得ることができる他、誘導部116が、特定状況を実現するために行なうべき行動内容を受信者に提示し、受信者がこの提示された行動を発信者に対して行なうことで、特定状況を発生させる。これにより、特定状況を確実に発生させることができる
(V)その他
上述した各実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
そして、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。
上述した各実施形態においては、映像が動画像であり、対話者端末2から動画像が送信される例を示しているが、これに限定されるものではない。例えば、対話者端末2から音声のみが送信されてもよい。
この場合に、対話者端末2から送信された音声から、抑揚やリズム等の韻律やフレーズ等を抽出して特定状況挙動として用いてもよい。
また、上述した各実施形態においては、発信者と受信者とが1対1で遠隔会話を行なう例を示したが、これに限定されるものではない。受信者は、1対多、多対多での遠隔会話で各実施形態に示すなりすまし検知を行なってもよい。
また、上述した開示により本実施形態を当業者によって実施・製造することが可能である
(VI)付記
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
第1のアカウントと第2のアカウントとの間で行なわれた第1の遠隔通話において生成された映像又は音声のいずれかを含む第1のセンシングデータと、前記第1のアカウントと前記第2のアカウントとの間で行なわれた第2の遠隔通話において生成された映像又は音声のいずれかを含む第2のセンシングデータとを受け付け、
前記第2のセンシングデータにおいて前記第1のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、前記第1のセンシングデータにおいて前記第1のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を前記特定の状況に対応付けて記憶する記憶部を参照して、
前記記憶部における前記特定の状況に対する前記特徴情報と、前記第2のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう
処理をコンピュータが実行することを特徴とする判定方法。
(付記2)
前記特定の状況の発生を検出する処理は、
前記第1のセンシングデータまたは前記第2のセンシングデータに対して解析処理を行なって特定の解析結果を検出した場合に、当該特定の解析結果に予め対応付けられた状況を、前記特定の状況として決定する処理を含む
ことを特徴とする付記1に記載の判定方法。
(付記3)
前記なりすましに関する判定を行なう処理は、
前記第1のセンシングデータから抽出された前記特定の状況における前記特徴情報と、前記第2のセンシングデータから抽出された前記特定の状況における前記特徴情報との一致数に基づいて、前記なりすましを判定する指標値を算出する処理を含む
ことを特徴とする付記1または2に記載の判定方法。
(付記4)
前記第1のセンシングデータが、過去に前記第1のアカウントと前記第2のアカウントとの間で行なわれた遠隔通話における前記第1のアカウントを撮影した映像を含み、
前記第2のセンシングデータが、前記第1のアカウントと前記第2のアカウントとの間で進行中の遠隔通話における前記第1のアカウントを撮影した映像を含む
ことを特徴とする付記1~3のいずれか1項に記載の判定方法。
(付記5)
前記第1のセンシングデータに基づいて検出された、前記第1のアカウンに応じた人物にとっての特定の状況が、前記第2のセンシングデータに基づいて検出された、前記第1のアカウントに応じた人物にとっての特定の状況と異なる場合に、
前記進行中の遠隔通話を行なう前記第2のアカウントに応じた人物に対して提示情報を出力することで、前記第1のアカウントに応じた人物にとっての特定の状況を発生させる特定状況作成処理
を前記コンピュータが実行することを特徴とする付記4に記載の判定方法。
(付記6)
前記コンピュータが、
前記第2のセンシングデータに基づいて検出された、前記第1のアカウントに応じた人物にとっての特定の状況の出現頻度を算出し、
前記出現頻度が閾値より大きい場合に、前記特定の状況を検出する処理を行ない、
出現頻度が前記閾値以下の場合に、前記特定状況作成処理を行なう
ことを特徴とする付記5に記載の判定方法。
(付記7)
前記提示情報が、前記第2のアカウントに応じた人物から前記第1のアカウントに対して発話される質問文である
ことを特徴とする、付記5または6に記載の判定方法。
(付記8)
前記提示情報が、前記第2のアカウントに応じた人物が前記第1のアカウントに対して行なうべき行動を示す情報抽出学習データである
ことを特徴とする、付記5~7のいずれか1項に記載の判定方法。
(付記9)
第1のアカウントと第2のアカウントとの間で行なわれた第1の遠隔通話において生成された映像又は音声のいずれかを含む第1のセンシングデータと、前記第1のアカウントと前記第2のアカウントとの間で行なわれた第2の遠隔通話において生成された映像又は音声のいずれかを含む第2のセンシングデータとを受け付ける入力部と、
前記第2のセンシングデータに基づき、前記第1のアカウンに応じた人物にとって特定の状況が発生したことを検知すると、前記第1のセンシングデータにおいて前記第1のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を記憶する記憶部を参照して、前記記憶部における前記特定の状況に対する前記特徴情報と、前記第2のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう判定部と
を備えることを特徴とする情報処理装置。
(付記10)
前記第1のセンシングデータまたは前記第2のセンシングデータに対して解析処理を行なって特定の解析結果を検出した場合に、当該特定の解析結果に予め対応付けられた状況を、前記特定の状況として決定する特定状況検出部を備える
ことを特徴とする付記9に記載の情報処理装置。
(付記11)
前記判定部は、
前記第1のセンシングデータから抽出された前記特定の状況における前記特徴情報と、前記第2のセンシングデータから抽出された前記特定の状況における前記特徴情報との一致数に基づいて、前記なりすましを判定する指標値を算出する
ことを特徴とする付記9または10に記載の情報処理装置。
(付記12)
前記第1のセンシングデータが、過去に前記第1のアカウントと前記第2のアカウントとの間で行なわれた遠隔通話における前記第1のアカウントを撮影した映像を含み、
前記第2のセンシングデータが、前記第1のアカウントと前記第2のアカウントとの間で進行中の遠隔通話における前記第1のアカウントを撮影した映像を含む
ことを特徴とする付記9~11のいずれか1項に記載の情報処理装置。
(付記13)
前記第1のセンシングデータに基づいて検出された、前記第1のアカウントに応じた人物にとっての特定の状況が、前記第2のセンシングデータに基づいて検出された、前記第1のアカウントに応じた人物にとっての特定の状況と異なる場合に、前記進行中の遠隔通話を行なう前記第2のアカウントに応じた人物に対して提示情報を出力することで、前記第1のアカウントに応じた人物とっての特定の状況を発生させる特定状況作成部
を備えることを特徴とする付記12に記載の情報処理装置。
(付記14)
前記第2のセンシングデータに基づいて検出された、前記第1のアカウントに応じた人物にとっての特定の状況の出現頻度を算出し、
前記出現頻度が閾値より大きい場合に、前記特定状況検出部に処理を実行させ、
出現頻度が前記閾値以下の場合に、前記特定状況作成部に処理を実行させる
特定状況選別部を備える
ことを特徴とする付記13に記載の情報処理装置。
(付記15)
前記提示情報が、前記第2のアカウントに応じた人物から前記第1のアカウントに対して発話される質問文である
ことを特徴とする、付記13または14に記載の情報処理装置。
(付記16)
前記提示情報が、前記第2のアカウントに応じた人物が前記第1のアカウントに対して行なうべき行動を示す情報抽出学習データである
ことを特徴とする、付記13~15のいずれか1項に記載の情報処理装置。
(付記17)
第1のアカウントと第2のアカウントとの間で行なわれた第1の遠隔通話において生成された映像又は音声のいずれかを含む第1のセンシングデータと、前記第1のアカウントと前記第2のアカウントとの間で行なわれた第2の遠隔通話において生成された映像又は音声のいずれかを含む第2のセンシングデータとを受け付け、
前記第2のセンシングデータにおいて前記第1のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、前記第1のセンシングデータにおいて前記第1のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を前記特定の状況に対応付けて記憶する記憶部を参照して、
前記記憶部における前記特定の状況に対する前記特徴情報と、前記第2のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう
処理をコンピュータに実行させることを特徴とする判定プログラム。
(付記18)
特定の状況の発生を検出する処理は、
前記第1のセンシングデータまたは前記第2のセンシングデータに対して解析処理を行なって特定の解析結果を検出した場合に、当該特定の解析結果に予め対応付けられた状況を、前記特定の状況として決定する処理を含む
ことを特徴とする付記17に記載の判定プログラム。
(付記19)
前記なりすましに関する判定を行なう処理は、
前記第1のセンシングデータから抽出された前記特定の状況における前記特徴情報と、前記第2のセンシングデータから抽出された前記特定の状況における前記特徴情報との一致数に基づいて、前記なりすましを判定する指標値を算出する処理を含む
ことを特徴とする付記17または18に記載の判定プログラム。
(付記20)
前記第1のセンシングデータが、過去に前記第1のアカウントと前記第2のアカウントとの間で行なわれた遠隔通話における前記第1のアカウントを撮影した映像を含み、
前記第2のセンシングデータが、前記第1のアカウントと前記第2のアカウントとの間で進行中の遠隔通話における前記第1のアカウントを撮影した映像を含む
ことを特徴とする付記17~19のいずれか1項に記載の判定プログラム。
(付記21)
前記第1のセンシングデータに基づいて検出された、前記第1のアカウントに応じた人物にとっての特定の状況が、前記第2のセンシングデータに基づいて検出された、前記第1のアカウントに応じた人物にとっての特定の状況と異なる場合に、
前記進行中の遠隔通話を行なう前記第2のアカウントに応じた人物に対して提示情報を出力することで、前記第1のアカウントに応じた人物にとっての特定の状況を発生させる特定状況作成処理
を前記コンピュータに実行させることを特徴とする付記20に記載の判定プログラム。
(付記22)
前記第2のセンシングデータに基づいて検出された、前記第1のアカウントに応じた人物にとっての特定の状況の出現頻度を算出し、
前記出現頻度が閾値より大きい場合に、前記特定の状況を検出する処理を行ない、
出現頻度が前記閾値以下の場合に、前記特定状況作成処理を行なう
処理を前記コンピュータに実行させることを特徴とする付記21に記載の判定プログラム。
(付記23)
前記提示情報が、前記第2のアカウントに応じた人物から前記第1のアカウントに対して発話される質問文である
ことを特徴とする、付記21または22に記載の判定プログラム。
(付記24)
前記提示情報が、前記第2のアカウントに応じた人物が前記第1のアカウントに対して行なうべき行動を示す情報抽出学習データである
ことを特徴とする、付記21~23のいずれか1項に記載の判定プログラム。
1 コンピュータシステム
2 対話者端末
10 情報処理装置
11 プロセッサ
12 メモリ
13 記憶装置
14 カメラ
14a モニタ
15 キーボード
16 マウス
17 ディスプレイ
18 ネットワーク
101 第1入力部
102 第1特定状況判定部
103 第1挙動抽出部
104 特定状況挙動格納処理部
105 データベース群
106 第2入力部
107 第2特定状況判定部
108 特定状況モニタリング部
109 特定状況算出部
110 特定状況作成部
111 第2挙動抽出部
112 挙動比較部
113 評価部
114 特定状況選別部
1051 特定状況データベース
1052 特定状況挙動データベース
1053 特定状況数データベース
1054 特徴量抽出データベース
1055 提示文データベース
1056 特定状況頻度データベース

Claims (10)

  1. 第1のアカウントと第2のアカウントとの間で行なわれた第1の遠隔通話において生成された映像又は音声のいずれかを含む第1のセンシングデータと、前記第1のアカウントと前記第2のアカウントとの間で行なわれた第2の遠隔通話において生成された映像又は音声のいずれかを含む第2のセンシングデータとを受け付け、
    前記第2のセンシングデータにおいて前記第1のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、前記第1のセンシングデータにおいて前記第1のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を前記特定の状況に対応付けて記憶する記憶部を参照して、
    前記記憶部における前記特定の状況に対する前記特徴情報と、前記第2のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう
    処理をコンピュータが実行することを特徴とする判定方法。
  2. 前記特定の状況の発生を検出する処理は、
    前記第1のセンシングデータまたは前記第2のセンシングデータに対して解析処理を行なって特定の解析結果を検出した場合に、当該特定の解析結果に予め対応付けられた状況を、前記特定の状況として決定する処理を含む
    ことを特徴とする請求項1に記載の判定方法。
  3. 前記なりすましに関する判定を行なう処理は、
    前記第1のセンシングデータから抽出された前記特定の状況における前記特徴情報と、前記第2のセンシングデータから抽出された前記特定の状況における前記特徴情報との一致数に基づいて、前記なりすましを判定する指標値を算出する処理を含む
    ことを特徴とする請求項1または2に記載の判定方法。
  4. 前記第1のセンシングデータが、過去に前記第1のアカウントと前記第2のアカウントとの間で行なわれた遠隔通話における前記第1のアカウントを撮影した映像を含み、
    前記第2のセンシングデータが、前記第1のアカウントと前記第2のアカウントとの間で進行中の遠隔通話における前記第1のアカウントを撮影した映像を含む
    ことを特徴とする請求項1~3のいずれか1項に記載の判定方法。
  5. 前記第1のセンシングデータに基づいて検出された、前記第1のアカウントに応じた人物にとっての特定の状況が、前記第2のセンシングデータに基づいて検出された、前記第1のアカウントに応じた人物にとっての特定の状況と異なる場合に、
    前記進行中の遠隔通話を行なう前記第2のアカウントに応じた人物に対して提示情報を出力することで、前記第1のアカウントに応じた人物にとっての特定の状況を発生させる特定状況作成処理
    を前記コンピュータが実行することを特徴とする請求項4に記載の判定方法。
  6. 前記コンピュータが、
    前記第2のセンシングデータに基づいて検出された、前記第1のアカウントに応じた人物にとっての特定の状況の出現頻度を算出し、
    前記出現頻度が閾値より大きい場合に、前記特定の状況を検出する処理を行ない、
    出現頻度が前記閾値以下の場合に、前記特定状況作成処理を行なう
    ことを特徴とする請求項5に記載の判定方法。
  7. 前記提示情報が、前記第2のアカウントに応じた人物から前記第1のアカウントに対して発話される質問文である
    ことを特徴とする、請求項5または6に記載の判定方法。
  8. 前記提示情報が、前記第2のアカウントに応じた人物が前記第1のアカウントに対して行なうべき行動を示す情報抽出学習データである
    ことを特徴とする、請求項5~7のいずれか1項に記載の判定方法。
  9. 第1のアカウントと第2のアカウントとの間で行なわれた第1の遠隔通話において生成された映像又は音声のいずれかを含む第1のセンシングデータと、前記第1のアカウントと前記第2のアカウントとの間で行なわれた第2の遠隔通話において生成された映像又は音声のいずれかを含む第2のセンシングデータとを受け付ける入力部と、
    前記第2のセンシングデータに基づき、前記第1のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、前記第1のセンシングデータにおいて前記第1のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を記憶する記憶部を参照して、前記記憶部における前記特定の状況に対する前記特徴情報と、前記第2のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう判定部とを備えることを特徴とする情報処理装置。
  10. 第1のアカウントと第2のアカウントとの間で行なわれた第1の遠隔通話において生成された映像又は音声のいずれかを含む第1のセンシングデータと、前記第1のアカウントと前記第2のアカウントとの間で行なわれた第2の遠隔通話において生成された映像又は音声のいずれかを含む第2のセンシングデータとを受け付け、
    前記第2のセンシングデータにおいて前記第1のアカウントに応じた人物にとって特定の状況が発生したことを検知すると、前記第1のセンシングデータにおいて前記第1のアカウントに応じた人物にとって特定の状況が発生した際に抽出された特徴情報を前記特定の状況に対応付けて記憶する記憶部を参照して、
    前記記憶部における前記特定の状況に対する前記特徴情報と、前記第2のセンシングデータから検知された前記特定の状況に対する前記特徴情報との一致状態に基づき、なりすましに関する判定を行なう処理をコンピュータに実行させることを特徴とする判定プログラム。
JP2021209901A 2021-12-23 2021-12-23 判定方法,情報処理装置および判定プログラム Pending JP2023094428A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021209901A JP2023094428A (ja) 2021-12-23 2021-12-23 判定方法,情報処理装置および判定プログラム
US17/960,200 US20230208966A1 (en) 2021-12-23 2022-10-05 Determination method, information processing apparatus, and computer-readable recording medium storing determination program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021209901A JP2023094428A (ja) 2021-12-23 2021-12-23 判定方法,情報処理装置および判定プログラム

Publications (1)

Publication Number Publication Date
JP2023094428A true JP2023094428A (ja) 2023-07-05

Family

ID=86896459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021209901A Pending JP2023094428A (ja) 2021-12-23 2021-12-23 判定方法,情報処理装置および判定プログラム

Country Status (2)

Country Link
US (1) US20230208966A1 (ja)
JP (1) JP2023094428A (ja)

Also Published As

Publication number Publication date
US20230208966A1 (en) 2023-06-29

Similar Documents

Publication Publication Date Title
CN107818798B (zh) 客服服务质量评价方法、装置、设备及存储介质
JP3676969B2 (ja) 感情検出方法及び感情検出装置ならびに記録媒体
US11455985B2 (en) Information processing apparatus
US9412393B2 (en) Speech effectiveness rating
US10755704B2 (en) Information processing apparatus
JP2018124604A (ja) 接客支援システム、接客支援装置及び接客支援方法
US10834456B2 (en) Intelligent masking of non-verbal cues during a video communication
US11114111B2 (en) Dialogue analysis
KR20100094212A (ko) 아바타 얼굴 표정 제어장치
US11341331B2 (en) Speaking technique improvement assistant
CN115088033A (zh) 代表对话中的人参与者生成的合成语音音频数据
EP4020352A1 (en) System and methods for evaluation of interpersonal interactions to predict real world performance
JP7204337B2 (ja) 会議支援装置、会議支援システム、会議支援方法及びプログラム
JP2021113835A (ja) 音声処理装置および音声処理方法
CN112597889A (zh) 一种基于人工智能的情绪处理方法和装置
JP2023094428A (ja) 判定方法,情報処理装置および判定プログラム
US11404064B2 (en) Information processing apparatus and speech analysis method
US20220111294A1 (en) Apparatus and method for audio data analysis
RU2802533C1 (ru) Способ и система анализа голосовых вызовов на предмет выявления и предотвращения социальной инженерии с помощью активации голосового бота
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム
JP6248677B2 (ja) 会話補助プログラム、会話補助方法、及び会話システム
JP7154245B2 (ja) 発話支援装置、発話支援方法、および発話支援プログラム
KR102553509B1 (ko) 보호가 필요한 사용자를 위한 대화 중 감정 및 행동 모니터링 방법
US11967311B1 (en) Recipient customized generative voice modeling
KR102338684B1 (ko) 비자발적 감정의 예측을 위한 데이터 처리 방법