JP2022049784A - 情報処理装置、プログラム及び情報処理方法 - Google Patents

情報処理装置、プログラム及び情報処理方法 Download PDF

Info

Publication number
JP2022049784A
JP2022049784A JP2020156000A JP2020156000A JP2022049784A JP 2022049784 A JP2022049784 A JP 2022049784A JP 2020156000 A JP2020156000 A JP 2020156000A JP 2020156000 A JP2020156000 A JP 2020156000A JP 2022049784 A JP2022049784 A JP 2022049784A
Authority
JP
Japan
Prior art keywords
keyword
user
voice
information
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020156000A
Other languages
English (en)
Other versions
JP6953597B1 (ja
Inventor
昭宏 小林
Akihiro Kobayashi
大 加地
Masaru Kaji
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bellface Inc
Original Assignee
Bellface Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bellface Inc filed Critical Bellface Inc
Priority to JP2020156000A priority Critical patent/JP6953597B1/ja
Priority to JP2021118731A priority patent/JP2022050312A/ja
Priority to US18/023,874 priority patent/US20230334260A1/en
Priority to PCT/JP2021/031234 priority patent/WO2022059446A1/ja
Application granted granted Critical
Publication of JP6953597B1 publication Critical patent/JP6953597B1/ja
Publication of JP2022049784A publication Critical patent/JP2022049784A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】面談音声に含まれる特定のキーワードの再生時点を容易に把握可能とする技術を提供する。【解決手段】システムにおいて、情報処理装置は、面談の音声データから面談のトークスクリプトを含む文字情報を生成する文字情報生成ステップA103と、文字情報からキーワードを抽出する抽出ステップA104と、抽出されたキーワードと音声データにおけるキーワードが出現した再生時点とが対応付けられた視覚情報を生成する視覚情報生成ステップA105と、を実行する。【選択図】図4

Description

本発明は、情報処理装置、プログラム及び情報処理方法に関する。
近年、オンライン上で面談を行いたいという要求がある。また、面談後に面談内容を確認したい場合には、面談内容を録音して記録に残しておくことがある。特許文献1には、面談内容を録音することができる遠隔会議支援システムが開示されている。
特開2013-26706号公報
ところで、面談音声を再生する際、ユーザは、参加者が特定のキーワードを用いて会話していた再生時点を確認したい場合がある。しかしながら、ユーザが面談時の会話内容を覚えていない場合、特定のキーワードが用いられた再生時点を即座に把握することは困難である。
本発明では上記事情を鑑み、面談音声に含まれる特定のキーワードの再生時点を容易に把握可能とする技術を提供することとした。
本発明の一態様によれば、情報処理装置が提供される。この情報処理装置は、文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを実行するように構成される。文字情報生成ステップでは、面談の音声データから面談のトークスクリプトを含む文字情報を生成する。抽出ステップでは、文字情報から、キーワードを抽出する。視覚情報生成ステップでは、抽出されたキーワードと、音声データにおけるキーワードが出現した再生時点とが対応付けられた視覚情報を生成する。
これにより、ユーザは、面談音声に含まれる特定のキーワードの再生時点を容易に把握することができる。
本実施形態に係るシステム1の構成概要を示す図である。 情報処理装置3のハードウェア構成を示すブロック図である。 情報処理装置3の機能を示す機能ブロック図である。 情報処理装置3による情報処理の一例を示すアクティビティ図である。 音声再生端末2の表示部に表示されるGUIの一例を示す図である。 情報処理装置3による情報処理の一例を示すアクティビティ図である。
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。
また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。
また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
1.ハードウェア構成
本節では、本実施形態のハードウェア構成について説明する。図1は、本実施形態に係るシステム1の構成概要を示す図である。
1.1 システム1
システム1は、音声再生端末2と、情報処理装置3と、第1のユーザ端末4と、第2のユーザ端末5とを備え、これらが電気通信回線を通じて通信可能に構成される。
1.2 音声再生端末2
音声再生端末2は、面談の音声データを再生する者が操作するものであり、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置3にアクセス可能なものであれば、その形態は問わない。
音声再生端末2は、表示部と、入力部と、通信部と、記憶部と、制御部とを有し、これらの構成要素が音声再生端末2の内部において通信バスを介して電気的に接続されている。
表示部及び入力部は、例えば、音声再生端末2の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部は、ユーザが操作可能なグラフィカルユーザインターフェース(Graphical User Interface:GUI)の画面を表示する。入力部は、表示部と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、QWERTYキーボード等を採用してもよい。
通信部、記憶部及び制御部の具体的な説明については、次に説明する情報処理装置3における通信部31、記憶部32及び制御部33の記載を参照されたい。
1.3 情報処理装置3
図2は、情報処理装置3のハードウェア構成を示すブロック図である。情報処理装置3は、通信部31と、記憶部32と、制御部33とを有し、これらの構成要素が情報処理装置3の内部において通信バス30を介して電気的に接続されている。各構成要素についてさらに説明する。
(通信部31)
通信部31は、USB、IEEE1394、Thunderbolt、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、LTE/3G等のモバイル通信、Bluetooth(登録商標)通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。
(記憶部32)
記憶部32は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部33によって実行される情報処理装置3に係る種々のプログラム等を記憶するソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。また、これらの組合せであってもよい。
特に、記憶部32は、面談の音声データ、文字情報6、抽出部335に抽出されたキーワード60等を記憶する。面談の音声データとは、複数の者(例えば、第1のユーザ4aと、第2のユーザ5a)によって実施された面談に係る音声データである。ここで、面談とは、例えば、ネットワークを介して行われた商談、打ち合わせ、面接、会議、講習会、授業等であるが、これらに限られず、インターネットを介して複数のユーザが画面及び音声を介してやり取りを行うものは面談に含まれる。面談は、1対1に限らず、1対多、多対1、多対多であってもよい。なお、音声データは、動画データに含まれるものであってもよく、音声データは、動画データとして記憶部32に記憶されていてもよい。本実施形態では、音声データは、営業担当者である第1のユーザ4aと、顧客である第2のユーザ5aとの商談に係るものである場合を例に説明するが、これに限定されるものではない。商談以外にも、面談を行うものであれば適用可能である。
(制御部33)
制御部33は、情報処理装置3に関連する全体動作の処理・制御を行う。制御部33は、例えば不図示の中央処理装置(Central Processing Unit:CPU)である。制御部33は、記憶部32に記憶された所定のプログラムを読み出すことによって、情報処理装置3に係る種々の機能を実現する。すなわち、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部(図3参照)として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部33は単一であることに限定されず、機能ごとに複数の制御部33を有するように実施してもよい。またそれらの組合せであってもよい。
1.4 第1のユーザ端末4
第1のユーザ端末4は、第1のユーザ4aが操作するものであり、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置3にアクセス可能なものであれば、その形態は問わない。第1のユーザ4aは、面談の参加者であり、例えば、商品又はサービスを販売する営業担当者、採用面接を受ける者、講習会又は授業を行う講師等である。なお、第1のユーザ端末4及び第1のユーザ端末4を操作する第1のユーザ4aは複数でもよい。
第1のユーザ端末4は、表示部と、入力部と、通信部と、記憶部と、制御部とを有し、これらの構成要素が外部の第1のユーザ端末4の内部において通信バスを介して電気的に接続されている。各構成要素の説明は音声再生端末2及び情報処理装置3の記載を参照されたい。
1.5 第2のユーザ端末5
第2のユーザ端末5は、第2のユーザ5aが操作するものであり、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置3にアクセス可能なものであれば、その形態は問わない。第2のユーザ5aは、面談の参加者であり、例えば、第1のユーザ4aの顧客、採用面接官、講習会又は講義の受講者等である。なお、第2のユーザ端末5及び第2のユーザ端末5を操作する第2のユーザ5aは複数でもよい。
第2のユーザ端末5は、表示部と、入力部と、通信部と、記憶部と、制御部とを有し、これらの構成要素が第2のユーザ端末5の内部において通信バスを介して電気的に接続されている。各構成要素の説明は音声再生端末2及び情報処理装置3の記載を参照されたい。
2.機能構成
本節では、本実施形態の機能構成について説明する。図3は、情報処理装置3の機能を示す機能ブロック図である。前述の通り、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部として実行されうる。
具体的には、情報処理装置3(制御部33)は、各機能部として、受付部331と、識別部332と、面談音声生成部333と、文字情報生成部334、抽出部335と、視覚情報生成部336とを備える。
(受付部331)
受付部331は、受付ステップを実行する。受付部331は、通信部31又は記憶部32を介して情報を受け付け、これを作業メモリに読出可能に構成される。特に、受付部331は、第1のユーザ端末4と、第2のユーザ端末5とからネットワーク及び通信部31を介して種々の情報(例えば、音声データ又は音声データを含む動画データ)を受け付けるように構成される。本実施形態では、受付部331が受け付けた種々の情報は、記憶部32に記憶され、作業メモリに読出可能に構成される例を説明する。
(識別部332)
識別部332は、識別ステップを実行する。識別部332は、音声データに対して音声認識処理を実行し、音声データに含まれる第1のユーザ4aによる音声と、第2のユーザ5aによる音声とを識別する。識別された第1のユーザ4aによる音声及び第2のユーザ5aによる音声は、それぞれ記憶部32に記憶され、作業メモリに読出可能に構成される。認識のアルゴリズムは特に限定されず、例えば、機械学習ベースの自然言語処理を用いたアルゴリズム等が適宜採用されうる。
(面談音声生成部333)
面談音声生成部333は、面談音声生成ステップを実行する。面談音声生成部333は、第1の音声データと、第2の音声データとを識別可能に含む音声データを生成する。面談音声生成部333により生成された音声データは、記憶部32に記憶され、作業メモリに読出可能に構成される。
(文字情報生成部334)
文字情報生成部334は、文字情報生成ステップを実行する。文字情報生成部334は、記憶部32に記憶された音声データから文字情報6を生成し、音声再生端末2等の表示部に文字情報6を表示させるように制御する。あるいは、文字情報生成部334は、文字情報6を音声再生端末2等の表示部に表示させるためのレンダリング情報だけを生成してもよい。文字情報生成部334によって生成された文字情報6は、音声データと関連付けられて記憶部32に記憶され、作業メモリに読出可能に構成される。
(抽出部335)
抽出部335は、抽出ステップを実行する。抽出部335は、文字情報6から、キーワード60を抽出する。なお、抽出部335が抽出するキーワード60は、予め設定可能であり、かかる設定は記憶部32に記憶される。
(視覚情報生成部336)
視覚情報生成部336は、視覚情報7生成ステップを実行する。視覚情報生成部336は、記憶部32に記憶された種々の情報(例えば、アイコン70)又はこれらを含む画面、画像、等の視覚情報7を生成し、音声再生端末2等の表示部に視覚情報7を表示させるように制御する。あるいは、視覚情報生成部336は、前記視覚情報7を音声再生端末2等の表示部に表示させるためのレンダリング情報だけを生成してもよい。視覚情報生成部336によって生成された視覚情報7は、記憶部32に記憶され、作業メモリに読出可能に構成される。
3.情報処理の詳細
本節では、アクティビティ図を参照しながら、前述した情報処理装置3の情報処理について説明する。図4は、情報処理装置3による情報処理の一例を示すアクティビティ図である。
3.1 音声データが情報処理装置3に予め記憶されている場合
本節では、音声データが情報処理装置3に予め記憶されている場合の情報処理を説明する。
まず、受付部331は、情報処理装置3の記憶部32に記憶された音声データを作業メモリに読み出す(A101)。第1のユーザ4aによる第1の音声データと、第2のユーザ5aによる第2の音声データとを識別する場合、A102に進み、前記識別を行わない場合、A103に進む。
A102では、識別部332は、音声データに対して音声認識処理を実行し、音声データに含まれる第1のユーザ4aによる音声と、第2のユーザ5aによる音声とを識別する。ここで、識別部332は、音声データの波形に基づき、面談における話者(例えば、営業担当者である第1のユーザ4aか、顧客である第2のユーザ5aか)を識別する。さらに、識別部332は、第1のユーザ4a及び/又は第2のユーザ5aの声の周波数等の物理量を記憶しておき、記憶されているデータと、音声データとを比較し、第1のユーザ4a及び/又は第2のユーザ5aを特定し、話者を識別してもよい。さらに他の例として、識別部332は、第1のユーザ4a及び/又は第2のユーザ5aが面談にて話しそうな内容を予め学習させた学習済みモデルに音声データを入力し、その音声データが第1のユーザ4aか、第2のユーザ5aかの出力に基づき、話者を識別してもよい。識別された音声は、それぞれ記憶部32に記憶される。
続いて、文字情報生成部334は、面談の音声データから面談のトークスクリプトを含む文字情報6を生成する(A103)。図5は、音声再生端末2の表示部に表示されるGUIの一例を示す図である。図5に示されるように、文字情報生成部334は、第1のユーザ4a及び第2のユーザ5aによる面談の音声データから、それぞれのユーザが話した内容を示すトークスクリプトを含む文字情報6を生成する。
音声データ又は音声データに含まれる音声が識別されることにより、第1の文字情報61及び第2の文字情報62が生成された場合、第1の文字情報61及び第2の文字情報62が区別可能な態様で音声再生端末2の表示部に表示される。具体的には、読み出された音声データが、第1の音声データと、第2の音声データとを識別可能なデータ構造を有している場合、文字情報生成部334は、第1のユーザ4aによる音声に係る音声データから第1のユーザ4aのトークスクリプトを含む第1の文字情報61を生成する。また、文字情報生成部334は、第2のユーザ5aによる音声に係る音声データから第2のユーザ5aのトークスクリプトを含む第2の文字情報62を生成する。
また、識別部332によって音声データが第1のユーザ4aによる音声と、第2のユーザ5aによる音声とに識別されている場合、文字情報生成部334は、第1のユーザ4aによる音声から、第1のユーザ4aのトークスクリプトを含む第1の文字情報61を生成し、文字情報生成部334は、第2のユーザ5aによる音声から、第2のユーザ5aのトークスクリプトを含む第2の文字情報62を生成する。
次に、抽出部335は、文字情報6から、キーワード60を抽出する(A104)。ここで、キーワード60は、例えば、日時情報、顧客情報(氏名、会社名、部署名、年齢、性別等)、商品又はサービスに関する情報等(商品名、商品の金額、商品数等)である。また、例えば、キーワード60は、単位であり、通貨であることが好ましいが、これに限定されない。また、抽出部335が抽出するキーワード60は、複数のキーワード60であってもよい。図5の例によれば、第1のユーザ4aのトークスクリプトに含まれる日本通貨の「円」がキーワード60として抽出される。なお、金額を含む「4000円」がキーワード60として抽出されてもよい。また、予め定められた設定により、一定金額以上のみが抽出されてもよく、抽出するキーワード60は、複数種類でもよい。抽出されたキーワード60は、記憶部32に記憶される。
特に、音声データの識別が行われた場合、抽出部335は、第1の文字情報61から、キーワード60のみを抽出することが好ましい。このような構成により、第1のユーザ4aに係る音声データに含まれるキーワード60のみが抽出され、後述する視覚情報7が表示された際、面談音声を再生する者は、営業担当者の発言に係るキーワード60と、そのキーワード60が出現した再生時点のみを把握することができる。
次に、A105において、視覚情報生成部336は、抽出されたキーワード60と、音声データにおけるキーワード60が出現した再生時点とが対応付けられた視覚情報7を生成する。具体的には、視覚情報生成部336は、抽出されたキーワード60と、音声データの再生箇所を示すシークバー71とが対応付けられた視覚情報7を生成する。このとき、第1の文字情報61に含まれるキーワード60のみが抽出されている場合、第1のユーザ4aの発言に含まれる特定のキーワード60に係る視覚情報7のみが生成されることとなる。このように、キーワード60と、シークバー71におけるキーワード60が出現した再生時点とが紐付けられた態様の視覚情報7が生成されことで、音声データを再生する者は、面談音声における特定のキーワード60の再生時点を即座に把握可能となる。
ここで、視覚情報7は、例えば、キーワード60に紐付けられたものであることが識別可能なアイコン70である。例えば、視覚情報生成部336は、シークバー71におけるキーワード60が出現した再生時点を把握可能な位置に、再生時点に対応するキーワード60を含むアイコン70を生成する。図5に示されるように、視覚情報生成部336は、アイコン70の中に、抽出したキーワード60が含まれるように視覚情報7を生成する。ここで、アイコン70の把握可能な位置とは、例えば、シークバー71におけるキーワード60が出現した再生時点の上下左右の少なくともいずれかであることが好ましい。ここで、前記上下左右には、前記再生時点の右上、右下、左上、左下が含まれる。このような位置に併記されていることで、音声データを再生する者は、キーワード60が出現する再生時点を直感的に把握することができる。図5に示される例では、アイコン70は、第1の文字情報61から抽出されたキーワード60である「円」を含む。なお、アイコン70にキーワード60が含まれなくてもよい。
また、視覚情報生成部336は、複数のキーワード60の登場順を識別可能な視覚情報7を生成することが好ましい。図5に示されるように、複数のキーワード60が抽出された場合、キーワード60が出現した音声データの再生時点の早い順番で、アイコン701と、アイコン702と、アイコン703とが並べて表示されるように、視覚情報生成部336は、それぞれのアイコン70を生成することが好ましい。このような構成により、面談音声を再生する者が、面談音声に含まれる特定のキーワード60を確認する際、面談音声中のどんなタイミングで、どれくらい数の特定のキーワード60が出現したのかを直感的に把握可能となる。
3.2 第1のユーザ端末4及び第2のユーザ端末5から音声データを受け付ける場合
本節では、音声データを第1のユーザ端末4及び第2のユーザ端末5から受け付ける場合の情報処理を説明する。図6は、情報処理装置3による情報処理の一例を示すアクティビティ図である。
受付部331は、第1のユーザ4aによる第1の音声データと、第2のユーザ5aによる第2の音声データとをそれぞれ受け付ける(A201)。具体的には、受付部331は、通信部31を介して、第1のユーザ端末4から送信された第1の音声データ及び第2のユーザ端末5から送信された第2の音声データを区別して受け付け、これらが記憶部32に記憶される。発信元である端末が既知であるため、このように、はじめから第1の音声データと、第2の音声データとを区別して受け付けることができる。
続いて、A202において、面談音声生成部333は、第1の音声データと、第2の音声データとを識別可能に含む音声データを生成する。具体的には例えば、音声データのヘッダ情報等に、再生時間と第1の音声データ又は第2の音声データである旨とを紐付けた記載を含むように実施すればよい。
A203において、文字情報生成部334は、第1の音声データから第1のユーザ4aのトークスクリプトを含む第1の文字情報61を生成し、第2の音声データに係る音声データから第2のユーザ5aのトークスクリプトを含む第2の文字情報62を生成する。
続いて、抽出部335は、第1の文字情報61から、キーワード60を抽出する(A204)。
その後、視覚情報生成部336は、抽出されたキーワード60と、音声データにおけるキーワード60が出現した再生時点とが対応付けられた視覚情報7を生成する(A205)。なお、視覚情報7に係る説明は、3.1節における記載を参照されたい。
このような情報処理により、第1のユーザ4aによる音声と、第2のユーザ5aによる音声とを識別可能な形式の音声データであっても、音声データが情報処理装置3に予め記憶されている場合と同様、視覚情報7が生成される。
上記に示されるように、本実施形態によれば、営業担当者と顧客とで行われた面談において、面談音声におけるどの再生時点で、特定のキーワード60が、使用されているのかを表示させることができる。これにより、面談音声を再生する者は、営業成績がよい担当者がどのようなキーワード60をどんなタイミングで使っているのか把握することが可能となる等、面談音声を他の営業担当者の教育等に用いることができる。
4.その他
本実施形態に係るシステム1に関して、以下のような態様を採用してもよい。
(1-1)視覚情報生成部336は、抽出されたキーワード60によって、表示態様が異なるように視覚情報7を生成してもよい。例えば、抽出されたキーワード60が通貨である場合、キーワード60の金額によって、色又は大きさが異なる視覚情報7を生成してもよい。また、例えば、抽出されたキーワード60が、顧客情報であるか、商品の金額であるかによって、表示態様が異なるように視覚情報7を生成してもよい。
(1-2)抽出されたキーワード60が通貨である場合、視覚情報生成部336は、金額の大きいキーワード60に係るアイコン70は、他のアイコン70とは異なる表示態様となるように生成してもよい。例えば、視覚情報生成部336は、抽出されたキーワード60の中で、最も大きな金額に係るアイコン70については、最も大きく表示させるように制御し、他のアイコン70とは異なる色で表示させるように制御する。また、例えば、視覚情報生成部336は、キーワード60の金額が大きいほど、目立つようにアイコン70を生成する。具体的には、抽出したキーワード60に、1,000円と、10,000円とが含まれる場合、10,000円に係る視覚情報7の方が、より大きくなるように視覚情報7を生成する。例えば、アイコン702が10,000円に係る視覚情報7であり、アイコン703が1,000円に係る視覚情報7である場合、図5で示されるように、アイコン702が、アイコン703よりも大きく表示される。
(1-3)アイコン70の中に、抽出したキーワード60が含まれる場合、視覚情報生成部336は、金額の大きなキーワード60については、アイコン70に含まれる他のキーワード60よりも大きい文字又は太字で表示させるように制御する。図5の例では、アイコン702が、アイコン703よりも大きい文字で表示される。
(1-4)視覚情報生成部336は、第1の文字情報61及び第2の文字情報62からキーワード60が抽出されている場合、第1の文字情報61から抽出されたものであるか、第2の文字情報62から抽出されたものであるかによって、表示態様が異なるように視覚情報7を生成してもよい。例えば、第1の文字情報61から抽出されたキーワード60に係る視覚情報7は青色で表示させ、第2の文字情報62から抽出されたキーワード60に係る視覚情報7は赤色で表示させるように制御してもよい。
(2)第1の文字情報61と、第2の文字情報62とが識別されている場合、第2の文字情報62から、キーワード60のみが抽出されてもよい。これにより、第2のユーザ5aによる発言に含まれるキーワード60と、前記キーワード60に対応する音声データの再生時点のみが把握可能となり、面談音声を再生する者は、顧客がどのようなキーワード60をどんなタイミングで使っているのか把握することが可能となる等、面談音声を他の営業担当者の教育等に用いることができる。
(3)情報処理装置3は、コンピュータに専用プログラムがインストールされることによって実施されてもよい。
(4)本実施形態の態様は、プログラムであってもよい。プログラムは、コンピュータに、情報処理装置3の各ステップを実行させる。
(5)本実施形態の態様は、情報処理方法であってもよい。情報処理方法は、文字情報生成ステップ、抽出ステップと、視覚情報生成ステップとを備える。文字情報生成ステップでは、面談の音声データから面談のトークスクリプトを含む文字情報6を生成する。抽出ステップでは、文字情報6から、キーワード60を抽出する。視覚情報生成ステップでは、抽出されたキーワード60と、音声データにおけるキーワード60が出現した再生時点とが対応付けられた視覚情報7を生成する。
さらに、次に記載の各態様で提供されてもよい。
前記情報処理装置において、前記キーワードは、複数のキーワードであり、前記視覚情報生成ステップでは、前記複数のキーワードの登場順を識別可能な視覚情報を生成する、もの。
前記情報処理装置において、前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データの再生箇所を示すシークバーとが対応付けられた視覚情報を生成する、もの。
前記情報処理装置において、前記視覚情報生成ステップでは、前記シークバーにおける前記キーワードが出現した再生時点を把握可能な位置に、前記再生時点に対応する前記キーワードを含むアイコンを生成する、もの。
前記情報処理装置において、前記アイコンの前記把握可能な位置は、前記シークバーにおける前記キーワードが出現した前記再生時点の上下左右の少なくともいずれかである、もの。
前記情報処理装置において、前記面談は、第1のユーザと、第2のユーザとによって実施され、前記文字情報生成ステップでは、前記音声データから前記第1のユーザのトークスクリプトを含む第1の文字情報と、前記第2のユーザのトークスクリプトを含む第2の文字情報とを生成し、前記抽出ステップでは、前記第1の文字情報から、前記キーワードを抽出する、もの。
前記情報処理装置において、識別ステップをさらに実行するように構成され、前記識別ステップでは、前記音声データに対して音声認識処理を実行し、前記音声データに含まれる前記第1のユーザによる音声と、前記第2のユーザによる音声とを識別し、前記文字情報生成ステップでは、前記第1のユーザによる音声から、前記第1の文字情報を生成し、前記第2のユーザによる音声から、前記第2の文字情報を生成する、もの。
前記情報処理装置において、受付ステップと、面談音声生成ステップとをさらに実行するように構成され、前記受付ステップでは、前記第1のユーザによる第1の音声データと、前記第2のユーザによる第2の音声データとをそれぞれ受け付け、前記面談音声生成ステップでは、前記第1の音声データと、前記第2の音声データとを識別可能に含む前記音声データを生成する、もの。
前記情報処理装置において、前記第1のユーザは営業担当者であり、前記第2のユーザは顧客であり、前記音声データは、前記営業担当者と前記顧客との商談を含む、もの。
前記情報処理装置において、前記キーワードは、単位である、もの。
前記情報処理装置において、前記キーワードは、通貨である、もの。
プログラムであって、コンピュータに、前記情報処理装置の各ステップを実行させる、もの。
情報処理方法であって、文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを備え、前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、前記抽出ステップでは、前記文字情報から、キーワードを抽出し、前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データにおける前記キーワードが出現した再生時点とが対応付けられた視覚情報を生成する、方法。
もちろん、この限りではない。
最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1 :システム
2 :音声再生端末
3 :情報処理装置
30 :通信バス
31 :通信部
32 :記憶部
33 :制御部
331 :受付部
332 :識別部
333 :面談音声生成部
334 :文字情報生成部
335 :抽出部
336 :視覚情報生成部
4 :第1のユーザ端末
4a :第1のユーザ
5 :第2のユーザ端末
5a :第2のユーザ
6 :文字情報
60 :キーワード
61 :第1の文字情報
62 :第2の文字情報
7 :視覚情報
70 :アイコン
71 :シークバー
701 :アイコン
702 :アイコン
703 :アイコン

Claims (13)

  1. 情報処理装置であって、
    文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを実行するように構成され、
    前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、
    前記抽出ステップでは、前記文字情報から、キーワードを抽出し、
    前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データにおける前記キーワードが出現した再生時点とが対応付けられた視覚情報を生成する、
    もの。
  2. 請求項1に記載の情報処理装置において、
    前記キーワードは、複数のキーワードであり、
    前記視覚情報生成ステップでは、前記複数のキーワードの登場順を識別可能な視覚情報を生成する、
    もの。
  3. 請求項1又は請求項2に記載の情報処理装置において、
    前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データの再生箇所を示すシークバーとが対応付けられた視覚情報を生成する、
    もの。
  4. 請求項3に記載の情報処理装置において、
    前記視覚情報生成ステップでは、前記シークバーにおける前記キーワードが出現した再生時点を把握可能な位置に、前記再生時点に対応する前記キーワードを含むアイコンを生成する、
    もの。
  5. 請求項4に記載の情報処理装置において、
    前記アイコンの前記把握可能な位置は、前記シークバーにおける前記キーワードが出現した前記再生時点の上下左右の少なくともいずれかである、
    もの。
  6. 請求項1~請求項5の何れか1つに記載の情報処理装置において、
    前記面談は、第1のユーザと、第2のユーザとによって実施され、
    前記文字情報生成ステップでは、前記音声データから前記第1のユーザのトークスクリプトを含む第1の文字情報と、前記第2のユーザのトークスクリプトを含む第2の文字情報とを生成し、
    前記抽出ステップでは、前記第1の文字情報から、前記キーワードを抽出する、
    もの。
  7. 請求項6に記載の情報処理装置において、
    識別ステップをさらに実行するように構成され、
    前記識別ステップでは、前記音声データに対して音声認識処理を実行し、前記音声データに含まれる前記第1のユーザによる音声と、前記第2のユーザによる音声とを識別し、
    前記文字情報生成ステップでは、
    前記第1のユーザによる音声から、前記第1の文字情報を生成し、
    前記第2のユーザによる音声から、前記第2の文字情報を生成する、
    もの。
  8. 請求項6に記載の情報処理装置において、
    受付ステップと、面談音声生成ステップとをさらに実行するように構成され、
    前記受付ステップでは、前記第1のユーザによる第1の音声データと、前記第2のユーザによる第2の音声データとをそれぞれ受け付け、
    前記面談音声生成ステップでは、前記第1の音声データと、前記第2の音声データとを識別可能に含む前記音声データを生成する、
    もの。
  9. 請求項6~請求項8の何れか1つに記載の情報処理装置において、
    前記第1のユーザは営業担当者であり、前記第2のユーザは顧客であり、
    前記音声データは、前記営業担当者と前記顧客との商談を含む、
    もの。
  10. 請求項1~請求項9の何れか1つに記載の情報処理装置において、
    前記キーワードは、単位である、
    もの。
  11. 請求項1~請求項10の何れか1つに記載の情報処理装置において、
    前記キーワードは、通貨である、
    もの。
  12. プログラムであって、
    コンピュータに、請求項1~請求項11の何れか1つに記載の情報処理装置の各ステップを実行させる、
    もの。
  13. 情報処理方法であって、
    文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを備え、
    前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、
    前記抽出ステップでは、前記文字情報から、キーワードを抽出し、
    前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データにおける前記キーワードが出現した再生時点とが対応付けられた視覚情報を生成する、
    方法。
JP2020156000A 2020-09-17 2020-09-17 情報処理装置、プログラム及び情報処理方法 Active JP6953597B1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020156000A JP6953597B1 (ja) 2020-09-17 2020-09-17 情報処理装置、プログラム及び情報処理方法
JP2021118731A JP2022050312A (ja) 2020-09-17 2021-07-19 情報処理装置、プログラム及び情報処理方法
US18/023,874 US20230334260A1 (en) 2020-09-17 2021-08-25 Information processing device, program, and information processing method
PCT/JP2021/031234 WO2022059446A1 (ja) 2020-09-17 2021-08-25 情報処理装置、プログラム及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020156000A JP6953597B1 (ja) 2020-09-17 2020-09-17 情報処理装置、プログラム及び情報処理方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021118731A Division JP2022050312A (ja) 2020-09-17 2021-07-19 情報処理装置、プログラム及び情報処理方法

Publications (2)

Publication Number Publication Date
JP6953597B1 JP6953597B1 (ja) 2021-10-27
JP2022049784A true JP2022049784A (ja) 2022-03-30

Family

ID=78119276

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020156000A Active JP6953597B1 (ja) 2020-09-17 2020-09-17 情報処理装置、プログラム及び情報処理方法
JP2021118731A Pending JP2022050312A (ja) 2020-09-17 2021-07-19 情報処理装置、プログラム及び情報処理方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021118731A Pending JP2022050312A (ja) 2020-09-17 2021-07-19 情報処理装置、プログラム及び情報処理方法

Country Status (3)

Country Link
US (1) US20230334260A1 (ja)
JP (2) JP6953597B1 (ja)
WO (1) WO2022059446A1 (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025411A (ja) * 2007-07-17 2009-02-05 Yamaha Corp 音声認識装置およびプログラム
JP2010041286A (ja) * 2008-08-04 2010-02-18 Fujitsu Ltd 話者判別プログラム、話者判別装置、および話者判別方法
JP2010175684A (ja) * 2009-01-28 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> 通話状態判定装置、通話状態判定方法、プログラム、記録媒体
WO2015037073A1 (ja) * 2013-09-11 2015-03-19 株式会社日立製作所 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体
JP2016157225A (ja) * 2015-02-24 2016-09-01 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
WO2016163028A1 (ja) * 2015-04-10 2016-10-13 株式会社東芝 発言提示装置、発言提示方法およびプログラム
WO2017038794A1 (ja) * 2015-08-31 2017-03-09 株式会社 東芝 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム
JP2017129720A (ja) * 2016-01-20 2017-07-27 株式会社リコー 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム
JP2019050482A (ja) * 2017-09-08 2019-03-28 オリンパス株式会社 情報取得機器、表示方法およびプログラム
JP6606697B1 (ja) * 2019-05-24 2019-11-20 株式会社ナレッジフロー 通話システム、及び通話プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025411A (ja) * 2007-07-17 2009-02-05 Yamaha Corp 音声認識装置およびプログラム
JP2010041286A (ja) * 2008-08-04 2010-02-18 Fujitsu Ltd 話者判別プログラム、話者判別装置、および話者判別方法
JP2010175684A (ja) * 2009-01-28 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> 通話状態判定装置、通話状態判定方法、プログラム、記録媒体
WO2015037073A1 (ja) * 2013-09-11 2015-03-19 株式会社日立製作所 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体
JP2016157225A (ja) * 2015-02-24 2016-09-01 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
WO2016163028A1 (ja) * 2015-04-10 2016-10-13 株式会社東芝 発言提示装置、発言提示方法およびプログラム
WO2017038794A1 (ja) * 2015-08-31 2017-03-09 株式会社 東芝 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム
JP2017129720A (ja) * 2016-01-20 2017-07-27 株式会社リコー 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム
JP2019050482A (ja) * 2017-09-08 2019-03-28 オリンパス株式会社 情報取得機器、表示方法およびプログラム
JP6606697B1 (ja) * 2019-05-24 2019-11-20 株式会社ナレッジフロー 通話システム、及び通話プログラム

Also Published As

Publication number Publication date
WO2022059446A1 (ja) 2022-03-24
US20230334260A1 (en) 2023-10-19
JP2022050312A (ja) 2022-03-30
JP6953597B1 (ja) 2021-10-27

Similar Documents

Publication Publication Date Title
JP2011039860A (ja) 仮想空間を用いる会話システム、会話方法及びコンピュータプログラム
US20210065695A1 (en) Program storage medium, method, and apparatus for determining point at which trend of conversation changed
JP2020064493A (ja) オンラインコミュニケーションのレビューシステム、方法、及びコンピュータプログラム
CN108762847A (zh) 用于处理信息的方法
US20210021439A1 (en) Measuring and Responding to Attention Levels in Group Teleconferences
JP6953597B1 (ja) 情報処理装置、プログラム及び情報処理方法
US20220292879A1 (en) Measuring and Transmitting Emotional Feedback in Group Teleconferences
CN111726696A (zh) 声音弹幕的应用方法、装置、设备及可读存储介质
JP2023099309A (ja) アバターを通じて映像の音声を手話に通訳する方法、コンピュータ装置、およびコンピュータプログラム
WO2019026395A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6913995B1 (ja) 情報処理システム、情報処理方法及びプログラム
JP7403133B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR102316735B1 (ko) 빅데이터 기반의 개인별 맞춤 뷰티 클래스 제공 시스템
JP2023000937A (ja) 疑似面接システム、疑似面接方法、疑似面接装置、及びプログラム
JP6807586B1 (ja) 情報処理装置、情報処理方法及びプログラム
JP7048115B1 (ja) 情報処理装置、プログラム及び情報処理方法
WO2023053940A1 (ja) 情報処理システム、プログラム及び情報処理方法
WO2022091981A1 (ja) 情報処理システム
WO2022145039A1 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
JP7452299B2 (ja) 会話支援システム、会話支援方法及びプログラム
JP2022139283A (ja) 情報処理装置、情報処理方法及びプログラム
JP6490785B1 (ja) ゲームプログラムおよびゲーム装置
JP2023071444A (ja) 議事録作成装置
JP2024043297A (ja) 電子会議支援方法、プログラム及び電子会議支援システム
CN113850899A (zh) 数字人渲染方法、系统、存储介质和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200917

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200917

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210719

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210720

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210830

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210929

R150 Certificate of patent or registration of utility model

Ref document number: 6953597

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250