JP7052335B2 - 情報処理システム、情報処理方法及びプログラム - Google Patents

情報処理システム、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7052335B2
JP7052335B2 JP2017242498A JP2017242498A JP7052335B2 JP 7052335 B2 JP7052335 B2 JP 7052335B2 JP 2017242498 A JP2017242498 A JP 2017242498A JP 2017242498 A JP2017242498 A JP 2017242498A JP 7052335 B2 JP7052335 B2 JP 7052335B2
Authority
JP
Japan
Prior art keywords
party
speech
mode
voice data
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017242498A
Other languages
English (en)
Other versions
JP2019110451A (ja
Inventor
和真 梅津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2017242498A priority Critical patent/JP7052335B2/ja
Publication of JP2019110451A publication Critical patent/JP2019110451A/ja
Application granted granted Critical
Publication of JP7052335B2 publication Critical patent/JP7052335B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Description

本発明は、情報処理システム、情報処理方法及びプログラムに関する。
特許文献1には、通話相手の感情を推定する情報処理端末が開示されている。
特許文献2には、予め登録されたキーワードの部分を判読不能にして印刷する印刷システムが開示されている。
特許文献3には、文字入力された単語を蓄積音声に変換し、通話相手の携帯通信端末に出力する文字モードを備えた携帯通信端末が開示されている。当該文字モードでは、相手からの音声を文字に変換し、ディスプレイに表示してもよいことが開示されている。
特許文献4には、文字入力されたメッセージを音声データにエンコードし、通話相手の携帯通信端末に出力する携帯通信端末が開示されている。相手からの音声を文字に変換し、ディスプレイに表示してもよいことが開示されている。
WO2007/069361 特開2010-141854 特開2009-44679 特開2006-295468
電話の通話相手が例えば乱暴な言葉を使ったり、乱暴な話し方をすると、聞き手に心理的ストレスを与える場合がある。特許文献1乃至4は当該課題を記載も示唆もしていない。本願発明は、通話時の聞き手の心理的ストレスを軽減することを課題とする。
本発明によれば、
集音し、第1の音声データを生成する音声受付手段と、
前記第1の音声データを通話相手の端末に送信する送信手段と、
通話相手の前記端末から送信された第2の音声データを取得する受信手段と、
前記通話相手の発言内容を出力する出力手段と、
を有し、
前記出力手段は、
前記通話相手の発言内容を音で出力せず、テキストで表示し、前記通話相手の発言が途切れたタイミングを通知する第1のモードを有し
加工された前記第2の音声データに基づき、前記通話相手の発言内容を音で出力する第2のモード、又は、
前記通話相手の発言内容を予め登録された音で出力する第3のモード、
さらに有し、
前記出力手段が前記第1乃至第3のモードの中のいずれかで動作している間も、前記音声受付手段は集音して前記第1の音声データを生成し、前記送信手段は前記第1の音声データを通話相手の端末に送信する情報処理システムが提供される。
また、本発明によれば、
コンピュータが、
集音し、第1の音声データを生成し、
前記第1の音声データを通話相手の端末に送信し、
通話相手の前記端末から送信された第2の音声データを取得し、
前記通話相手の発言内容を音で出力せず、テキストで表示し、前記通話相手の発言が途切れたタイミングを通知する第1のモードを実行し、加工された前記第2の音声データに基づき、前記通話相手の発言内容を音で出力する第2のモード、又は、前記通話相手の発言内容を予め登録された音で出力する第3のモード、をさらに実行し、
前記第1乃至第3のモードの中のいずれかで前記通話相手の発言内容を出力している間も、集音して前記第1の音声データを生成し、前記第1の音声データを通話相手の端末に送信する情報処理方法が提供される。
また、本発明によれば、
集音し、第1の音声データを生成し、
前記第1の音声データを通話相手の端末に送信し、
通話相手の前記端末から送信された第2の音声データを取得し、
前記通話相手の発言内容を音で出力せず、テキストで表示し、前記通話相手の発言が途切れたタイミングを通知する第1のモードを実行し、加工された前記第2の音声データに基づき、前記通話相手の発言内容を音で出力する第2のモード、又は、前記通話相手の発言内容を予め登録された音で出力する第3のモード、をさらに実行し、
前記第1乃至第3のモードの中のいずれかで前記通話相手の発言内容を出力している間も、集音して前記第1の音声データを生成し、前記第1の音声データを通話相手の端末に送信する処理をコンピュータに実行させるプログラムが提供される。
本発明によれば、通話時の聞き手の心理的ストレスを軽減することができる。
本実施形態の電話システム1の機能ブロック図の一例を示す図である。 本実施形態の通話部10の機能ブロック図の一例を示す図である。 本実施形態の通話部10により出力される情報の一例を模式的に示す図である。 本実施形態の通話部10により出力される情報の一例を模式的に示す図である。 本実施形態の通話部10により出力される情報の一例を模式的に示す図である。 本実施形態の通話部10の機能ブロック図の一例を示す図である。 本実施形態の電話システム1が収集する情報の一例を模式的に示す図である。 本実施形態の通話部10の処理の流れの一例を示すフローチャートである。 本実施形態の装置のハードウエア構成の一例を示す図である。
<第1の実施形態>
最初に、本実施形態の電話システム(情報処理システム)の概要を説明する。なお、本実施形態の電話システムを利用して通話しているものを「利用者」といい、通話している相手を「通話相手」という。本実施形態の電話システムは、第1乃至第3のモードの中の何れかを有する。
第1のモードでは、通話相手の発言内容を音で出力せず、テキストで表示する。
第2のモードでは、通話相手の端末から送信された音声データを加工した加工後の音声データに基づき、通話相手の発言内容を音でスピーカから出力する。例えば、ボイスチェンジャーで通話相手の声等を変えて出力する。
第3のモードでは、通話相手の発言内容を予め登録された音でスピーカから出力する。すなわち、通話相手の声で通話相手の発言内容を出力するのでなく、他人の声やコンピュータ音等で通話相手の発言内容を出力する。
なお、本実施形態の電話システムは、第1乃至第3のモードの中のいずれかで動作している間も、マイクで利用者の声を集音して音声データを生成し、当該音声データを通話相手の端末に送信する。このため、電話システムが第1乃至第3のモードの中のいずれかで動作している間も、利用者は電話システムに向けて発言することで、自身の発言内容を通話相手に届けることができる。
このような本実施形態の電話システムによれば、利用者は、通話相手の声を聞くことなく、通話相手との通話を行うことができる。このため、通話相手が乱暴な言葉を使ったり、乱暴な話し方をする者であっても、通話相手から受ける心理的ストレスを軽減できる。
また、利用者は電話システムに向けて発言するという従来通りの手法で自身の発言内容を通話相手に届けることができる。このため、自然な通話を継続することができる。特許文献3及び4に記載の技術は、通話相手からの音声を文字に変換してディスプレイに表示する場合、自身の発言内容を文字入力する必要がある。この場合、通話の中で変な間ができてしまい、不自然な通話となってしまう。本実施形態の電話システムでは、当該不都合を軽減することができる。
次に、本実施形態の電話システムの構成を詳細に説明する。図1の機能ブロック図に示すように、電話システム1は、通話部10と処理部20とを有する。
通話部10及び処理部20は、物理的及び/又は論理的に分かれた装置に別々に設けられてもよいし、物理的及び/又は論理的に1つの装置に設けられてもよい。前者の例の場合、電話機、携帯電話、スマートフォン、パーソナルコンピュータ等の通話端末に通話部10が設けられ、通話端末と通信可能に構成されたサーバ装置(例:IPPBX(Intenet Protocol Private Branch eXchange)に処理部20が設けられてもよい。後者の例の場合、通話端末に通話部10及び処理部20が設けられてもよい。
最初に、処理部20の機能構成を説明する。処理部20は、通話相手の端末から送信された音声データを受信し、当該音声データに対して所定の処理を行う。そして、処理部20は、処理の結果物を通話部10に送信する。なお、テレビ電話等の場合は、処理部20は通話相手の端末から送信された画像データをさらに受信し、画像データに対して所定の処理を行い、処理の結果物を通話部10に送信してもよい。
通話相手の端末は、電話機、携帯電話、スマートフォン、パーソナルコンピュータ等、通話機能を有する端末である。通話相手の端末から送信された音声データは、通話中に通話相手の端末で集音され、生成された音声データである。通話相手の端末から送信された画像データは、通話中に通話相手の端末で撮影され、生成された画像データである。
ここで、処理部20が行う所定の処理を説明する。例えば、処理部20は、音声データに対して音声認識処理を行い、通話相手の発言内容を示すテキストデータを生成してもよい。そして、処理部20は、当該テキストデータを通話部10に送信してもよい。
また、処理部20は、上記テキストデータを処理し、通話相手の発言内容の中に予め登録された禁止ワードが含まれるか否かを判断してもよい。含まれる場合、処理部20は、上記テキストデータの中の禁止ワード部分を伏字にしたテキストデータを生成してもよい。そして、処理部20は、禁止ワード部分を伏字にしたテキストデータを通話部10に送信してもよい。例えば禁止ワード部分を、「暴言」、「禁止ワード」等の所定の文言に置き代えてもよいし、その他の手法で伏字にしてもよい。
また、処理部20は、通話相手の発言内容の中に含まれる禁止ワードの数(出現回数)をカウントしてもよい。そして、処理部20は、その数を通話部10に送信してもよい。
また、処理部20は、音声データに対して音声認識処理を行い、通話相手が予め登録された要注意人物か否かを判断してもよい。そして、処理部20は、その判断結果を通話部10に送信してもよい。なお、処理部20は、当該判断において、上記画像データを用いてもよい。
また、処理部20は、音声データを解析し、通話相手の感情を判断してもよい。そして、処理部20は、その判断結果を通話部10に送信してもよい。なお、処理部20は、当該判断において、上記画像データを用いてもよい。
また、処理部20は、通話相手の感情、禁止ワードの出現回数、通話相手の声の大きさ、通話時間等に基づき、予め定められた算出方法で、通話相手の怒り度合いを算出してもよい。そして、処理部20は、算出した怒り度合いを通話部10に送信してもよい。例えば、処理部20は、通話相手の感情が「怒り」でない場合に怒り度合い「0」とし、通話相手の感情が「怒り」である場合に怒り度合い「1」以上を算出してもよい。そして、処理部20は、禁止ワードの出現回数が多い程、声の大きさが大きい程、また、通話時間が長い程、大きい怒り度合いを算出してもよい。
また、処理部20は、ボイスチェンジャーで音声データを加工してもよい。そして、処理部20は、加工後の音声データを通話部10に送信してもよい。
また、処理部20は、画像データを加工してもよい。そして、処理部20は、加工後の画像データを通話部10に送信してもよい。例えば、処理部20は、画像の中の通話相手の顔部分にボカシを入れたり、通話相手の顔部分を他の画像(例:アニメーション、動物の顔、他の人の顔等)に置き代える加工等を行ってもよい。
また、処理部20は、通話相手の発言内容を示すテキストデータを、他の言語に翻訳してもよい(例:日本語を英語に翻訳)。
次に、通話部10の機能構成を説明する。図2に示すように、通話部10は、音声受付部11と、送信部12と、受信部13と、出力部14とを有する。
音声受付部11は、マイクを有する。音声受付部11は、通話中、集音し、音声データを生成する。音声受付部11が生成する音声データを、第1の音声データという。音声受付部11により、利用者の音声が集音される。
送信部12は、通話中、第1の音声データを通話相手の端末に送信する。なお、電話システム1はカメラを有してもよい。そして、送信部12は、通話中、当該カメラで生成された画像データ(利用者を撮影した画像データ)を通話相手の端末に送信してもよい。通話中に当該カメラで生成された画像データを、第1の画像データという。
なお、以下で説明する出力部14が第1乃至第3のモードの中のいずれかで動作している間も、音声受付部11は集音して第1の音声データを生成し、送信部12は第1の音声データ(さらに第1の画像データを含んでもよい)を通話相手の端末に送信する。
受信部13は、通話相手の端末から送信された音声データを取得する。通話相手の端末から送信された音声データを、第2の音声データという。受信部13は、第2の音声データに加えて又は代えて、処理部20により加工された第2の音声データを取得してもよい。
また、受信部13は、通話相手の端末から送信された画像データを取得してもよい。通話相手の端末から送信された画像データを、第2の画像データという。受信部13は、第2の画像データに加えて又は代えて、処理部20により加工された第2の画像データを取得してもよい。
電話システム1は、通話中、例えばSIP(session initiation protocol)等のプロトコルで、音声データや画像データの送受信を行うことができる。
出力部14は、通話相手の発言内容を、スピーカやディスプレイ等の出力装置を介して出力する。出力部14は、第1のモード、第2のモード、又は、第3のモードを有する。なお、出力部14は、これら3つのモードの中の2つ以上のモードを有してもよい。
第1のモードでは、出力部14は、通話相手の発言内容を音で出力せず、テキストで表示する。例えば、出力部14は、電話システム1が有する、又は、電話システム1と繋がったディスプレイに、通話相手の発言内容を示すテキストを表示する。出力部14は、処理部20により生成された通話相手の発言内容を示すテキストデータを利用して当該表示を実現することができる。
図3に、出力部14によりディスプレイに表示されたテキストの一例を示す。図では、通話相手の発言内容が発言順に一覧表示されている。
なお、出力部14は、図4に示すように、通話相手の発言内容に加えて、利用者の発言内容をディスプレイに表示してもよい。処理部20が第1の音声データを音声認識し、利用者の発言内容を示すテキストデータを生成してもよい。図では、通話相手及び利用者(図の「本人」)の発言内容が発言順に一覧表示されている。
また、出力部14は、図5に示すように、通話相手の発言内容の中の禁止ワード部分を伏字(図の「暴言」)にしてテキストで表示してもよい。出力部14は、処理部20により生成された禁止ワード部分を伏字にしたテキストデータを利用して当該表示を実現することができる。なお、所定の操作(例:伏字部分をクリック)に応じて、伏字にされた禁止ワードが表示されてもよい。
第2のモードでは、出力部14は、ボイスチェンジャーで加工された第2の音声データに基づき、通話相手の発言内容を音でスピーカから出力する。出力部14は、処理部20によりボイスチェンジャーで加工された第2の音声データに基づき当該出力を実現してもよい。その他、出力部14がボイスチェンジャーを有してもよい。そして、出力部14がボイスチェンジャーで第2の音声データを加工し、加工した第2の音声データに基づき当該出力を実現してもよい。
第3のモードでは、出力部14は、通話相手の発言内容を予め登録された音でスピーカから出力する。出力部14は、処理部20により生成された通話相手の発言内容を示すテキストデータに記載された文言(通話相手の発言内容)を予め登録された音で出力する。
なお、出力部14は、第2のモード及び第3のモードで動作している間も、通話相手の発言内容をテキストでディスプレイに表示してもよい。この場合も、禁止ワード部分を伏字にしてもよい。
また、テレビ電話等、通話相手の端末から画像データが送信されてくる場合、出力部14は、第1乃至第3のモードで動作している間、画像の表示を停止してもよいし、処理部20により加工された第2の画像データ(例:通話相手の顔部分にボカシを入れたり、他の画像に置き代えた画像データ)を用いて画像表示してもよい。
また、出力部14は、第1乃至第3のモードの中のいずれかで動作している間、通話相手の感情を示す情報を出力してもよい。例えば、通話相手の感情を示す文字、絵、図形等をディスプレイに表示してもよい。
また、出力部14は、第1のモードで動作している場合、通話相手の発言が途切れたタイミングを利用者に通知してもよい。出力部14は、例えば、通話相手の発言が途切れたタイミングで所定の音をスピーカから発してもよいし、当該タイミングで所定の情報をディスプレイに表示してもよいし、当該タイミングで警告ランプを点灯させてもよいし、当該タイミングでバイブレータから振動を起こさせてもよいし、その他であってもよい。
この場合、出力部14は、通話相手の発言が途切れたタイミングで、予め録音されていた利用者の相槌の音声データを通話相手の端末に送信してもよい。なお、複数種類の相槌の音声データを用意しておいてもよい。そして、直前の通話相手の発言内容に基づき、コンピュータ(AI:artificial intelligence)がどの種類の相槌の音声データを送信するか決定してもよい。
また、出力部14は、通話相手の発言内容を示すテキストを、通話相手の言語と異なる言語で表示してもよい。例えば、通話相手が英語で発言した場合、その発言内容を日本語でテキスト表示してもよい。
以上、第1乃至第3のモードの中のいずれかを有する本実施形態の電話システム1によれば、利用者は、通話相手の声を聞くことなく、通話相手との通話を行うことができる。このため、乱暴な言葉を使ったり、乱暴な話し方をしたりする通話相手から受ける心理的ストレスを軽減できる。
また、利用者は電話システムに向けて発言するという従来通りの手法で自身の発言内容を通話相手に届けることができる。このため、自然な通話を継続することができる。
また、テレビ電話の場合、電話システム1は、第1乃至第3のモードの間、通話相手の画像をそのまま表示するのでなく、画像の表示を停止したり、通話相手の顔部分にボカシを入れたり他の画像に置き代えたりすることができる。これにより、利用者の心理的ストレスを軽減できる。
また、第1乃至第3のモードの場合、通話相手の感情を把握し難くなる。処理部20による通話相手の感情の判断結果を利用者に通知することで、利用者は通話相手の感情を把握できる。結果、適切なコミュニケーションをとることができる。
また、第1のモードで動作している場合、利用者は通話相手の発言が途切れたタイミングを把握し難くなる。この場合、通話中に変な間ができたり、通話相手が発言中に利用者が発言してしまう等の好ましくない状況が発生し得る。通話相手の発言が途切れたタイミングを利用者に通知したり、予め録音しておいた相槌を出力したりすることで、このような好ましくない状況の発生を軽減できる。
<第2の実施形態>
本実施形態の電話システム1は、通話相手の発言内容を通話相手の声でスピーカから出力する通常モードを有する。そして、電話システム1は、所定のタイミングで、通常モードと、特別モード(第1乃至第3のモードの中のいずれか)との切り替えを行う。以下、電話システム1の機能を詳細に説明する。
処理部20の機能は、第1の実施形態と同様である。
図6に、通話部10の機能ブロック部の一例を示す。通話部10は、音声受付部11と、送信部12と、受信部13と、出力部14と、決定部15とを有する。音声受付部11、送信部12及び受信部13の機能は第1の実施形態と同様である。
出力部14は、通常モードと、特別モード(第1乃至第3のモードの中のいずれか)とを有する。通常モードでは、出力部14は、通話相手の発言内容を通話相手の声でスピーカから出力する。
決定部15は、出力部14のモードを決定する。そして、出力部14は、決定部15により決定されたモードで動作する。
[決定方法1]
決定部15は、第2の音声データから特定される通話相手の感情、声の大きさ、発言内容及び通話時間の中の少なくとも1つに基づき、出力部14のモードを決定してもよい。
例えば、決定部15は、「通話相手の感情が予め定められた所定の感情(例:「怒り」)」、「通話相手の声の大きさが閾値以上」、「特定のキーワード(禁止ワード)を所定回数以上発言」、及び、「通話時間が閾値以上」の中の1つからなる条件又は複数を組み合わせた条件を満たした場合、特別モードを決定してもよい。
[決定方法2]
決定部15は、過去の通話時に収集された収集情報に基づき、出力部14のモードを決定してもよい。
図7に、過去の通話時に収集された収集情報の一例を模式的に示す。図示する収集情報は、通話相手ID(identifier)と、通話相手の属性と、通話日時と、通話特徴とが対応付けられている。
通話相手IDは、通話相手の電話番号、電話アプリに登録されたID、第2の音声データから抽出された特徴量(声紋)の中の1つ又は複数であってもよいし、その他であってもよい。処理部20が第2の音声データを解析し、当該特徴量を抽出してもよい。
通話相手の属性は、通話相手の性別、年齢層、訛りの特徴等が例示される。処理部20が第2の音声データを解析し、これらの属性を推定してもよい。
通話特徴は、通話相手との通話の特徴であり、通話時間、出力部14が特別モードで動作したか否か、通話時間の中の特別モードで動作した時間の割合、通話相手の感情が「怒り」になったか否か、通話時間の中の通話相手の感情が「怒り」になった時間の割合、通話相手の声の大きさが閾値以上になったか否か、通話時間の中の通話相手の声の大きさが閾値以上になった時間の割合、通話相手が禁止ワードを発言したか否か、通話相手が禁止ワードを発言した回数、怒り度合い等が例示される。処理部20が第2の音声データを解析し、通話特徴を生成してもよい。
決定部15は、当該収集情報に基づき、出力部14のモードを決定することができる。例えば、通話相手の過去の通話特徴が以下の中の1つからなる条件又は複数を組み合わせた条件を満たす場合、決定部15は特別モードを決定してもよい。
「出力部14が特別モードで動作した」
「通話時間の中の特別モードで動作した時間の割合が閾値以上」
「通話相手の感情が「怒り」になった」
「通話時間の中の通話相手の感情が「怒り」になった時間の割合が閾値以上」
「通話相手の声の大きさが閾値以上になった」
「通話時間の中の通話相手の声の大きさが閾値以上になった時間の割合が閾値以上」
「通話相手が禁止ワードを発言した」
「通話相手が禁止ワードを発言した回数が閾値以上」
「通話相手の怒り度合いが閾値以上になった」
なお、通話相手の過去の通話が複数回ある場合、複数回の通話の中の所定割合以上の通話において上記条件を満たす場合、決定部15は特別モードを決定してもよい。
[決定方法3]
決定部15は、通話相手の収集情報がない場合、通話相手と属性(性別、年齢層、訛りの特徴等)や状態(怒り度合い)が同一又は類似する他の通話相手の収集情報に基づき、出力部14のモードを決定してもよい。
[決定方法4]
決定部15は、ユーザ入力に基づき、出力部14のモードを決定してもよい。すなわち、利用者が出力部14のモードを選択できてもよい。その他、利用者の通話を監視している監視者(例:利用者の上司)が、遠隔操作で出力部14のモードを選択できてもよい。
次に、図8のフローチャートを用いて、通話部10の処理の流れの一例を説明する。ここでは、決定方法1及び4でモードを決定する例を説明する。
通話開始直後、出力部14は、デフォルト設定されている通常モードで通話相手の発言内容を出力する(S10)。そして、決定部15は、モード変更条件を満たすか否かの判断(S11)を、通話が続いている間(S13のNo)、継続する。ここでのモード変更条件は、決定方法1で説明した特別モードを決定する条件、決定方法2及び3で説明した通話相手の収集情報又は通話相手と属性が類似する他の通話相手の収集情報に基づき特別モードを決定する条件、又は、決定方法4で説明したユーザ入力(通常モードから特別モードに変更する入力)の受付けである。
モード変更条件を満たす場合(S11のYes)、決定部15は特別モードを決定する。そして、出力部14は、特別モードで通話相手の発言内容を出力する(S12)。その後、決定部15は、モード変更条件を満たすか否かの判断(S14)を、通話が続いている間(S15のNo)、継続する。ここでのモード変更条件は、決定方法4で説明したユーザ入力(特別モードから通常モードに変更する入力)の受付けである。
モード変更条件を満たす場合(S14のYes)、決定部15は通常モードを決定する。そして、出力部14は、通常モードで通話相手の発言内容を出力する(S10)。以降、同様の処理を繰り返す。
なお、出力部14は、通常モードの間も、通話相手の発言内容をテキストで表示してもよい。この場合、通常モードと第1のモード(特別モード)の違いは、通話相手の発言内容を音で出力するか否かとなる。
また、決定方法2及び3を採用する場合、決定部15は、呼出信号受信後かつ通話開始前に、通話相手の電話番号や通話相手の電話アプリのID等に基づきモードを決定してもよい。この場合、通話開始直後から、出力部14は、特別モードで通話相手の発言内容を出力することができる。
また、通話部10は、通常モードの間は通話内容を録音せず、特別モードの間は通話相手の音声を録音してもよい。
その他、通話部10は、通話中、通常モードであっても特別モードであっても通話内容を録音してもよい。そして、通話中に特別モードになった場合と特別モードにならなかった場合(常時通常モード)とで、その録音データに対する処理を異ならせてもよい。例えば、通話中に特別モードになった場合、その録音データ(音声ファイル)に重要フラグを付し、特別モードにならなかった場合(常時通常モード)はその録音データ(音声ファイル)に重要フラグを付さなくてもよい。ユーザは、当該重要フラグを用いて録音データをグループ分けしたりできる。その他、重要フラグ付きの録音データは録音日からM日後に削除され、重要フラグなしの録音データは録音日からN日後に削除されてもよい(M>N)。すなわち、削除タイミングが異なってもよい。
第1及び第2の実施形態の電話システム1は、例えばコールセンター等で利用されてもよいし、その他のビジネスシーンで利用されてもよいし、プライベートなシーンで利用されてもよい。
第1のモードは、通話相手が乱暴な言葉を使ったり、乱暴な話し方をしている場合のみならず、周りがうるさくて通話相手の声が聞こえない状況下でも利用できる。このような状況下であっても、第1のモードを利用すれば、利用者は通話相手の発言内容を把握できる。なお、ディスプレイはウェアラブル端末(例:眼鏡型ウェアラブル端末)であってもよい。
次に、電話システム1のハードウエア構成の一例について説明する。本実施形態の電話システム1が備える各機能は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
図9は、本実施形態の電話システム1のハードウエア構成を例示するブロック図である。図2に示すように、電話システム1は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。電話システム1は周辺回路4Aを有さなくてもよい。なお、通話部10及び処理部20が物理的及び/又は論理的に分かれた装置各々に設けられる場合、各装置がプロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。
バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU(Central Processing Unit) やGPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置(例:キーボード、マウス、マイク等)、外部装置、外部サーバ、外部センサー等から情報を取得するためのインターフェイスや、出力装置(例:ディスプレイ、スピーカ、プリンター、メーラ等)、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
以下、参考形態の例を付記する。
1. 集音し、第1の音声データを生成する音声受付手段と、
前記第1の音声データを通話相手の端末に送信する送信手段と、
通話相手の前記端末から送信された第2の音声データを取得する受信手段と、
前記通話相手の発言内容を出力する出力手段と、
を有し、
前記出力手段は、
前記通話相手の発言内容を音で出力せず、テキストで表示する第1のモード、
加工された前記第2の音声データに基づき、前記通話相手の発言内容を音で出力する第2のモード、又は、
前記通話相手の発言内容を予め登録された音で出力する第3のモード、
を有し、
前記出力手段が前記第1乃至第3のモードの中のいずれかで動作している間も、前記音声受付手段は集音して前記第1の音声データを生成し、前記送信手段は前記第1の音声データを通話相手の端末に送信する情報処理システム。
2. 1に記載の情報処理システムにおいて、
前記出力手段は、前記第2のモード及び前記第3のモードで動作している間も、前記通話相手の発言内容をテキストで表示する情報処理システム。
3. 1又は2に記載の情報処理システムにおいて、
前記出力手段は、前記通話相手の発言内容をテキストで表示する場合、特定のキーワードを伏字にする情報処理システム。
4. 1から3のいずれかに記載の情報処理システムにおいて、
前記出力手段は、前記通話相手の発言内容を前記通話相手の声で出力する通常モードを有し、
前記出力手段のモードを決定する決定手段をさらに有し、
前記出力手段は、前記決定手段により決定されたモードで動作する情報処理システム。
5. 4に記載の情報処理システムにおいて、
前記決定手段は、前記第2の音声データから特定される前記通話相手の感情、声の大きさ、発言内容及び通話時間の中の少なくとも1つに基づき、前記出力手段のモードを決定する情報処理システム。
6. 5に記載の情報処理システムにおいて、
前記決定手段は、
前記通話相手の感情が予め定められた所定の感情、
前記通話相手の声の大きさが閾値以上、
特定のキーワードを所定回数以上発言、及び、
通話時間が閾値以上、
の中のいずれか1つ以上を満たした場合、前記出力手段のモードとして、前記第1乃至第3のモードの中のいずれかを決定する情報処理システム。
7. 4から6のいずれかに記載の情報処理システムにおいて、
前記決定手段は、過去の通話時に収集された情報に基づき、前記出力手段のモードを決定する情報処理システム。
8. 1から7のいずれかに記載の情報処理システムにおいて、
前記出力手段は、前記第1乃至第3のモードの中のいずれかで動作している間、前記通話相手の感情を示す情報を出力する情報処理システム。
9. 1から8のいずれかに記載の情報処理システムにおいて、
前記出力手段は、前記第1のモードで動作している場合、前記通話相手の発言が途切れたタイミングを通知する情報処理システム。
10. コンピュータが、
集音し、第1の音声データを生成し、
前記第1の音声データを通話相手の端末に送信し、
通話相手の前記端末から送信された第2の音声データを取得し、
前記通話相手の発言内容を音で出力せず、テキストで表示する第1のモード、加工された前記第2の音声データに基づき、前記通話相手の発言内容を音で出力する第2のモード、又は、前記通話相手の発言内容を予め登録された音で出力する第3のモード、で前記通話相手の発言内容を出力し、
前記第1乃至第3のモードの中のいずれかで前記通話相手の発言内容を出力している間も、集音して前記第1の音声データを生成し、前記第1の音声データを通話相手の端末に送信する情報処理方法。
11. 集音し、第1の音声データを生成し、
前記第1の音声データを通話相手の端末に送信し、
通話相手の前記端末から送信された第2の音声データを取得し、
前記通話相手の発言内容を音で出力せず、テキストで表示する第1のモード、加工された前記第2の音声データに基づき、前記通話相手の発言内容を音で出力する第2のモード、又は、前記通話相手の発言内容を予め登録された音で出力する第3のモード、で前記通話相手の発言内容を出力し、
前記第1乃至第3のモードの中のいずれかで前記通話相手の発言内容を出力している間も、集音して前記第1の音声データを生成し、前記第1の音声データを通話相手の端末に送信する処理をコンピュータに実行させるプログラム。
1A プロセッサ
2A メモリ
3A 入出力I/F
4A 周辺回路
5A バス
1 電話システム
10 通話部
11 音声受付部
12 送信部
13 受信部
14 出力部
15 決定部
20 処理部

Claims (10)

  1. 集音し、第1の音声データを生成する音声受付手段と、
    前記第1の音声データを通話相手の端末に送信する送信手段と、
    通話相手の前記端末から送信された第2の音声データを取得する受信手段と、
    前記通話相手の発言内容を出力する出力手段と、
    を有し、
    前記出力手段は、
    前記通話相手の発言内容を音で出力せず、テキストで表示し、前記通話相手の発言が途切れたタイミングを通知する第1のモードを有し
    加工された前記第2の音声データに基づき、前記通話相手の発言内容を音で出力する第2のモード、又は、
    前記通話相手の発言内容を予め登録された音で出力する第3のモード、
    さらに有し、
    前記出力手段が前記第1乃至第3のモードの中のいずれかで動作している間も、前記音声受付手段は集音して前記第1の音声データを生成し、前記送信手段は前記第1の音声データを通話相手の端末に送信する情報処理システム。
  2. 請求項1に記載の情報処理システムにおいて、
    前記出力手段は、前記第2のモード及び前記第3のモードで動作している間も、前記通話相手の発言内容をテキストで表示する情報処理システム。
  3. 請求項1又は2に記載の情報処理システムにおいて、
    前記出力手段は、前記通話相手の発言内容をテキストで表示する場合、特定のキーワードを伏字にする情報処理システム。
  4. 請求項1から3のいずれか1項に記載の情報処理システムにおいて、
    前記出力手段は、前記通話相手の発言内容を前記通話相手の声で出力する通常モードを有し、
    前記出力手段のモードを決定する決定手段をさらに有し、
    前記出力手段は、前記決定手段により決定されたモードで動作する情報処理システム。
  5. 請求項4に記載の情報処理システムにおいて、
    前記決定手段は、前記第2の音声データから特定される前記通話相手の感情、声の大きさ、発言内容及び通話時間の中の少なくとも1つに基づき、前記出力手段のモードを決定する情報処理システム。
  6. 請求項5に記載の情報処理システムにおいて、
    前記決定手段は、
    前記通話相手の感情が予め定められた所定の感情、
    前記通話相手の声の大きさが閾値以上、
    特定のキーワードを所定回数以上発言、及び、
    通話時間が閾値以上、
    の中のいずれか1つ以上を満たした場合、前記出力手段のモードとして、前記第1乃至第3のモードの中のいずれかを決定する情報処理システム。
  7. 請求項4から6のいずれか1項に記載の情報処理システムにおいて、
    前記決定手段は、過去の通話時に収集された情報に基づき、前記出力手段のモードを決定する情報処理システム。
  8. 請求項1から7のいずれか1項に記載の情報処理システムにおいて、
    前記出力手段は、前記第1乃至第3のモードの中のいずれかで動作している間、前記通話相手の感情を示す情報を出力する情報処理システム。
  9. コンピュータが、
    集音し、第1の音声データを生成し、
    前記第1の音声データを通話相手の端末に送信し、
    通話相手の前記端末から送信された第2の音声データを取得し、
    前記通話相手の発言内容を音で出力せず、テキストで表示し、前記通話相手の発言が途切れたタイミングを通知する第1のモードを実行し、加工された前記第2の音声データに基づき、前記通話相手の発言内容を音で出力する第2のモード、又は、前記通話相手の発言内容を予め登録された音で出力する第3のモード、をさらに実行し、
    前記第1乃至第3のモードの中のいずれかで前記通話相手の発言内容を出力している間も、集音して前記第1の音声データを生成し、前記第1の音声データを通話相手の端末に送信する情報処理方法。
  10. 集音し、第1の音声データを生成し、
    前記第1の音声データを通話相手の端末に送信し、
    通話相手の前記端末から送信された第2の音声データを取得し、
    前記通話相手の発言内容を音で出力せず、テキストで表示し、前記通話相手の発言が途切れたタイミングを通知する第1のモードを実行し、加工された前記第2の音声データに基づき、前記通話相手の発言内容を音で出力する第2のモード、又は、前記通話相手の発言内容を予め登録された音で出力する第3のモード、をさらに実行し、
    前記第1乃至第3のモードの中のいずれかで前記通話相手の発言内容を出力している間も、集音して前記第1の音声データを生成し、前記第1の音声データを通話相手の端末に送信する処理をコンピュータに実行させるプログラム。
JP2017242498A 2017-12-19 2017-12-19 情報処理システム、情報処理方法及びプログラム Active JP7052335B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017242498A JP7052335B2 (ja) 2017-12-19 2017-12-19 情報処理システム、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017242498A JP7052335B2 (ja) 2017-12-19 2017-12-19 情報処理システム、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019110451A JP2019110451A (ja) 2019-07-04
JP7052335B2 true JP7052335B2 (ja) 2022-04-12

Family

ID=67180318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017242498A Active JP7052335B2 (ja) 2017-12-19 2017-12-19 情報処理システム、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7052335B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9321681B2 (en) 2012-04-27 2016-04-26 United States Gypsum Company Dimensionally stable geopolymer compositions and method
JP7164793B1 (ja) 2021-11-25 2022-11-02 ソフトバンク株式会社 音声処理システム、音声処理装置及び音声処理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009159558A (ja) 2007-12-28 2009-07-16 Fujitsu Fsas Inc オペレータ受付監視・切替システム
JP2010187038A (ja) 2009-02-10 2010-08-26 Nakayo Telecommun Inc 不快感察知機能を有する電話装置
JP2012120120A (ja) 2010-12-03 2012-06-21 Toshiba Corp コールセンタシステム及びエスカレーション通知方法
JP2013046088A (ja) 2011-08-22 2013-03-04 Nec Corp 音声制御システム、音声制御装置、音声制御方法および音声制御プログラム
JP2013157666A (ja) 2012-01-26 2013-08-15 Sumitomo Mitsui Banking Corp 電話応対業務支援システムおよびその方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0758858A (ja) * 1993-08-13 1995-03-03 Sony Corp 遠隔会議システム
JPH10271481A (ja) * 1997-03-27 1998-10-09 Xing:Kk 双方向放送システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009159558A (ja) 2007-12-28 2009-07-16 Fujitsu Fsas Inc オペレータ受付監視・切替システム
JP2010187038A (ja) 2009-02-10 2010-08-26 Nakayo Telecommun Inc 不快感察知機能を有する電話装置
JP2012120120A (ja) 2010-12-03 2012-06-21 Toshiba Corp コールセンタシステム及びエスカレーション通知方法
JP2013046088A (ja) 2011-08-22 2013-03-04 Nec Corp 音声制御システム、音声制御装置、音声制御方法および音声制御プログラム
JP2013157666A (ja) 2012-01-26 2013-08-15 Sumitomo Mitsui Banking Corp 電話応対業務支援システムおよびその方法

Also Published As

Publication number Publication date
JP2019110451A (ja) 2019-07-04

Similar Documents

Publication Publication Date Title
US10091354B1 (en) Transcribing media files
US11650790B2 (en) Centrally controlling communication at a venue
GB2560441B (en) Automatically delaying playback of a voice message at a captioning device
JP7052335B2 (ja) 情報処理システム、情報処理方法及びプログラム
CN113194203A (zh) 一种用于听障人士的沟通系统、接听拨打方法及通讯系统
JP2007049657A (ja) 留守番電話装置
US11580954B2 (en) Systems and methods of handling speech audio stream interruptions
WO2020046435A1 (en) Transcription presentation
CN109714248B (zh) 一种数据处理方法及装置
US20220006893A1 (en) Systems and methods for cellular and landline text-to-audio and audio-to-text conversion
US11783837B2 (en) Transcription generation technique selection
US20130136246A1 (en) Initiating a telephonic connection
US9350943B2 (en) Video picker
EP2693429A1 (en) System and method for analyzing voice communications
US11830120B2 (en) Speech image providing method and computing device for performing the same
US20240046540A1 (en) Speech image providing method and computing device for performing the same
CN116456017A (zh) 语音信息的处理方法、装置、电子设备和可读存储介质
WO2009090736A1 (ja) 通信端末及びデータ記録方法
JP2000244683A (ja) 通話音声文字化システムおよび音声文字化情報通信システム
JP2017188776A (ja) 通信装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220314

R151 Written notification of patent or utility model registration

Ref document number: 7052335

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151