JP2023081469A - Program, apparatus, method, and system - Google Patents
Program, apparatus, method, and system Download PDFInfo
- Publication number
- JP2023081469A JP2023081469A JP2021195194A JP2021195194A JP2023081469A JP 2023081469 A JP2023081469 A JP 2023081469A JP 2021195194 A JP2021195194 A JP 2021195194A JP 2021195194 A JP2021195194 A JP 2021195194A JP 2023081469 A JP2023081469 A JP 2023081469A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- terminal device
- user
- evaluation result
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本開示は、プログラム、装置、方法及びシステムに関する。 The present disclosure relates to programs, devices, methods and systems.
Web会議システムや音声通信アプリなどで通話している時に、発話者の音声が通話相手に届かない、もしくは、聞き取りにくい状態の音声となることがある。その原因として、発話側の音声入力の問題、発話側の通信の問題及び/または受話側の通信の問題が考えられる。上記のような原因で音声が聞き取りにくいとき、発話者自身がそれに気づくことは難しく、通話相手に指摘されて初めて気づくことになる。 When talking with a web conference system or voice communication application, the speaker's voice may not reach the other party, or the voice may be difficult to hear. This may be caused by speech input problems on the speaking side, communication problems on the speaking side, and/or communication problems on the receiving side. When the voice is difficult to hear due to the above reasons, it is difficult for the speaker himself/herself to notice it, and he/she does not notice it until the other party points it out.
上述した問題に関連する技術として、例えば特許文献1、特許文献2に開示された技術がある。
Techniques related to the above-described problem are disclosed, for example, in
特許文献1には、ユーザから受信したメッセージが理解可能であることを自動的に検証するためのシステムおよび方法が開示されている。一例として、システムは、入力音声の了解度の推定値を計算し、了解度のしきい値と比較して、計算された了解度の推定値が了解度のしきい値を下回ると判断された場合、ユーザはメッセージの少なくとも一部を繰り返すように促される。 US Pat. No. 5,900,009 discloses a system and method for automatically verifying that messages received from users are understandable. As an example, the system computes an intelligibility estimate of the input speech, compares it to an intelligibility threshold, and determines that the computed intelligibility estimate is below the intelligibility threshold. If so, the user is prompted to repeat at least part of the message.
また、特許文献2には、信号対雑音比が悪いために音声入力がデバイスによって処理されない可能性が高い時期をユーザに示す音声制御装置が開示されている。 Also, US Pat. No. 6,200,003 discloses a voice control apparatus that indicates to the user when voice input is likely not to be processed by the device due to poor signal-to-noise ratio.
複数のユーザが音声通話を行っている状況においては、音声の状態に関して、少なくとも発話するユーザの端末入力時の音声の状態と、その音声が通話相手に到達した状態での音声の状態は、同一とは限らない。このため、複数人と通話中のユーザは、音声の状態に関して、自身側に問題があるのか、通話相手側に問題があるのかを容易に知ることができない。 In a situation where multiple users are making a voice call, at least the state of the voice when the user who speaks is input to the terminal and the state of the voice when the voice reaches the other party are the same. Not necessarily. Therefore, a user who is talking with a plurality of people cannot easily know whether there is a problem with the voice state of the user himself or the other party.
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、通話相手の音声の状態を容易に把握することである。 Accordingly, the present disclosure has been made to solve the above problems, and its object is to easily grasp the state of the voice of the other party.
プロセッサとメモリとを備え、他の端末装置と音声データの送受信が可能な端末装置を動作させるためのプログラムである。プログラムは、プロセッサに、他の端末装置から送信された音声データを受信するステップと、受信した音声データの状態を評価して第1の評価結果として出力するステップと、第1の評価結果を他の端末装置に返信するステップと、受信した音声データに基づく音声をユーザに出力するステップとを実行させる。 A program for operating a terminal device having a processor and a memory and capable of transmitting and receiving voice data to and from another terminal device. The program causes the processor to receive voice data transmitted from another terminal device, evaluate the state of the received voice data and output it as a first evaluation result, and transmit the first evaluation result to the processor. and outputting voice based on the received voice data to the user.
本開示によれば、通話相手の音声の状態を容易に把握することができる。 According to the present disclosure, it is possible to easily grasp the state of the voice of the other party.
以下、本開示の実施形態について図面を参照して説明する。実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。なお、以下の実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。また、各図は模式図であり、必ずしも厳密に図示されたものではない。 Hereinafter, embodiments of the present disclosure will be described with reference to the drawings. In all the drawings for explaining the embodiments, common constituent elements are denoted by the same reference numerals, and repeated explanations are omitted. It should be noted that the following embodiments do not unduly limit the content of the present disclosure described in the claims. Also, not all the components shown in the embodiments are essential components of the present disclosure. Each figure is a schematic diagram and is not necessarily strictly illustrated.
また、以下の説明において、「プロセッサ」は、1以上のプロセッサである。少なくとも1つのプロセッサは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサであるが、GPU(Graphics Processing Unit)のような他種のプロセッサでもよい。少なくとも1つのプロセッサは、シングルコアでもよいしマルチコアでもよい。 Also, in the following description, a "processor" is one or more processors. The at least one processor is typically a microprocessor such as a CPU (Central Processing Unit), but may be another type of processor such as a GPU (Graphics Processing Unit). At least one processor may be single-core or multi-core.
また、少なくとも1つのプロセッサは、処理の一部又は全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサでもよい。 Also, at least one processor may be a broadly defined processor such as a hardware circuit (for example, FPGA (Field-Programmable Gate Array) or ASIC (Application Specific Integrated Circuit)) that performs part or all of the processing.
また、以下の説明において、「xxxテーブル」といった表現により、入力に対して出力が得られる情報を説明することがあるが、この情報は、どのような構造のデータでもよいし、入力に対する出力を発生するニューラルネットワークのような学習モデルでもよい。従って、「xxxテーブル」を「xxx情報」と言うことができる。 In the following explanation, the expression "xxx table" may be used to describe information that produces an output for an input. It may be a learning model such as a generated neural network. Therefore, the "xxx table" can be called "xxx information".
また、以下の説明において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部又は一部が1つのテーブルであってもよい。 Also, in the following description, the configuration of each table is an example, and one table may be divided into two or more tables, or all or part of two or more tables may be one table. good.
また、以下の説明において、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶部及び/又はインタフェース部などを用いながら行うため、処理の主語が、プロセッサ(或いは、そのプロセッサを有するコントローラのようなデバイス)とされてもよい。 Further, in the following description, the processing may be described using the term “program” as the subject. As it is used, the subject of processing may be a processor (or a device, such as a controller, having that processor).
プログラムは、計算機のような装置にインストールされてもよいし、例えば、プログラム配布サーバ又は計算機が読み取り可能な(例えば非一時的な)記録媒体にあってもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。 The program may be installed in a device such as a computer, or may be, for example, in a program distribution server or a computer-readable (eg, non-temporary) recording medium. Also, in the following description, two or more programs may be implemented as one program, and one program may be implemented as two or more programs.
また、以下の説明において、種々の対象の識別情報として、識別番号が使用されるが、識別番号以外の種類の識別情報(例えば、英字や符号を含んだ識別子)が採用されてもよい。 In the following description, identification numbers are used as identification information for various objects, but identification information of types other than identification numbers (for example, identifiers including alphabetic characters and symbols) may be employed.
また、以下の説明において、同種の要素を区別しないで説明する場合には、参照符号(又は、参照符号のうちの共通符号)を使用し、同種の要素を区別して説明する場合は、要素の識別番号(又は参照符号)を使用することがある。 In addition, in the following description, when describing the same type of elements without distinguishing between them, reference symbols (or common symbols among the reference symbols) are used, and when describing the same types of elements with different An identification number (or reference sign) may be used.
また、以下の説明において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。 Also, in the following description, control lines and information lines indicate those considered necessary for the description, and not all control lines and information lines are necessarily indicated on the product. All configurations may be interconnected.
<0 システムの概要>
本開示のシステムでは、一例としてスマートフォン、タブレット端末など、移動体通信網などのネットワークを用いて相互通話可能な端末装置間において、端末装置のユーザが発話した音声が通話相手の端末装置においてどのように受信されているか、すなわち、通話相手における音声状態を容易に把握できる。このため、端末装置は、通話相手である他の端末装置から送信された音声データを受信し、受信した音声データの状態を評価して第1の評価結果として出力し、この第1の評価結果を前記他の端末装置に返信する。
<0 System Overview>
In the system of the present disclosure, as an example, between terminal devices such as smartphones and tablet terminals that are capable of mutual communication using a network such as a mobile communication network, how the voice uttered by the user of the terminal device is expressed in the terminal device of the other party. In other words, the voice state of the other party can be easily grasped. For this reason, the terminal device receives voice data transmitted from another terminal device that is the other party of the call, evaluates the state of the received voice data, outputs it as a first evaluation result, and outputs this first evaluation result. to the other terminal device.
また、本開示のシステムでは、端末装置のユーザが発話した音声の状態を容易に把握できる。このため、端末装置は、ユーザから発せられた音声に基づく音声データの品質を評価し、品質の評価結果である第3の評価結果をユーザに提示する。 Also, in the system of the present disclosure, it is possible to easily grasp the state of the voice uttered by the user of the terminal device. For this reason, the terminal device evaluates the quality of voice data based on the voice uttered by the user, and presents the user with the third evaluation result, which is the quality evaluation result.
さらに、本開示のシステムでは、端末装置を用いて相互通話中のユーザの音声パワーのバラツキを評価し、バラツキの評価結果をユーザに提示する。このため、端末装置間での通話を仲介するサーバは、端末装置毎の入力音声の音声パワーを検出し、検出結果に基づいて、音声パワーの平均値及び分散を算出し、算出した平均値及び分散に基づいて、複数の端末装置を利用する各々の発話者の音声パワーと平均値とのずれが所定値以上であるか否かを判定し、ずれが所定値以上であると判定された発話者に対して第4の判定結果を提示する。 Furthermore, in the system of the present disclosure, the terminal device is used to evaluate the variation in voice power of the user during mutual communication, and the evaluation result of the variation is presented to the user. For this reason, a server that mediates calls between terminal devices detects the voice power of the input voice for each terminal device, calculates the average value and variance of the voice power based on the detection results, and calculates the calculated average value and variance. Based on the variance, it is determined whether or not the difference between the voice power of each speaker using a plurality of terminal devices and the average value is a predetermined value or more, and the utterances determined to have a difference of a predetermined value or more A fourth determination result is presented to the person.
<1 システム全体の構成図>
図1は、実施形態に係るシステム1の全体構成の例を示す図である。図1に示すように、システム1は、端末装置10と、サーバ20とを備えている。端末装置10と、サーバ20とは、有線又は無線の通信規格(含む移動体通信規格)を用い、ネットワーク80を介して相互に通信可能に接続されている。図示の例では、複数の端末装置10がシステム1に含まれている。
<1 Configuration diagram of the entire system>
FIG. 1 is a diagram showing an example of the overall configuration of a
ネットワーク80は、インターネット、LAN、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、3G、4G、5G移動通信システム、LTE(Long Term Evolution)、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク(例えばWi-Fi(登録商標))等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Z-Wave(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)等が含まれる。有線で接続する場合は、ネットワークには、USB(Universal Serial Bus)ケーブル等により直接接続するものも含む。
The
なお、図1では、サーバ20が1台のコンピュータである場合を示しているが、サーバ20は、複数台のコンピュータが組み合わされて実現されてもよい。また、図1では、端末装置10が3台である場合を示しているが、システム1に収容される端末装置10の台数に制限はなく、2台、あるいは4台以上であっても構わない。
Although FIG. 1 shows the case where the
端末装置10は、サーバ20を介して相互に通信可能に構成された端末である。さらに、端末装置10は、他の端末装置10との間で音声データの送受信が可能な、言い換えれば端末装置10のユーザが発話した音声により相互通話可能な端末である。例えば、端末装置10は、スマートフォン、タブレット端末など、移動体通信網などのネットワークを用いて相互通話可能な情報処理装置である。あるいは、端末装置10は、所定の音声会話アプリケーションが搭載された据え置き型のPC(Personal Computer)、ラップトップPC、ヘッドマウントディスプレイ等の情報処理装置であってもよい。
The
図1に示すように、端末装置10は、通信IF(Interface)12と、入力装置13と、出力装置14と、メモリ15と、ストレージ16と、プロセッサ19とを備える。通信IF12、入力装置13、出力装置14、メモリ15、ストレージ16、及びプロセッサ19は、例えば、バスを介して互いに通信可能に接続されている。
As shown in FIG. 1 , the
通信IF12は、端末装置10が外部の装置との音声通信を含む通信をするため、音声データを含む信号を送受信するためのインタフェースである。入力装置13は、ユーザからの入力操作を受け付けるための入力装置である。入力装置13は、例えば、タッチパネル、タッチパッド、マウス等のポインティングデバイス、キーボード等を含む。出力装置14は、ユーザに対し情報を提示するための出力装置である。出力装置14は、例えば、ディスプレイ、スピーカ等を含む。
The communication IF 12 is an interface for transmitting and receiving signals including voice data so that the
メモリ15は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えば、DRAM(Dynamic Random Access Memory)等の揮発性のメモリにより実現される。ストレージ16は、データを保存するための記憶装置であり、例えば、フラッシュメモリ、HDD(Hard Disc Drive)等の不揮発性のメモリにより実現される。プロセッサ19は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路等により構成される。
The
サーバ20は、サービスに関する情報を管理し、管理している情報を参照し、サービスを提供する情報処理装置である。さらに、サーバ20は、複数の端末装置10の間で(2台の端末装置10のみならず、図1に示すように3台の端末装置10があれば、これら3台の間で)相互に音声データの送受信を行い、相互通話を可能にするサービスを提供する。サーバ20は、例えば、ネットワーク80に接続されたコンピュータである。
The
なお、サーバ20は、相互通話可能なサービスに加えて、相互にデータ通信(含むテキストベースのメッセージ)を行うサービスを提供してもよい。このようなサービスの一例として、端末装置10によりインターネット上のサイトにアクセスできるサービスや、テキスト形式でメッセージを伝えるサービス、つまり、チャットサービスが挙げられる。
Note that the
図1に示すように、サーバ20は、通信IF22と、入出力IF23と、メモリ25と、ストレージ26と、プロセッサ29とを備える。通信IF22、入出力IF23、メモリ25、ストレージ26、及びプロセッサ29は、例えば、バスを介して互いに通信可能に接続されている。
As shown in FIG. 1, the
通信IF22は、サーバ20が外部の装置と通信するため、信号を送受信するためのインタフェースである。入出力IF23は、ユーザからの入力操作を受け付けるための入力装置、及び、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。メモリ25は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM等の揮発性のメモリにより実現される。
The communication IF 22 is an interface for transmitting and receiving signals for the
ストレージ26は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD等の不揮発性のメモリにより実現される。ストレージ26は、必ずしも単独の回路により実現されなくてもよい。ストレージ26は、例えば、複数の記憶回路により実現されてもよい。プロセッサ29は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。
The
<1.1 端末装置の構成>
図2は、本実施形態のシステム1に含まれる端末装置10の構成を示すブロック図である。図2に示すように、端末装置10は、通信部121と、入力装置13と、出力装置14と、カメラ160と、記憶部170と、制御部180とを備える。
<1.1 Configuration of terminal device>
FIG. 2 is a block diagram showing the configuration of the
通信部121は、端末装置10が他の装置と通信するための処理を行う。通信部121は、制御部180で生成された信号に送信処理を施し、外部(例えば、サーバ20)へ送信する。通信部121は、外部から受信した信号に受信処理を施し、制御部180へ出力する。
The
加えて、通信部121は、他の端末装置10との間で音声データの送受信を行うための処理を行う。従って、通信部121は、移動体通信網の規格に準拠した通信を行う。一義的には、通信部121は、端末装置10が存在するエリアに割り当てられた基地局との間での通信を行い、基地局及びサーバ20を含む移動体通信システムが、端末装置10間の音声データの送受信を実現する。移動体通信網の規格は、本実施形態のシステム1が運用されている時期において、移動体通信システムを運用する通信事業者が提供しているサービスが準拠する規格である。このような規格の一例として、第4世代移動体通信システムの規格であるIMT-Advanced、第5世代移動通信システムの規格であるIMT-2020などが挙げられる。また、第3世代移動通信システムが依然として運用されている地域においては、この第3世代移動通信システムの規格であるIMT-2000であってもよい。上に上げた移動体通信規格は、音声通信にもデータ通信にも適用される規格であるので、通信部121は、音声通話及びデータ通信のいずれも行いうる。
In addition, the
入力装置13は、端末装置10を所有するユーザが指示を入力するための装置である。入力装置13は、例えば、マウス131、キーボード132、及び、操作面へ触れることで指示が入力されるタッチ・センシティブ・デバイス133等により実現される。また、入力装置13は、マイク134により実現される。入力装置13は、ユーザから入力される指示又は音声を電気信号へ変換し、電気信号を制御部180へ出力する。なお、入力装置13は、マウス131、及びキーボード132等の物理的な操作デバイスに限定されない。入力装置13には、例えば、外部の入力機器から入力される電気信号を受け付ける受信ポートが含まれてもよい。さらに、端末装置10の仕様によってはマウス131、キーボード132を省略してもよい。この場合、タッチ・センシティブ・デバイス133によりテキスト等の各種入力がされる。
The
出力装置14は、端末装置10を所有するユーザへ情報を提示するための装置である。出力装置14は、例えば、ディスプレイ141、スピーカ142等により実現される。ディスプレイ141は、制御部180の制御に応じて、画像、動画、テキスト等のデータを表示する。ディスプレイ141は、例えば、LCD(Liquid Crystal Display)、又は有機EL(Electro-Luminescence)ディスプレイ等によって実現される。スピーカ142は、制御部180の制御に応じて、音声を出力する。
The
なお、図2では端末装置10のマイク134及び/またはスピーカ142には、例えばBluetooth(登録商標)等の無線通信手段により端末装置10のその他の構成要素と離間して使用可能なものも含まれる。例えば、これらマイク134及びスピーカ142がいわゆるヘッドセットとして別体に構成されるものである。
In FIG. 2, the
カメラ160は、受光素子により光を受光し、撮影信号として出力するためのデバイスである。カメラ160は、例えば、光を受光するレンズがディスプレイ141と並べて設置されている。これにより、カメラ160は、ディスプレイ141を視認するユーザを撮影可能となっている。
The
記憶部170は、例えば、メモリ15、及びストレージ16等により実現され、端末装置10が使用するデータ、及びプログラムを記憶する。具体的には、記憶部170は、例えば、アプリケーション171を記憶する。アプリケーション171は、制御部180により実行されることで、後述する制御部180における操作受付部181等の機能実現部を実現する。また、記憶部170は、音声判定部185による評価結果、判定結果が格納される検出結果データ172、及び音声判定部185による判定の基準となる評価テーブル173を記憶する。
The
制御部180は、プロセッサ19が記憶部170に記憶されるプログラム(アプリケーション171)を読み込み、プログラムに含まれる命令を実行することにより実現される。制御部180は、端末装置10の動作を制御する。具体的には、例えば、制御部180は、操作受付部181、通信制御部182、音声入力部183、音声出力部184、音声判定部185、提示制御部186としての機能を発揮する。
操作受付部181は、入力装置13から入力されるユーザの操作を受け付けるための処理を行う。
The
通信制御部182は、端末装置10が、相互通信(含む相互通話)中である他の端末装置10と、通信プロトコルに従って通信するための処理を行う。通信制御部182は、例えば、マイク134から入力される音声が音声入力部183により変換された音声データを、相互通話中の他の端末装置10へ送信する。また、通信制御部182は、他の端末装置10から送信される音声データを受信して音声出力部184に送出し、この音声出力部184により音声に変換してスピーカ142から出力させる。
The
また、通信制御部182は、例えば、キーボード132、タッチ・センシティブ・デバイス133等から入力されるテキストデータを相互通信中の他の端末装置10へ送信する。また、通信制御部182は、他の端末装置10から送信されるデータを受信し、テキストデータに変換してディスプレイ141から出力する。
Also, the
音声入力部183は、端末装置10のユーザが発話し、マイク174から入力された音声を音声データに変換し、通信制御部182に送出する。音声出力部184は、通信制御部182が出力する音声データを音声に変換し、スピーカ142から出力させる。
The
音声判定部185は、音声入力部183及び音声出力部184が出力する音声データに対して各種信号処理を行い、音声データの品質についての評価、判定を行ってその評価結果、判定結果を検出結果データ172に格納する。詳細は後述する。
The
提示制御部186は、ユーザに対して種々の情報を提示するため、出力装置14を制御する。具体的には、例えば、提示制御部186は、音声判定部185による評価結果をディスプレイ141に表示させる。また、例えば、提示制御部186は、評価結果を音声に変換して音声出力部184に送出し、この音声出力部184及びスピーカ142を介して評価結果を音声出力する。
The
図3は、通信制御部182、音声判定部185及び提示制御部186を含む端末装置10の機能構成の例を表すブロック図である。通信制御部182は、符号化処理部1821、送信部1822、受信部1823及び復号化処理部1824を有する。また、音声判定部185は、音声パワー検出部1851、SN比検出部1852、マイク特性検出部1853、入力音声評価部1854及び受信音声評価部1855を有する。さらに、提示制御部186は、入力音声状態提示部1861、通話相手受信音声状態提示部1862及び音声パワー状態提示部1863を有する。
FIG. 3 is a block diagram showing an example of the functional configuration of the
符号化処理部1821は、音声入力部183が出力する音声データに符号化処理(エンコード処理)を行ってデータを圧縮し、送信部1822に送出する。符号化処理は、移動体通信規格に準拠したものである。この際、符号化処理部1821は、符号化した音声データをパケットに変換し、個々のパケットに番号を付与する。符号化処理部1821による一連の処理は、端末装置10による移動体通信がLTE規格に基づくのであればVoLTE(Voice over Long Term Evolution)として知られる処理である。また、一般的にはVoIP(Voice over Internet Protocol)として知られる処理である。
The
送信部1822は、符号化処理部1821により符号化処理された音声データを、送信部1822に含まれる図略のアンテナを介して無線送信し、サーバ20の送受信部2031に送出する。送信部1822による無線通信も、既に説明した移動体通信網の規格に準拠する。
The
送信部1822は、音声データを無線送信する際に、個々の端末装置10に固有の識別子を付与する。さらに、送信部1822は、第1の評価結果である受信音声評価部1855が出力した受信音声の評価スコアと、第3の評価結果である音声パワー検出部1851が検出した入力音声のパワー検出結果を、音声データに重畳して通話相手である端末装置10に送信する。
The
受信部1823は、サーバ20の送受信部2031から送出され、受信部1823に含まれる図略のアンテナを介して受信した無線入力を受信し、復号化処理部に送出する。ここで、受信部1823が受信する無線入力には、通話相手の端末装置10の送信部1822が付与した、通話相手の端末装置10に固有の識別子が付与されている。また、受信部1823は、通話相手の端末装置10から受信した無線入力に重畳された、受信音声の評価スコアである第2の評価結果を受信し、この第2の評価結果を、通話相手の端末装置10に固有の識別子とともに通話相手受信音声状態提示部1862に送出する。さらに、受信部1823は、サーバ20から送出された、第4の判定結果である、端末装置10のユーザから発声された音声データの音声パワーが、現在通話中の複数の端末装置10の音声パワーから算出された音声パワーの平均値が所定値以上であると判定された判定結果を受信し、この第4の評価結果を音声パワー状態提示部1863に送出する。
Receiving
復号化処理部1824は、受信部1823が受信した受信データに復号化処理部(デコード処理)を行って音声データに復号し、この音声データを音声出力部184に出力する。また、復号化処理部1824は、受信部1823が受信した、現在通話中の端末装置10から送出された信号を復号化処理した際のパケットロス率(パケット損失率)を算出し、算出したパケットロス率を受信音声評価部1855に送出する。パケットロス率の算出方法については既知であり、通信規格で定められている場合もあるので、ここでの詳細な説明は行わない。この際、復号化処理部1824は、算出したパケットロス率を、通話相手の端末装置10の識別子を付与して受信音声評価部1855に送出する。
The
音声パワー検出部1851は、発話者である端末装置10のユーザが発話した音声を音声入力部183が変換した音声データの音声パワーを検出し、検出結果を入力音声評価部1854及び送信部1822に出力する。この際、音声パワー検出部1851は、音声パワーの検出結果を量子化してスコアとして出力する。量子化の手法には特段の限定はないが、本実施形態の音声パワー検出部1851では、良好であれば0、やや悪い場合は-1、悪い場合は-2というスコアとして音声パワーの検出結果を出力する。
The voice
SN比検出部1852は、発話者である端末装置10のユーザが発話した音声を音声入力部183が変換した音声データのSN比を検出し、検出結果を入力音声評価部1854に出力する。この際、SN比検出部1852は、SN比の検出結果を量子化してスコアとして出力する。量子化の手法には特段の限定はないが、本実施形態のSN比検出部1852では、良好であれば0、やや悪い場合は-1、悪い場合は-2というスコアとしてSN比の検出結果を出力する。SN比検出部1852は、SN比を入力データとし、入力したSN比に対する評価を正解出力データとして学習された学習済みモデルを用いて実現されてもよい。
The SN
マイク特性検出部1853は、発話者である端末装置10のユーザが発話した音声を音声入力部183が変換した音声データから音声入力部183(マイク134)のマイク特性を検出し、検出結果を入力音声評価部1854に出力する。この際、マイク特性検出部1853は、マイク特性の検出結果を量子化してスコアとして出力する。量子化の手法には特段の限定はないが、本実施形態のマイク特性検出部1853では、良好であれば0、やや悪い場合は-1、悪い場合は-2というスコアとしてマイク特性の検出結果を出力する。マイク特性検出部1853は、マイク特性を入力データとし、入力したマイク特性に対する評価を正解出力データとして学習された学習済みモデルを用いて実現されてもよい。
The microphone
好ましくは、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853は、端末装置10のユーザが発音をする度に、つまり、音声入力部183に音声が入力される度に検出動作を行う。あるいは、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853はリアルタイムで(つまり連続的に)検出作業を行ってもよいし、所定時間間隔を(例えば1秒毎)おいて検出作業を行ってもよい。
Preferably, the voice
そして、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853は、検出結果を検出結果データ172に格納する。検出結果データ172に格納される検出結果は、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853による検出動作が行われる度に更新される。従って、検出結果データ172に格納される検出結果は、音声入力部183に音声が入力される度に更新される。そして、音声入力が途絶えると、検出結果データ172の更新(上書き)がされないので、結果的に、最後の検出値が検出結果データ172に保持される。
Then, the voice
なお、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853は、自身の検出結果を0、-1、-2の3種類のスコアに量子化していたが、量子化のレベルもこの3段階に限定されず、2段階、あるいは4段階以上に量子化してもよい。
The voice
入力音声評価部1854は、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853からそれぞれ入力された検出結果を評価値として量子化し(スコア化し)、統合スコアを決定して入力音声状態提示部1861及び通話相手受信音声状態提示部1862に出力する。入力音声状態提示部1861から出力される統合スコアが、第3の評価結果である、端末装置10のユーザから発声された音声に基づく音声データの品質の評価結果である。
The input
入力音声評価部1854による統合スコアの算出手法に特段の限定はないが、本実施形態の入力音声評価部1854では、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853からそれぞれ入力された量子化された検出結果であるスコアを加算し、加算された値(和)に基づいて統合スコアを決定している。一例として、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853からそれぞれ入力されたスコアの和が0であれば良好、-1であればやや悪い、-2であれば悪い、とする。より詳細には、音声パワー検出部1851から入力されたスコアが良好(0)、SN比検出部1852から入力されたスコアが良好(0)、マイク特性検出部1853から入力されたスコアが良好(0)であれば、入力音声評価部1854は、これらスコアの和が0になることから、統合スコアは良好(0)となる。また、音声パワー検出部1851から入力されたスコアが良好(0)、SN比検出部1852から入力されたスコアがやや悪い(-1)、マイク特性検出部1853から入力されたスコアがやや悪い(-1)であれば、入力音声評価部1854は、これらスコアの和が-2になることから、統合スコアは悪い(-2)となる。ここで、音声パワー検出部1851、SN比検出部1852、及びマイク特性検出部1853から入力されたスコアの和が-2以下になる場合は、入力音声評価部1854は統合スコアを悪い(-2)として扱うというようにしてもよい。一例として、音声パワー検出部1851、SN比検出部1852、及びマイク特性検出部1853から入力されたスコアがいずれもやや悪い(-1)であれば、これらスコアの和は-3になるが、入力音声評価部1854が算出する統合スコアとしては悪い(-2)という評価にしてもよい。また入力音声評価部1854による統合スコアの量子化の段階も0、-1、-2の3段階に限定されず、2段階、あるいは4段階以上に量子化してもよい。加えて、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853からの入力スコアの和を単純に取る以外の統合スコアの算出方法も可能である。一例として、各スコアについて所定の重み付けをつけて加算する、所定の関係式に基づいて四則演算、関数を用いて統合スコアを算出してもよい。
Although there is no particular limitation on the calculation method of the integrated score by the input
受信音声評価部1855は、復号化処理部1824から出力される、復号化処理部1824における複合処理時のパケットロス率に基づいて、受信音声の評価スコアを算出し、この評価スコアを送信部1822に送出する。この際、受信音声評価部1855は、受信音声の評価スコアの算出結果を量子化してスコアとして出力する。量子化の手法には特段の限定はないが、本実施形態の受信音声評価部1855では、良好であれば0、やや悪い場合は-1、悪い場合は-2というスコアとして受信音声の評価スコアの算出結果を出力する。さらに、受信音声評価部1855は、算出した評価スコアに、この評価スコアに係る音声データを出力した端末装置10に固有の識別子を付与して送信部1822に送出する。
Received
なお、音声区間検出技術を用いて音声区間のみを音声判定部185が検出、評価作業を行ってもよい。この場合、受話音声の重なり具合に基づいた評価結果を出力することができる。例えば、3人以上で同時音声通話を行っているとき、あるユーザの発話に重畳して発話を行ったユーザに対して、自分の発話による音声通話の内容が他のユーザに聞き取りづらかった可能性があるという評価結果を出力してもよい。
Note that the
また、通話相手の端末装置10のマイク134に周辺の環境ノイズが大きく入っている場合、音声判定部185がこれを検知して、端末装置10のユーザにその検知結果を通知してもよい。例えば、通話相手の周辺がうるさいので聞き取りづらかった可能性があるという検知結果を出力してもよい。
In addition, when the
さらに、相互通話中の端末装置10における個々の端末装置10からの受話音声の音声区間検出時間を端末装置10間で送受信し、この情報に基づいて音声判定部185が評価結果を出力してもよい。例えば、送信側の送信音声の音声区間検出時間と受信側の受信音声の音声区間検出時間との間にかなりの差異が生じている場合、受信側が聞き取りづらかった可能性があるという評価結果を出力してもよい。より具体的には、送信側の送信音声の音声区間検出時間は5秒であったが、受信側の受信音声の音声区間検出時間は3秒であった場合、受信部1823及び/または復号化処理部1824における処理に何かしらの問題があったことが推測される。このような問題はパケットロスとは別に生じうる。従って、送信側の送信音声の音声区間検出時間と受信側の受信音声の音声区間検出時間との間の不一致を検出することの意味は大きい。
Furthermore, even if the voice interval detection time of the received voice from each
入力音声状態提示部1861は、入力音声評価部1854から出力される統合スコアを端末装置10のディスプレイ141に表示する。
The input speech
また、通話相手受信音声状態提示部1862は、入力音声評価部1864が出力する統合スコアと、受信部1823から出力される受信音声の評価スコアとに基づいて、通話相手受信音声状態のスコアを算出し、端末装置10のディスプレイ141に表示させる。この際、通話相手受信音声状態提示部1862は、通話相手受信音声状態を量子化してスコアとして出力する。量子化の手法には特段の限定はないが、本実施形態の通話相手受信音声状態提示部1862では、入力音声評価部1864が出力する統合スコアは、良好であれば0、やや悪い場合は-1、悪い場合は-2というスコアとして量子化されており、また、受信部1823から出力される受信音声の評価スコアも、良好であれば0、やや悪い場合は-1、悪い場合は-2というスコアとして量子化されているので、これらスコアの和が0であれば良好、-1であればやや悪い、-2であれば悪い、とする。ここで、入力音声評価部1864が出力する統合スコアと受信部1823から出力される受信音声の評価スコアとの和がが-2以下になる場合は、通話相手受信音声状態提示部1862は統合スコアを悪い(-2)として扱うというようにしてもよい。
In addition, the receiving voice
好ましくは、通話相手受信音声状態提示部1862は、受信部1823から出力される受信音声の評価スコアも端末装置10のディスプレイ141に表示させる。
Preferably, the calling party received voice
音声パワー状態提示部1863は、サーバ20から送出された、端末装置10のユーザから発声された音声データの音声パワーが、現在通話中の複数の端末装置10の音声パワーから算出された音声パワーの平均値が所定値以上であると判定された判定結果を受け取り、この判定結果に基づいて、端末装置10のユーザ自身が発話した音声のパワー状態を端末装置10のディスプレイ141に表示させる。このとき、相互通話中のユーザの中にまだ発話をしていないユーザがいる間は、音声パワー状態提示部1863は音声のパワー状態を端末装置10のディスプレイ141に表示させない。
The voice power
入力音声状態提示部1861による統合スコア、通話相手受信音声状態提示部1862による受信音声の評価スコア及び通話相手受信音声状態のスコアの表示形態、さらには音声パワー状態提示部1863による判定結果の表示形態に特段の限定はなく、一例として、スコアそのものを表示する、スコアをスケール表示する、スコアに応じて表示色を変化させるなどが挙げられる。また、スコアが良好(0)である、すなわち、端末装置10のユーザが発話した音声の状態が良好である、あるいは、通話相手の端末装置10の受信音声の状態が良好であるならば、ディスプレイ141に何も表示せず、スコアがやや悪い(-1)、悪い(-2)時に、ディスプレイ141にこのスコアに応じた表示を行う表示形態であってもよい。
Display format of the integrated score by the input voice
ここで、受信音声の評価スコアには、このスコアが作成された(評価された)端末装置10に固有の識別子が付与されている。そこで、入力音声状態提示部1861及び通話相手受信音声状態提示部1862は、事前にこの識別子と、端末装置10の記憶部170に格納されている、端末装置10の通話相手である端末装置10の電話帳(これには電話番号とユーザが登録した通話相手を識別するユーザ名等の固有名とが含まれる)との紐付けを行い、スコアを表示する際に、ユーザ名を表示したアイコンを伴った表示を行ってもよい。また、入力音声評価部1854から出力される統合スコアは、端末装置10を所有するユーザに係るものであることが自明であるので、統合スコアを表示する際に、端末装置10の初期登録時などにユーザが自身で登録したユーザ名を表示したアイコンを伴った表示を行ってもよい。
Here, an identifier unique to the
このように、スコアに係るユーザ名を表示したアイコンを表示する態様を採用した場合、スコアが良好(0)である、すなわち、端末装置10のユーザが発話した音声の状態が良好である、あるいは、通話相手の端末装置10の受信音声の状態が良好であるならば、ディスプレイ141にアイコンを表示せず、スコアがやや悪い(-1)、悪い(-2)時に、ディスプレイ141にアイコンを表示するとともに、このスコアに応じた表示を行ってもよい。さらに、スコアがやや悪い(-1)、悪い(-2)時に、アイコンの透明度を上げて視認しづらくする、アイコン全体を特定色(例えば赤色)に徐々に着色する、などの表示態様を行ってもよい。
In this way, when adopting the mode of displaying the icon displaying the user name related to the score, the score is good (0), that is, the state of the voice uttered by the user of the
さらに、アイコンやスコアのスケールをユーザがタップ(タッチ)した際に、スコアの根拠となる情報を端末装置10のディスプレイ141に表示してもよい。同様に、評価結果等をテキスト表示してもよい。評価結果等をテキスト表示する場合、ディスプレイ141に一定時間(一例として数秒)だけ表示し、ユーザがディスプレイ141をタップする等の入力動作を行うとこのテキスト表示を消去することが好ましい。表示態様の具体例については後述する。
Furthermore, when the user taps (touches) an icon or a score scale, information that serves as the basis for the score may be displayed on the
さらに、あるいは、提示制御部186による提示形態は、上述した端末装置10のディスプレイ141に表示する形態のみならず、端末装置10のスピーカ142を用いて音声により通知する形態も可能である。より詳細には、例えば、提示制御部186は、音声判定部185や受信部1823から入力された評価結果そのもの、あるいは、評価結果に基づいて事前に用意されたメッセージを音声合成により音声データに変換し、この音声データによりユーザに提示(通知)することも可能である。あるいは、提示制御部186は警報音、ブザー音やチャイム等の単純な音データによりユーザに提示(通知)することも可能である。提示制御部186が生成した音(声)データは音声出力部184に入力され、この音声出力部184及びスピーカ142を介してユーザに提示される。
Furthermore, alternatively, the form of presentation by the
提示制御部186の音声による通知形態にも特段の限定はないが、判定結果そのもの、及び/または、判定結果(スコア)の根拠となる情報を音声通知してもよい。この時、上述したように、現在音声通話中のユーザは既知であるので、どのユーザの受信音声状態に関する情報(例えば電話帳に登録されているユーザの登録名)であるかを合わせて音声通知してもよい。端末装置10のユーザの発話による入力音声情報に関する情報については、ユーザ自身のユーザ名を合わせて音声通知してもよいし、省略してもよい。音声通知の手法は既知の手段から適宜選択されればよく、音声合成モジュールによるなど、特段の限定はない。
There is no particular limitation on the form of notification by voice of the
また、音声区間検出技術を用いて音声区間のみを音声判定部185が検出、評価作業を行ってもよい。
<1.2 サーバの構成>
Alternatively, the
<1.2 Server configuration>
図4は、本実施形態のシステム1に含まれるサーバ20の機能的な構成を示すブロック図である。図4に示すように、サーバ20は、通信部201、記憶部202、及び制御部203としての機能を発揮する。
FIG. 4 is a block diagram showing the functional configuration of the
通信部201は、サーバ20が外部の装置と通信するための処理を行う。
The
記憶部202は、例えば、メモリ25、及びストレージ26等により実現され、サーバ20が使用するデータ、及びプログラムを記憶する。具体的には、記憶部202は、例えば、アプリケーション2021を記憶する。アプリケーション2021は、制御部203により実行されることで、後述する制御部203における送受信部2031等の機能実現部を実現する。また、記憶部202は、音声パワー分布計算部2034による計算結果が格納される計算結果データ2022を記憶する。
The
制御部203は、プロセッサ29が記憶部202に記憶されるプログラム(アプリケーション2021)を読み込み、プログラムに含まれる命令を実行することにより実現される。制御部203は、サーバ20の動作を制御する。具体的には、例えば、制御部203は、送受信部2031、記憶制御部2032、通信制御部2033、音声パワー分布計算部2034、及び音声パワー判定部2035としての機能を発揮する。
The
送受信部2031は、サーバ20が、端末装置10等の外部の装置と、通信プロトコルに従ってデータを送受信する処理を制御する。
The transmitting/
記憶制御部2032は、記憶部202への情報の記憶を制御する。
通信制御部2033は、端末装置10間で、所定の通信プロトコルに従った移動体通信を実現するための処理を行う。
The
音声パワー分布計算部2034は、サーバ20を介して現在相互通話中の複数の端末装置10の音声パワー検出部1851で検出された発話者毎の音声パワーに基づいて、相互通話中の複数の発話者の音声パワーの平均と分散を算出し、音声パワー判定部2035に送出する。また、音声パワー分布計算部2034は、算出結果を計算結果データ2022に格納する。
The voice power
音声パワー判定部2035は、音声パワー分布計算部2034により算出された音声パワーの平均と分散とに基づいて、発話者毎の音声パワーと音声パワーの平均とのズレを算出し、このズレが所定値以上であるか否かを判定し、判定結果を相互通話中の端末装置10に通知する。
The voice
音声パワー分布計算部2034及び音声パワー判定部2035は、所定の間隔、好ましくは少なくとも1秒以上の時間間隔を置いて音声パワーの平均及び分散の算出動作及び判定動作を行うことが好ましい。これは、あまり短い時間間隔で音声パワーの平均及び分散の算出動作及び判定動作を行うと、端末装置10における音声パワー状態表示(通知)が不安定になるからである。同様に、音声パワー分布計算部2034及び音声パワー判定部2035は、音声パワーの平均値・分散の計算結果を安定化させるため、所定回数の過去の計算結果を用いて移動平均を取ることで、平滑化した計算結果を用いても良い。
It is preferable that the voice power
また、音声パワー分布計算部2034及び音声パワー判定部2035は、相互通話中のユーザに変更があった場合、音声パワーの平均及び分散の算出動作及び判定動作をやり直す。つまり、新たに音声パワーの平均及び分散の算出動作及び判定動作を行う。
Also, when there is a change in the user during mutual communication, the voice power
<2 データ構造>
図5及び図6は、端末装置10が記憶するデータベースのデータ構造を示す図である。なお、図5及び図6は一例であり、記載されていないデータを除外するものではない。
<2 Data structure>
5 and 6 are diagrams showing the data structure of the database stored in the
図5は、評価テーブル173のデータ構造を示す図である。図5に示すように、評価テーブル173には、音声パワー、SN比及びマイク特性のそれぞれについて良好、やや悪い及び悪いと入力音声評価部1854が評価した際のスコアが格納されている。また、評価テーブル173は、入力音声評価部1854がこれらスコアを合算して統合スコアを算出した結果、最終的な評価結果を良好、やや悪い及び悪いのいずれにするかのテーブルである。
FIG. 5 is a diagram showing the data structure of the evaluation table 173. As shown in FIG. As shown in FIG. 5, the evaluation table 173 stores scores when the input
図6は、検出結果データ172のデータ構造を示す図である。図6に示すように、検出結果データ172のレコードの各々は、例えば、項目「通話ID」と、項目「開始時刻」と、項目「終了時刻」と、項目「ユーザID」と、項目「音声パワースコア」と、項目「SN比スコア」と、項目「マイク特性スコア」と、項目「入力音声スコア」と、項目「受信音声スコア」とを含む。検出結果データ172に記憶された情報は、音声判定部185による判定動作がされる度に更新される。
FIG. 6 is a diagram showing the data structure of the
項目「通話ID」は、端末装置10が通話相手である他の端末装置10との間で行った個々の通話を識別するための情報である。項目「開始時刻」は、項目「通話ID」により特定される通話が開始した時刻の情報である。項目「終了時刻」は、項目「通話ID」により特定される通話が終了した時刻の情報である。項目「ユーザID」は、項目「通話ID」により特定される通話の相手である他の端末装置10を識別するための情報である。好ましくは、項目「ユーザID」は、受信部1823が受信した、他の端末装置10を識別するための識別子である。なお、端末装置10による通話は3人以上のユーザによる同時通話も可能であるので、項目「ユーザID」には複数の識別情報が格納されうる。項目「音声パワースコア」は、音声パワー検出部1851により検出された結果であるスコアである。項目「SN比スコア」は、SN比検出部1852により検出された結果であるスコアである。項目「マイク特性スコア」は、マイク特性検出部1853により検出された結果であるスコアである。項目「入力音声スコア」は、入力音声評価部1854により判定された結果であるスコアである。項目「受信音声スコア」は、受信音声評価部1855により評価された結果であるスコアである。
The item “call ID” is information for identifying individual calls made between the
<3 動作例>
以下、端末装置10及びサーバ20の動作の一例について説明する。
<3 Operation example>
An example of operations of the
図7は、端末装置10の動作の一例を表すフローチャートである。図7は、端末装置10のユーザが発話した入力音声に基づいて、音声判定部185が検出及び判定動作を行い、提示制御部186を介してユーザに通知する際の動作の例を表すフローチャートである。
FIG. 7 is a flow chart showing an example of the operation of the
なお、図7~図9のフローチャート及びシーケンス図に示す各種動作は並行して実行されうる。 Various operations shown in the flowcharts and sequence diagrams of FIGS. 7 to 9 can be executed in parallel.
ステップS11において、端末装置10の制御部180は、サーバ20を経由して特定の端末装置10宛に発呼通信を行う。具体的には、例えば、制御部180は、サーバ20の送受信部2031及び通信制御部2033を経由して、通信制御部182により特定の端末装置10宛に発呼動作を行う。通信制御部182による発呼動作については既知の動作であるので、これ以上の説明は行わない。なお、図7のフローチャートにおいては、端末装置10から発呼動作を行う例を示しているが、端末装置10が着呼動作を行う場合でも同様の動作が行われる。つまり、図7のフローチャートに示す動作において、端末装置10が発呼動作を行うか着呼動作を行うかは任意である。
In step S<b>11 , the
そして、ステップS12において、制御部180は、ステップS11で発呼通信を行った特定の端末装置10が着呼するのを待ち、着呼したら(ステップS12においてYES)ステップS13以降の処理を行う。
Then, in step S12, the
この後、制御部180は、着呼をした特定の端末装置10、すなわち通話相手の特定の端末装置10との間で音声通話を行う。具体的には、例えば、制御部180は、音声入力部183により端末装置10のユーザが発話した音声入力の処理を行って音声データに変換し、通信制御部182により処理が行われた音声データを、サーバ20の送受信部2031を介して特定の端末装置10に送信し、また、通信制御部182によりサーバ20の送受信部2031を介して特定の端末装置10から送信された音声データを受信して処理を行い、音声出力部184により音声に変換する。
Thereafter, the
なお、本実施形態のシステム1では、3人以上のユーザによる相互通話も可能である。どの時点で相互通話を行うユーザを追加するか(発呼動作を行うか、着呼動作を行うか)についての詳細な説明はここでは行わない。
In addition, in the
ステップS13において、制御部180は、端末装置10のユーザが発話した入力音声を受け入れる。具体的には、例えば、制御部180は、音声入力部183により、端末装置10のユーザが発話した入力音声を受け入れる。そして、ステップS14~S16において、制御部180は、ステップS13において受け入れた、端末装置10のユーザが発話した入力音声についての検出処理を行う。具体的には、例えば、制御部180は、音声パワー検出部1851により入力音声の音声パワーを検出し、SN比検出部1852により入力音声のSN比を検出し、マイク特性検出部1853により入力音声のマイク特性を検出する。これらステップS14~S16に示す処理はいずれも並行して実行される。
In step S<b>13 , the
ステップS17において、制御部180は、ステップS14~S16において検出された音声パワー等に基づいて、入力音声の評価動作を行う。具体的には、例えば、制御部180は、入力音声評価部1854により、検出された音声パワー等に基づいて、入力音声の評価動作を行い、統合スコアを算出する。そして、入力音声評価部1854は、評価結果を提示制御部186に送出する。
In step S17, the
ステップS18において、制御部180は、ステップS16における評価結果を端末装置10のディスプレイ141に表示させる。具体的には、例えば、制御部180は、提示制御部186(入力音声状態提示部1861及び通話相手受信音声状態提示部1862)により、入力音声評価部1854が評価した評価結果(算出した統合スコア)に基づいて、端末装置10のディスプレイ141に評価結果を表示させる。
In step S<b>18 , the
ステップS19において、制御部180は、端末装置10から通話切断の指示があったか、あるいは、通話相手の端末装置10が通話切断を行ったか否かを判定する。そして、まだ通話中であれば(ステップS19においてNO)ステップS13の処理に戻り、通話切断があったと判定したら(ステップS19においてYES)、通話切断処理を行い、図7に示すプログラムを終了する。
In step S19, the
図8は、端末装置10の動作の他の例を表すフローチャートである。図8は、ユーザが相互通話を行っている相手からの受話音声に基づいて、音声判定部185が検出及び判定動作を行い、通信制御部182を介して通話相手である他の端末装置10に判定結果を送信する際の動作の例を表すフローチャートである。
FIG. 8 is a flow chart showing another example of the operation of the
ステップS21において、端末装置10の制御部180は、サーバ20を経由して特定の端末装置10からの呼び出しを受ける。具体的には、例えば、制御部180は、サーバ20の送受信部2031及び通信制御部2033を経由して、通信制御部182により特定の端末装置10からの着呼動作を行う。通信制御部182による着呼動作については既知の動作であるので、これ以上の説明は行わない。なお、図8のフローチャートにおいては、端末装置10から着呼動作を行う例を示しているが、端末装置10が発呼動作を行う場合でも同様の動作が行われる。つまり、図8のフローチャートに示す動作においても、端末装置10が発呼動作を行うか着呼動作を行うかは任意である。
In step S<b>21 , the
そして、ステップS22において、制御部180は、ステップS21で着呼動作を行った特定の端末装置10との間で通話が成立するのを待ち、通話が成立したら(ステップS22においてYES)ステップS23以降の処理を行う。この後、制御部180は、通話が成立した特定の端末装置10との間で音声通話を行う。
Then, in step S22, the
ステップS23において、制御部180は、通話相手である特定の端末装置10から送信されて端末装置10で受信した、特定の端末装置10からの音声データを受信する。具体的には、例えば、制御部180は、通話相手である特定の端末装置10から送信され、サーバ20の送受信部2031を介して送信された音声データを通信制御部182により受信する。
In step S<b>23 , the
次いで、ステップS24において、制御部180は、ステップS23で受信した受信音声データの評価動作を行う。具体的には、例えば、制御部180は、受信音声評価部1855により、ステップS23で受信した受信音声データの評価動作を行い、評価スコアを算出する。
Next, in step S24, the
さらに、ステップS25において、制御部180は、ステップS24で行った受信音声評価結果を、音声を送信した他の端末装置10に送信する。具体的には、例えば、制御部180は、入力音声評価部1854により、受信音声評価結果を通信制御部182及びサーバ20の送受信部2031を介して、音声を送信した特定の端末装置10に送信する。
Furthermore, in step S25, the
そして、ステップS26において、制御部180は、ステップS23で受信した音声データを出力する。具体的には、例えば、制御部180は、通信制御部182により受信され、復号化された音声データを、音声出力部184及びスピーカ142により音声として出力する。
Then, in step S26,
図9は、端末装置10の動作の他の例を表すフローチャートである。図9は、ユーザが相互通話を行っている通話相手である他の端末装置10から送出された受信音声評価結果を受信し、提示制御部186により端末装置10のユーザに提示する際の動作の例を表すフローチャートである。
FIG. 9 is a flow chart showing another example of the operation of the
ステップS31~S33の動作は、図8のステップS21~S23と同一である。なお、図9のフローチャートにおいては、端末装置10から着呼動作を行う例を示しているが、端末装置10が発呼動作を行う場合でも同様の動作が行われる。つまり、図9のフローチャートに示す動作においても、端末装置10が発呼動作を行うか着呼動作を行うかは任意である。
The operations of steps S31 to S33 are the same as steps S21 to S23 of FIG. Although the flowchart of FIG. 9 shows an example in which the
ステップS34において、制御部180は、通話相手である特定の端末装置10から送信された、特定の端末装置10における受信音声の評価結果(この評価結果は、端末装置10のユーザが発話した音声が他の端末装置10においてどのように受信されたかを評価した評価結果である)を受信する。具体的には、例えば、制御部180は、通信制御部182(受信部1823)により受信した、特定の端末装置10における受信音声の評価結果を受信する。そして、受信部1823は、評価結果を提示制御部186に送出する。
In step S34, the
ステップS35において、制御部180は、ステップS34において受信した評価結果を端末装置10のディスプレイ141に表示させる。具体的には、例えば、制御部180は、提示制御部186(通話相手受信音声状態提示部1862)により、受信部1823が受信した評価結果(算出した統合スコア)に基づいて、端末装置10のディスプレイ141に評価結果を表示させる。
In step S35, the
ステップS36の動作は図8のステップS26と同一である。 The operation of step S36 is the same as step S26 of FIG.
ステップS37において、制御部180は、端末装置10から通話切断の指示があったか、あるいは、通話相手の端末装置10が通話切断を行ったか否かを判定する。そして、まだ通話中であれば(ステップS37においてNO)ステップS23の処理に戻り、通話切断があったと判定したら(ステップS37においてYES)、通話切断処理を行い、図9に示すプログラムを終了する。
In step S37, the
図10は、端末装置10及びサーバ20の動作の一例を表すシーケンス図である。図10は、ユーザが2台以上の端末装置10を用いて相互通話を行っている際に端末装置10が発話した入力音声に基づいて、サーバ20の音声パワー分布計算部2034及び音声パワー判定部2035が計算及び判定動作を行い、端末装置10の提示制御部186を介してユーザに通知する際の動作の例を表すフローチャートである。なお、図10において端末装置10を第1の端末装置10と第2の端末装置10として表しているが、これは単に端末装置10を区別するための表記である。また、2台以上の端末装置10による通話動作においても図10と同様の動作が行われる。
FIG. 10 is a sequence diagram showing an example of operations of the
ステップS41において、第1の端末装置10の制御部180は、第2の端末装置10宛に発呼通信を行うためにサーバ20に発呼動作を行う。具体的には、例えば、制御部180は、サーバ20に対して、通信制御部182により第2の端末装置10宛に発呼動作を行う。なお、図10のフローチャートにおいては、第1の端末装置10が発呼動作を行い、第2の端末装置10が着呼動作を行う例を示していたが、第2の端末装置10が発呼動作を行う場合でも同様の動作が行われる。つまり、図10のフローチャートに示す動作においても、第1の端末装置10が発呼動作を行うか第2の端末装置10が発呼動作を行うかは任意である。
In step S<b>41 , the
ステップS42において、サーバ20は、ステップS41で受信した発呼動作に係る第2の端末装置10に対して呼び出し動作を行う。具体的には、例えば、サーバ20の制御部203は、送受信部2031及び通信制御部2033により、第2の端末装置10に対して呼び出し動作を行う。送受信部2031及び通信制御部2033による呼び出し動作については既知の動作であるので、これ以上の説明は行わない。
In step S42, the
ステップS43において、ステップS42における呼び出しの対象である第2の端末装置10の制御部180は、ステップS42における呼び出しに対して着呼動作をする。具体的には、例えば、制御部180は、通信制御部182により端末装置10からの着呼動作を行う。これにより、ステップS44において、第1の端末装置10と第2の端末装置10との間で通話が成立する。
In step S43, the
ステップS44及びS45において、第1の端末装置10及び第2の端末装置10の制御部180は、それぞれの端末装置10に入力された入力音声を入力音声データに変換して、通話先である端末装置10に送信し、また、通話先である端末装置10から送信された音声データを受信し、音声に変換して出力する。具体的には、例えば、第1の端末装置10及び第2の端末装置10の制御部180は、音声入力部183により入力音声を受け入れ、通信制御部182により音声データに変換して、通話先である端末装置10に送信し、また、通話先である端末装置10から送信され、サーバ20の送受信部2031を介してた送信された音声データを通信制御部182により受信し、この通信制御部182により音声に変換して音声出力部184及びスピーカ142を介して音声として出力する。
In steps S44 and S45, the
ステップS47において、第1の端末装置の制御部180は、第1の端末装置10のユーザから発声された音声の音声パワーを検出し、その結果をサーバ20に送出する。具体的には、例えば、制御部180は、音声判定部185の音声パワー検出部1851により、第1の端末装置10のユーザから発声された音声の音声パワーを検出し、その結果をサーバ20に送出する。
At step S<b>47 , the
同様に、ステップS48において、第2の端末装置の制御部180は、第2の端末装置10のユーザから発声された音声の音声パワーを検出し、その結果をサーバ20に送出する。具体的には、例えば、制御部180は、音声判定部185の音声パワー検出部1851により、第2の端末装置10のユーザから発声された音声の音声パワーを検出し、その結果をサーバ20に送出する。
Similarly, in step S<b>48 , the
ステップS49において、サーバ20は、ステップS35、S36で送出されてきた、第1の端末装置10及び第2の端末装置10のユーザから発声された音声の音声パワー検出結果に基づいて、これら音声パワーの平均値及び分散を計算する。具体的には、例えば、制御部203は、音声パワー分布計算部2034により、第1の端末装置10及び第2の端末装置10のユーザから発声された音声の音声パワー検出結果に基づいて、これら音声パワーの平均値及び分散を算出する。
In step S49, the
次いで、ステップS50において、サーバ20は、ステップS49で算出した音声パワーの平均値と音声パワー検出値との間のずれが所定値以上であるか否かを判定する。具体的には、例えば、制御部203は、音声パワー判定部2035により、ステップS49において音声パワー分布計算部2034が計算した音声パワーの平均値に基づいて、第1の端末装置10及び/または第2の端末装置10が検出した音声パワーがこの平均値との間に所定値以上のずれがあるか否かを判定する。なお、ステップS50において、サーバ20の音声パワー判定部2035は、ステップS49で音声パワー分布計算部2034が計算した音声パワーの平均値と分散に基づいて音声パワー検出値の標準偏差を求め、その標準偏差が所定値以上であるか否かで判定してもよい。
Next, in step S50, the
そして、ステップS51において、サーバ20は、ステップS37で所定値以上のずれがあると判定した音声パワー検出値を送出した第1の端末装置10及び/または第2の端末装置10に対して、所定値以上のずれがあることを通知する。具体的には、例えば、制御部203は、音声パワー判定部2035、送受信部2031及び通信制御部2033により、ステップS50で所定値以上のずれがあると判定した音声パワー検出値を送出した第1の端末装置10及び/または第2の端末装置10に対して、所定値以上のずれがあることを通知する。図10に示す例では、第1の端末装置10において所定値以上のずれがあると判定されており、従って、音声パワー判定部2035、送受信部2031及び通信制御部2033は、第1の端末装置10に対して通知を行う。ここで、所定値以上のずれがあると判定された場合、音声パワーが平均値より所定値以上大きい、あるいは所定値以上小さい場合がありうるので、音声パワー判定部2035は、平均値より大きい、または平均値より小さいという情報も第1の端末装置10及び/または第2の端末装置10に対して通知する。
Then, in step S51, the
ステップS52において、第1の端末装置10は、ステップS51で行われた通知を受信し、受信した通知に基づいてずれがあることを表示する。具体的には、例えば、制御部180は、通信制御部182により通知を受信し、通信制御部182はこの通知を音声パワー状態提示部1863に送出し、音声パワー状態提示部1863は、第1の端末装置10のディスプレイ141に通知があったことを表示する。
In step S52, the first
なお、図10では、2台の端末装置10(第1の端末装置10及び第2の端末装置10)による通話の例を示しているが、サーバ20の音声パワー分布計算部2034が音声パワーの平均値及び分散を算出し、音声パワー判定部2035がこの平均値とのズレを判定していることから、図10に示す例は、3台以上の端末装置10による通話の際において、より所望の効果を奏することができる。
Note that FIG. 10 shows an example of a call by two terminal devices 10 (the first
<4 画面例>
以下、端末装置10から出力される画面の一例を、図11~図13を参照して説明する。
<4 Screen example>
An example of a screen output from the
図11は、入力音声、すなわち、端末装置10のユーザが発話した音声についての状態、及び、受信(受話)音声、すなわち、端末装置10が相互通話中である特定の端末装置10のユーザが発音し、端末装置10において受信した音声についての状態を端末装置10のディスプレイ141に表示した画面である。図11に示す端末装置10の表示画面は、その端末装置10を使って通話しているユーザの端末装置10の表示画面であって、以降、図11の端末装置10を使用しているユーザを発話者と呼ぶ。また、発話者が相互通話を行っている(複数の)通話相手を受話者と呼ぶ。図11(及び図12)において、発話者のユーザ名をTanaka、受話者のユーザ名をそれぞれSato、Yamadaとする。つまり、図11においては、ユーザ名Tanakaとユーザ名Sato、ユーザ名Yamadaの3名により同時音声通話をしている。
FIG. 11 shows the state of the input voice, that is, the voice uttered by the user of the
図11に示すように、端末装置10のディスプレイ141には、ユーザ毎のアイコン900~902が表示されている。なお、図11(及び図12~図15)に図示した例において、アイコン900~902は絵文字により表示しているが、アイコン900~902の表示形態に特段の限定はなく、例えば、通話をしているユーザ(発話者、受話者)それぞれの画像であってもよいし、単に発話者、受話者のユーザ名を表示するのみであってもよい。そして、このアイコン900~902の下部には、音声状態を判定した結果であるスコアをバー903により表示している。なお、バーは、アイコンの一態様であり、インジケーターと称してもよい。図11に示す例では、スコアが0、すなわち良好であればバー903が3つ、スコアが-1、すなわちやや悪いであればバー2つ、スコアが-2、すなわち悪いであればバーが1つ表示されている。また、スコアに応じてバーが表示される色も変えて表示されている。図11は図示の関係上白黒で表示しているが、一例として、図11で白抜きの長方形で示しているバーは緑色、内部が斜線のハッチングがされた長方形で示しているバーは黄色、黒く塗りつぶした長方形で示しているバーは赤色に表示されている。
As shown in FIG. 11, the
図11(a)に示したアイコン900~902では、発話者Tanakaの音声状態は良好であり、発話者Satoの音声状態はやや悪い、発話者Yamadaの音声状態は悪いと判定されている。また、図11(b)に示したアイコン900~902では、発話者Tanaka、発話者Sato、及び発話者Yamadaの音声状態はいずれも悪いと判定されている。
In
次に、図12は、図11において表示された音声状態の詳細な表示を行った画面である。 Next, FIG. 12 is a screen showing detailed display of the voice state displayed in FIG.
端末装置10のユーザが、ディスプレイ141のアイコン900をタップすると、図12の上部に示すような詳細表示がディスプレイ141に表示される。図12(a)に示すアイコン900は発話者のアイコンであるので、詳細表示には、入力音声の統合スコア、及び、その根拠となる入力音声パワー等の判定結果が表示される。
When the user of the
同様に、端末装置10のユーザが、ディスプレイ141のアイコン902をタップすると、図12(b)に示すような詳細表示がディスプレイ141に表示される。図12(b)に示すアイコン902は受話者のアイコンであるので、詳細表示には、受話音声のスコア、及び、その根拠となるパケットロス率が表示される。
Similarly, when the user of the
さらに、図13は、端末装置10のユーザが発話した入力音声の音声パワーが、現在相互通話中のユーザが発話した入力音声の音声パワーの平均値との間に所定値以上のずれがあると判定されたとき、判定結果をこの端末装置10のディスプレイ141に表示した画面である。図13に示す例では、端末装置10のユーザの入力音声の音声パワーが平均値より所定値以下である場合、ディスプレイ141に、判定結果を記載したダイアログ1100が表示される。
Furthermore, FIG. 13 shows the case where there is a deviation of a predetermined value or more between the voice power of the input voice uttered by the user of the
図13ではユーザの入力音声パワーのバラツキの判定結果を表示しているが、判定結果に基づいて解決策を提示することも可能である(例えば、小さく話してください、大きく話してください)。 Although FIG. 13 shows the determination result of the variation in the user's input voice power, it is also possible to present a solution based on the determination result (for example, speak softly, speak loudly).
<5 実施形態の効果>
以上詳細に説明したように、本実施形態のシステム1によれば、端末装置10の音声判定部185の受信音声評価部1855により、この端末装置10が受信した受信音声データの状態を評価し、この評価結果である第1の評価結果を、通話相手である他の端末装置10に返信しているので、他の端末装置10のユーザは、この第1の評価結果に基づいて、自身の入力音声が通話相手にどのように聞こえているかを知ることができる。従って、本実施形態のシステム1によれば、通話相手の音声の状態を容易に把握することが可能となる。
<5 Effect of Embodiment>
As described in detail above, according to the
また、本実施形態のシステム1によれば、端末装置10のユーザが発話した入力音声の品質の評価を音声判定部185で行い、この品質の評価結果である第3の評価結果をユーザに提示しているので、通話相手の音声の状態とともに、自身の入力音声の状態を同時に把握することができる。
Further, according to the
さらに、本実施形態のシステム1によれば、相互通話中のユーザの入力音声パワーのバラツキをユーザが把握することができる。
Furthermore, according to the
すなわち、Web会議などの複数人の通話システムにおいて、通話参加者の入力音声パワーのバラツキが大きい場合、通話参加者全体の平均の入力音声パワーよりも、小さすぎる参加者の音声は聞こえにくく、通話参加者全体の平均の入力音声パワーよりも、大きすぎる参加者の音声はうるさく耳障りとなる。 In other words, in a multi-person call system such as a web conference, when the input voice power of the call participants varies greatly, it is difficult to hear the voice of a participant who is too weak compared to the average input voice power of all call participants. A participant's speech that is louder than the average input speech power of all participants is loud and harsh.
このようなバラツキが発生している時、受信側の音声出力のボリューム調整が困難になる。より詳細には、小さすぎる参加者の音声を聞きやすくするためボリュームを上げると、大きすぎる参加者の音声がさらに大きくなり余計に耳障りになる。一方、大きすぎる参加者の音声を聞きやすくするためボリュームを下げると、小さすぎる参加者の音声がさらに小さくなり余計に聞こえにくくなる。従って、音声を発話するユーザが自身の音声のパワーが通話者全体の音声パワーの平均よりも小さすぎる、もしくは、大きすぎることを把握し、ユーザが自身の発話音声のパワーを調整して平均に近づけることにより、このような入力音声パワーのバラツキを解消することが重要である。 When such variations occur, it becomes difficult to adjust the volume of the audio output on the receiving side. More specifically, increasing the volume to make the too quiet participant's voice more audible makes the too loud participant's voice louder and even more annoying. On the other hand, if the volume is lowered to make it easier to hear the voices of the participants who are too loud, the voices of the participants who are too quiet become even quieter and harder to hear. Therefore, a user uttering a voice grasps that the power of his own voice is too small or too large compared to the average voice power of all callers, and the user adjusts the power of his own uttered voice to reach the average. It is important to eliminate such variations in the input voice power by bringing them close to each other.
相互通話中のユーザの入力音声パワーのバラツキに関連する技術として、国際公開第2008/011901号に開示された技術がある。この技術では、少なくとも1つの音声端末は、それぞれの受信チャンネルによって提供される音声データがグループの個別の音声信号に復号されるように、第1のグループに関連付けられる個別音声信号を重畳して集約音声信号を形成し、集約音声信号を第1集約音声データに符号化する。さらに、少なくとも2つの音声端末は、第2グループに関連付けられており、第1の集約音声データは、第1の集約音声データの出力毎に、第2のグループに対応付けられた音声端末に供給される。 WO 2008/011901 discloses a technique related to variations in input voice power of a user during mutual communication. In this technique, at least one voice terminal superimposes and aggregates individual audio signals associated with a first group such that audio data provided by each receive channel is decoded into individual audio signals for the group. An audio signal is formed and the aggregated audio signal is encoded into first aggregated audio data. Further, the at least two voice terminals are associated with the second group, and the first aggregated voice data is provided to the voice terminals associated with the second group for each output of the first aggregated voice data. be done.
しかしながら、複数のユーザが音声通話を行っている状況においては、各ユーザの入力音声レベルが閾値を上回っている場合でも、各ユーザの入力音声レベルが通話に参加している複数ユーザの間でバラついていると、聞きづらさにつながる。 However, in a situation where a plurality of users are making a voice call, even if the input voice level of each user exceeds the threshold, the input voice level of each user may vary among the multiple users participating in the call. If it is on, it will lead to hearing difficulty.
上述した技術においても、通話に参加する複数のユーザの入力音声レベルのバラツキに対してのフィードバックは考慮されていない。 Even in the above-described technique, no consideration is given to feedback on variations in the input voice levels of multiple users participating in a call.
一方、本実施形態のシステム1によれば、複数のユーザの入力音声レベルのバラツキ、すなわち、端末装置10の入力音声パワーの検出値の平均値及び分散を音声パワー分布計算部2034が計算し、計算された平均値に対して所定値以上のずれがあるか否かを音声パワー判定部2035が判定し、この判定結果である第4の判定結果を端末装置10のユーザ(発話者)に提示しているので、第4の判定結果を提示されたユーザは、入力音声パワーのバラツキを把握することができる。
On the other hand, according to the
<6 付記>
なお、上記した実施形態は本開示を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施形態の構成の一部について、他の構成に追加、削除、置換することが可能である。
<6 Notes>
It should be noted that the above-described embodiments describe the configurations in detail in order to explain the present disclosure in an easy-to-understand manner, and are not necessarily limited to those having all the described configurations. Also, part of the configuration of each embodiment can be added, deleted, or replaced with another configuration.
一例として、端末装置10が音声判定部185のうち受信音声評価部1855のみを有する構成も可能である。また、受信音声評価部1855及び通話相手受信音声状態提示部1862のみを有する構成も可能である。さらに、サーバ20が音声パワー分布計算部2034及び音声パワー判定部2035を有しない構成も可能である。この場合、端末装置10は音声パワー状態提示部1863を有さない。
As an example, a configuration in which the
また、上記した実施形態においては、端末装置10のユーザが発話した入力音声について品質評価、すなわち、音声パワー、SN比及びマイク特性の各観点に沿って評価を行っていたが、通話相手である他の端末装置10からの受信音声について、音声パワー検出部1851、SN比検出部1852及びマイク特性検出部1853による検出及び評価を行い、入力音声評価部1854により統合スコアを算出することで評価を行ってもよい。そして、入力音声評価部1854による品質評価結果は、パケットロス率に基づく受信音声評価部1855の評価結果とともに送信部1822を介して通話相手である特定の端末装置10に送出される。入力音声評価部1854による品質評価結果にも、受信音声評価部1855の評価結果と同様に、端末装置10を識別するための識別子が付されて送出される。
Further, in the above-described embodiment, the quality of the input voice uttered by the user of the
図14は、発話者の入力音声を受話者の端末装置10において品質評価を行い、この結果を発話者の端末装置10が受信してそのディスプレイ141に表示した画面である。
FIG. 14 shows a screen in which the speaker's input voice is subjected to quality evaluation in the receiver's
図14に示す画面は図11に示す画面と同様であるが、発話者の端末装置10において発話者の入力音声についての品質評価は行っていないので、端末装置10のディスプレイ141には、受話者についてのアイコン901、902及びバー903が表示されている。また、図14に示した画面例ではバー903を表示しているが、アイコン901、902のみ表示してもよい。これは、図11~図12の画面例においても同様である。また、図14では、発話者のアイコン900が表示されていない例を示しているが、発話者のアイコン900が表示されてもよい。
The screen shown in FIG. 14 is similar to the screen shown in FIG.
さらに、図15は、図12と同様に、図13において表示された音声状態の詳細な表示を行った画面である。図15において、受話者のアイコン(図14ではアイコン902)をタップすると、発話者の入力音声が受話者の端末装置10で受信された際のスコア、及び、その根拠となるパケットロス率、さらには、品質評価の結果である受話者の入力音声の統合スコア、及び、その根拠となる入力音声パワー等の判定結果が表示される。
Furthermore, FIG. 15, like FIG. 12, is a screen displaying the details of the voice state displayed in FIG. In FIG. 15, when the listener's icon (
ここで、3人以上のユーザによる同時通話を行っている場合、受信音声に関する評価結果は、通話相手である複数の端末装置10から別々に送出される。従って、通話相手受信音声状態提示部1862により評価結果を提示する際に、通話相手である端末装置10から送信された評価結果を全て提示してもよいし、評価結果に基づいて少なくとも1つの端末装置10から送信された評価結果を選択して提示してもよい。例えば、受信音声の評価が低い通信相手から送信されてきた評価結果については破棄するようにしてもよい。また、一例として、悪い評価結果を受信したということは、自分の会話が聞き取りづらい通話相手がいるということであるから、「やや悪い」「悪い」という評価結果のみ提示してもよい。また、品質評価結果についても、どの端末装置10による評価結果であるかを、例えばユーザ名とともに提示してもよい。さらに、受信音声の評価が高い通信相手から送信されてきた評価結果についても表示してもよい。加えて、相互通話中のユーザが5人いるようなときは、受信音声の評価が最高のユーザのユーザ名や、受信音声の評価が最低のユーザのユーザ名を表示してもよいし、評価の順序(ランキング)を表示してもよい。
Here, when three or more users are making simultaneous calls, the evaluation results regarding the received voice are sent separately from the plurality of
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。 Further, each of the above configurations, functions, processing units, processing means, and the like may be realized by hardware, for example, by designing them in an integrated circuit. The present invention can also be implemented by software program code that implements the functions of the embodiments. In this case, a computer is provided with a storage medium recording the program code, and a processor included in the computer reads the program code stored in the storage medium. In this case, the program code itself read from the storage medium implements the functions of the above-described embodiments, and the program code itself and the storage medium storing it constitute the present invention. Storage media for supplying such program codes include, for example, flexible disks, CD-ROMs, DVD-ROMs, hard disks, SSDs, optical disks, magneto-optical disks, CD-Rs, magnetic tapes, and non-volatile memory cards. , ROM and the like are used.
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。 Also, the program code that implements the functions described in this embodiment can be implemented in a wide range of programs or script languages, such as assembler, C/C++, perl, Shell, PHP, and Java (registered trademark).
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。 Furthermore, by distributing the program code of the software that implements the functions of the embodiment via a network, it can be stored in storage means such as a hard disk or memory of a computer, or in a storage medium such as a CD-RW or CD-R. Alternatively, a processor provided in the computer may read and execute the program code stored in the storage means or the storage medium.
以上の各実施形態で説明した事項を以下に付記する。 The items described in the above embodiments will be added below.
(付記1)
プロセッサ(19)とメモリ(15)とを備え、他の端末装置(10)と音声データの送受信が可能な端末装置(10)を動作させるためのプログラム(171)であって、プログラム(171)は、プロセッサ(19)に、他の端末装置(10)から送信された音声データを受信するステップ(S23)と、受信した音声データの状態を評価して第1の評価結果として出力するステップ(S24)と、第1の評価結果を他の端末装置(10)に返信するステップ(S25)と、受信した音声データに基づく音声をユーザに出力するステップ(S26)とを実行させるプログラム。
(付記2)
他の端末装置(10)から送信される、端末装置(10)から送信されて他の端末装置(10)で受信された音声データの状態を評価した第2の評価結果を受信するステップ(S33)と、受信した第2の評価結果をユーザに提示するステップ(S35)とをさらに実行させる付記1に記載のプログラム。
(付記3)
第2の評価結果に応じたアイコン(900~902)をユーザに提示するステップ(S35)をさらに実行させる付記2に記載のプログラム。
(付記4)
アイコン(900~902)をユーザに提示するステップ(S35)では、第2の評価結果に応じて、他の端末装置(10)のユーザに関する画像の表示態様を変化させる付記3に記載のプログラム。
(付記5)
第2の評価結果をユーザに提示するステップ(S35)では、第2の評価結果に応じた音を発生させる付記2に記載のプログラム。
(付記6)
第2の評価結果をユーザに提示するステップ(S35)では、第2の評価結果が所定状態よりも良好である場合、第2の評価結果を提示しない付記2~5のいずれか一項に記載のプログラム。
(付記7)
第2の評価結果には、音声データを受信した他の端末装置(10)を特定する識別子が付されており、第2の評価結果をユーザに提示するステップ(S35)では、第2の評価結果を、他の端末装置(10)が識別可能にユーザに提示する付記2~6のいずれか一項に記載のプログラム。
(付記8)
第2の評価結果をユーザに提示するステップ(S35)では、他の端末装置(10)のユーザの画像と関連付けて提示する付記7に記載のプログラム。
(付記9)
音声データを受信するステップ(S23)では、符号化されてパケットに変換されている音声データを受信してこの音声データを復号化し。第1の評価結果として出力するステップ(S24)では、復号化の際のパケットロス率に基づいて音声データの状態を評価する付記2~8のいずれか一項に記載のプログラム。
(付記10)
第2の評価結果をユーザに提示するステップ(S35)では、第2の評価結果として他の端末装置(10)との通信におけるパケットロス率をユーザに提示する付記9に記載のプログラム。
(付記11)
第1の評価結果として出力するステップ(S24)では、音声区間検出を利用し、音声データの状態を評価する付記2~8のいずれか一項に記載のプログラム。
(付記12)
第1の評価結果として出力するステップ(S24)では、音声データの品質に基づいて音声データの状態を評価する付記2~8のいずれか一項に記載のプログラム。
(付記13)
第2の評価結果をユーザに提示するステップ(S35)では、第2の評価結果としてユーザが発した音声に基づく音声データの品質をユーザに提示する付記12に記載のプログラム。
(付記14)
第2の評価結果を受信するステップ(S33)では、複数の他の端末装置(10)から複数の第2の評価結果を受信し、第2の評価結果をユーザに提示するステップ(S26)では、少なくとも1つ以外の第2の評価結果を除去する付記13に記載のプログラム。
(付記15)
音声データを受信するステップ(S23)では、他の端末装置(10)を特定する第1識別子が付与された音声データを受信し、第1の評価結果として出力するステップ(S24)では、第1の評価結果に端末装置(10)を特定する第2識別子を付し、第1の評価結果を他の端末装置(10)に返信するステップ(S25)では、第2識別子が付された第1の評価結果を、第1識別子により特定される他の端末装置(10)を送信先として送信する付記1~14のいずれか一項に記載のプログラム。
(付記16)
端末装置(10)のユーザから発せられた音声に基づく音声データの品質を評価するステップ(S17)と、端末装置(10)のユーザから発せられた音声に基づく音声データの品質の評価結果である第3の評価結果をユーザに提示するステップ(S18)とをさらに実行させる付記1~15のいずれか一項に記載のプログラム。
(付記17)
音声データの品質を評価するステップ(S17)では、端末装置(10)のユーザから発せられた音声の特性である音声のパワー、SN比、マイク特性、又はこれらのうち少なくとも2つの検出の組み合わせに基づいて音声データの品質を評価する付記16に記載のプログラム。
(付記18)
音声データの品質を評価するステップ(S17)では、端末装置(10)のユーザから音声データが入力される毎に特性を検出し、音声データの入力が途絶えたら最後に検出した特性の値を保持する付記17に記載のプログラム。
(付記19)
音声データの品質を評価するステップ(S17)では、特性の検出結果に基づいてスコアを算出することで音声データの品質を評価する付記17または18に記載のプログラム。
(付記20)
第3の評価結果を端末装置(10)のユーザに提示するステップ(S18)では、端末装置(10)のユーザから音声データが入力されていない状態では第3の評価結果を提示しない付記16~19のいずれか一項に記載のプログラム。
(付記21)
第3の評価結果を端末装置(10)のユーザに提示するステップ(S18)では、第3の評価結果として音声のパワー、SN比、マイク特性、又はこれらのうち少なくとも2つの検出の組み合わせを端末装置(10)のユーザに提示する付記17~19のいずれか一項に記載のプログラム。
(付記22)
プロセッサ(29)とメモリ(25)とを備え、複数の端末装置(10)の間で音声データの送受信をさせるサーバ(20)を動作させるためのプログラム(2021)であって、プログラム(2021)は、プロセッサ(29)に、端末装置(10)毎の入力音声の音声パワーを検出するステップ(S47、S48)と、音声パワーの検出結果に基づいて、音声パワーの平均値及び分散を算出するステップ(S49)と、算出した平均値及び分散に基づいて、複数の端末装置(10)を利用する各々の発話者の音声パワーと平均値とのずれが所定値以上であるか否かを判定するステップ(S50)と、音声パワーと平均値とのずれが所定値以上であると判定された発話者に対して第4の判定結果を提示するステップ(S51)とを実行させるプログラム。
(付記23)
音声パワーを検出するステップ(S47、S48)では、端末装置(10)から音声が入力される毎に音声パワーの検出を行い、音声の入力が途絶えたら最後の検出値を保持する付記22に記載のプログラム。
(付記24)
音声パワーの平均値及び分散を算出するステップ(S49)では、秒単位での間隔を置いて音声パワーの平均値及び分散を算出する付記22または23に記載のプログラム。
(付記25)
音声パワーと平均値とのずれが所定値以上であるか否かを判定するステップ(S50)では、秒単位での間隔を置いて判定する付記22~24のいずれか一項に記載のプログラム。
(付記26)
音声データには、音声データを送出した端末装置(10)を特定する識別子が付されており、音声パワーの平均値及び分散を算出するステップ(S49)では、識別子に基づいて現在通話をしている発話者が変更されたことを検出したら、音声パワーの平均値及び分散を算出し直す付記22~25のいずれか一項に記載のプログラム。
(付記27)
第4の判定結果を提示するステップ(S51)では、通信回線が接続されているが発話をしていない発話者がいたら、第4の判定結果を提示しない付記22~26のいずれか一項に記載のプログラム。
(付記28)
第4の判定結果を提示するステップ(S51)では、第4の判定結果とともに解決策を提示する付記22~27のいずれか一項に記載のプログラム。
(付記29)
プロセッサ(19)とメモリ(15)とを備え、他の装置(10)と音声データの送受信が可能な装置(10)であって、プロセッサ(19)は、他の装置(10)から送信された音声データを受信するステップ(S23)と、受信した音声データの状態を評価して第1の評価結果として出力するステップ(S24)と、第1の評価結果を他の装置(10)に返信するステップ(S25)と、受信した音声データに基づく音声をユーザに出力するステップ(S26)とを実行する装置(10)。
(付記30)
プロセッサ(19)とメモリ(15)とを備え、他のコンピュータ(10)と音声データの送受信が可能なコンピュータ(10)により実行される方法であって、プロセッサ(19)は、他のコンピュータから送信された音声データを受信するステップ(S23)と、受信した音声データの状態を評価して第1の評価結果として出力するステップ(S24)と、第1の評価結果を他のコンピュータに返信するステップ(S25)と、受信した音声データに基づく音声をユーザに出力するステップ(S26)とを実行する方法。
(付記31)
端末装置(10)と他の端末装置(10)との間での音声データの送受信が可能なシステム(1)であって、端末装置(10)は、他の端末装置(10)から送信された音声データを受信する手段(1823)と、受信した音声データの状態を評価して第1の評価結果として出力する手段(1855)と、第1の評価結果を他の端末装置(10)に返信する手段(1822)と、受信した音声データに基づく音声をユーザに出力する手段(184)とを具備するシステム(1)。
(付記32)
プロセッサ(29)とメモリ(25)とを備え、複数の端末装置(10)の間で音声データの送受信をさせる装置(20)であって、プロセッサ(29)は、端末装置(10)毎の入力音声の音声パワーを検出するステップ(S47、S48)と、音声パワーの検出結果に基づいて、音声パワーの平均値及び分散を算出するステップ(S49)と、算出した平均値及び分散に基づいて、複数の端末装置(10)を利用する各々の発話者の音声パワーと平均値とのずれが所定値以上であるか否かを判定するステップ(S50)と、音声パワーと平均値とのずれが所定値以上であると判定された発話者に対して第4の判定結果を提示するステップ(S51)とを実行する装置(10)。
(付記33)
プロセッサ(29)とメモリ(25)とを備え、複数の端末装置(10)の間で音声データの送受信をさせるコンピュータ(20)により実行される方法であって、プロセッサ(29)は、端末装置(10)毎の入力音声の音声パワーを検出するステップ(S47、S48)と、音声パワーの検出結果に基づいて、音声パワーの平均値及び分散を算出するステップ(S49)と、算出した平均値及び分散に基づいて、複数の端末装置(10)を利用する各々の発話者の音声パワーと平均値とのずれが所定値以上であるか否かを判定するステップ(S50)と、音声パワーと平均値とのずれが所定値以上であると判定された発話者に対して第4の判定結果を提示するステップ(S51)とを実行する方法。
(付記34)
複数の端末装置(10)と、これら複数の端末装置(10)の間で音声データの送受信をさせるサーバ(20)とを有するシステム(1)であって、サーバ(20)は、端末装置(10)毎の入力音声の音声パワーを検出する手段(2031、2033)と、音声パワーの検出結果に基づいて、音声パワーの平均値及び分散を算出する手段(2034)と、算出した平均値及び分散に基づいて、複数の端末装置(10)を利用する各々の発話者の音声パワーと平均値とのずれが所定値以上であるか否かを判定する手段(2035)と、音声パワーと平均値とのずれが所定値以上であると判定された発話者に対して第4の判定結果を提示する手段(2031、2033)とを具備するシステム。
(Appendix 1)
A program (171) for operating a terminal device (10) comprising a processor (19) and a memory (15) and capable of transmitting and receiving voice data to and from another terminal device (10), the program (171) The processor (19) receives voice data transmitted from another terminal device (10) (S23), evaluates the state of the received voice data and outputs it as a first evaluation result ( S24), a step of replying the first evaluation result to another terminal device (10) (S25), and a step of outputting voice based on the received voice data to the user (S26).
(Appendix 2)
A step of receiving a second evaluation result obtained by evaluating the state of the voice data transmitted from the other terminal device (10) and received by the other terminal device (10) (S33 ) and presenting the received second evaluation result to the user (S35).
(Appendix 3)
The program according to
(Appendix 4)
3. The program according to appendix 3, wherein in the step (S35) of presenting the icons (900 to 902) to the user, the display mode of the image regarding the user of the other terminal device (10) is changed according to the second evaluation result.
(Appendix 5)
3. The program according to
(Appendix 6)
6. The method according to any one of
(Appendix 7)
The second evaluation result is attached with an identifier specifying the other terminal device (10) that received the voice data, and in the step of presenting the second evaluation result to the user (S35), the second evaluation result 7. The program according to any one of
(Appendix 8)
8. The program according to appendix 7, wherein in the step (S35) of presenting the second evaluation result to the user, the program is presented in association with the image of the user of the other terminal device (10).
(Appendix 9)
In the step of receiving voice data (S23), voice data encoded and converted into packets is received and decoded. 9. The program according to any one of
(Appendix 10)
10. The program according to appendix 9, wherein in the step of presenting the second evaluation result to the user (S35), a packet loss rate in communication with another terminal device (10) is presented to the user as the second evaluation result.
(Appendix 11)
9. The program according to any one of
(Appendix 12)
9. The program according to any one of
(Appendix 13)
13. The program according to
(Appendix 14)
In the step of receiving a second evaluation result (S33), a plurality of second evaluation results are received from a plurality of other terminal devices (10), and in the step of presenting the second evaluation results to the user (S26) 14. The program of
(Appendix 15)
In the step of receiving voice data (S23), voice data to which a first identifier specifying the other terminal device (10) is assigned is received, and in the step of outputting as a first evaluation result (S24), the first In the step (S25) of attaching a second identifier specifying the terminal device (10) to the evaluation result of and returning the first evaluation result to the other terminal device (10), the first 15. The program according to any one of
(Appendix 16)
A step (S17) of evaluating the quality of voice data based on the voice uttered by the user of the terminal device (10), and the evaluation result of the quality of the voice data based on the voice uttered by the user of the terminal device (10). 16. The program according to any one of
(Appendix 17)
In the step of evaluating the quality of the voice data (S17), the characteristics of the voice uttered by the user of the terminal device (10), namely the power of the voice, the signal-to-noise ratio, the microphone characteristics, or a combination of detections of at least two of these, 17. The program of
(Appendix 18)
In the step (S17) of evaluating the quality of voice data, characteristics are detected each time voice data is input from the user of the terminal device (10), and the value of the last detected characteristics is held when the input of voice data stops. 17. The program according to Supplementary Note 17.
(Appendix 19)
19. The program according to appendix 17 or 18, wherein in the step of evaluating the quality of the audio data (S17), the quality of the audio data is evaluated by calculating a score based on the characteristic detection result.
(Appendix 20)
In the step (S18) of presenting the third evaluation result to the user of the terminal device (10), the third evaluation result is not presented unless voice data is input from the user of the terminal device (10). 20. The program according to any one of 19.
(Appendix 21)
In the step (S18) of presenting the third evaluation result to the user of the terminal device (10), the third evaluation result is the power of the voice, the SN ratio, the microphone characteristics, or a combination of at least two of these detections. 20. A program according to any one of clauses 17-19 for presentation to a user of a device (10).
(Appendix 22)
A program (2021) for operating a server (20) comprising a processor (29) and a memory (25) and for transmitting and receiving voice data between a plurality of terminal devices (10), the program (2021) the processor (29) to detect the voice power of the input voice for each terminal device (10) (S47, S48), and to calculate the average value and the variance of the voice power based on the voice power detection result. Based on the step (S49) and the calculated average value and variance, it is determined whether or not the difference between the voice power of each speaker using the plurality of terminal devices (10) and the average value is equal to or greater than a predetermined value. and a step (S51) of presenting a fourth determination result to the speaker determined to have a difference between the voice power and the average value equal to or greater than a predetermined value.
(Appendix 23)
Described in
(Appendix 24)
24. The program according to
(Appendix 25)
25. The program according to any one of
(Appendix 26)
The voice data is attached with an identifier specifying the terminal device (10) that sent the voice data. 26. The program according to any one of
(Appendix 27)
In the step of presenting the fourth determination result (S51), if there is a speaker who is connected to the communication line but does not speak, the fourth determination result is not presented. program as described.
(Appendix 28)
28. The program according to any one of
(Appendix 29)
A device (10) comprising a processor (19) and a memory (15) and capable of transmitting and receiving audio data to and from another device (10), wherein the processor (19) receives data transmitted from the other device (10). a step of receiving the received voice data (S23); a step of evaluating the state of the received voice data and outputting it as a first evaluation result (S24); and returning the first evaluation result to the other device (10). (S25), and a step (S26) of outputting voice based on the received voice data to the user.
(Appendix 30)
A method performed by a computer (10) comprising a processor (19) and a memory (15) and capable of transmitting and receiving audio data to and from another computer (10), wherein the processor (19) a step of receiving the transmitted voice data (S23); a step of evaluating the state of the received voice data and outputting it as a first evaluation result (S24); and returning the first evaluation result to another computer. A method for carrying out the steps of (S25) and outputting (S26) a voice based on the received voice data to a user.
(Appendix 31)
A system (1) capable of transmitting and receiving voice data between a terminal device (10) and another terminal device (10), wherein the terminal device (10) means (1823) for receiving voice data received; means (1855) for evaluating the state of the received voice data and outputting it as a first evaluation result; and sending the first evaluation result to another terminal device (10) A system (1) comprising means (1822) for replying and means (184) for outputting voice based on received voice data to a user.
(Appendix 32)
A device (20), comprising a processor (29) and a memory (25), for transmitting and receiving voice data between a plurality of terminal devices (10), wherein the processor (29) is provided for each terminal device (10) Steps of detecting the voice power of the input voice (S47, S48); calculating the mean value and variance of the voice power based on the voice power detection result (S49); and based on the calculated mean value and variance a step (S50) of determining whether or not the difference between the voice power of each speaker using a plurality of terminal devices (10) and the average value is equal to or greater than a predetermined value; a step (S51) of presenting a fourth determination result to a speaker determined to be equal to or greater than a predetermined value.
(Appendix 33)
A method performed by a computer (20) comprising a processor (29) and a memory (25) for transmitting and receiving audio data between a plurality of terminal devices (10), wherein the processor (29) comprises: (10) steps of detecting the voice power of the input voice (S47, S48); calculating the average value and variance of the voice power based on the voice power detection result (S49); and based on the variance, a step (S50) of determining whether or not the difference between the voice power of each speaker using a plurality of terminal devices (10) and the average value is equal to or greater than a predetermined value; and a step (S51) of presenting a fourth determination result to a speaker determined to have a deviation from the average value equal to or greater than a predetermined value.
(Appendix 34)
A system (1) having a plurality of terminal devices (10) and a server (20) for transmitting and receiving voice data between the plurality of terminal devices (10), wherein the server (20) comprises terminal devices ( 10) means (2031, 2033) for detecting the voice power of each input voice; means (2034) for calculating the mean value and variance of the voice power based on the voice power detection result; Means (2035) for determining whether the difference between the voice power of each speaker using a plurality of terminal devices (10) and the average value is equal to or greater than a predetermined value based on the variance; means (2031, 2033) for presenting a fourth determination result to a speaker determined to have a deviation from the value equal to or greater than a predetermined value.
1…システム、10…端末装置、20…サーバ、141…ディスプレイ、142…スピーカ、170…記憶部、171…アプリケーション、172…検出結果データ、173…評価テーブル、180…制御部、182…通信制御部、183…音声入力部、184…音声出力部、185…音声判定部、186…提示制御部、202…記憶部、203…制御部、900~902…アイコン、903…バー、1100…ダイアログ、1821…符号化処理部、1822…送信部、1823…受信部、1824…復号化処理部、1851…音声パワー検出部、1852…SN比検出部、1853…マイク特性検出部、1854…入力音声評価部、1855…受信音声評価部、1861…入力音声状態提示部、1862…通話相手受信音声状態提示部、1863…音声パワー状態提示部、1864…入力音声評価部、2021…アプリケーション、2022…計算結果データ、2031…送受信部、2032…記憶制御部、2033…通信制御部、2034…音声パワー分布計算部、2035…音声パワー判定部
DESCRIPTION OF
Claims (34)
前記プログラムは、前記プロセッサに、
前記他の端末装置から送信された前記音声データを受信するステップと、
受信した前記音声データの状態を評価して第1の評価結果として出力するステップと、
前記第1の評価結果を前記他の端末装置に返信するステップと、
前記受信した前記音声データに基づく音声をユーザに出力するステップと
を実行させるプログラム。 A program for operating a terminal device comprising a processor and a memory and capable of transmitting and receiving audio data to and from another terminal device,
The program causes the processor to:
receiving the audio data transmitted from the other terminal device;
evaluating the state of the received audio data and outputting it as a first evaluation result;
a step of returning the first evaluation result to the other terminal device;
and outputting a voice based on the received voice data to a user.
受信した前記第2の評価結果を前記ユーザに提示するステップと
をさらに実行させる請求項1に記載のプログラム。 a step of receiving a second evaluation result of evaluating the state of the audio data transmitted from the terminal device and received by the other terminal device, which is transmitted from the other terminal device;
The program according to claim 1, further causing a step of presenting the received second evaluation result to the user.
前記第2の評価結果を前記ユーザに提示するステップでは、前記第2の評価結果を、他の端末装置が識別可能に前記ユーザに提示する請求項2~6のいずれか一項に記載のプログラム。 The second evaluation result is attached with an identifier that identifies the other terminal device that has received the audio data,
7. The program according to any one of claims 2 to 6, wherein, in the step of presenting the second evaluation result to the user, the second evaluation result is presented to the user in an identifiable manner by another terminal device. .
前記第1の評価結果として出力するステップでは、前記復号化の際のパケットロス率に基づいて前記音声データの状態を評価する
請求項2~8のいずれか一項に記載のプログラム。 the step of receiving the audio data includes receiving the audio data that has been encoded and converted into packets and decoding the audio data;
9. The program according to any one of claims 2 to 8, wherein in the outputting as the first evaluation result, the state of the audio data is evaluated based on the packet loss rate during the decoding.
前記第2の評価結果を前記ユーザに提示するステップでは、少なくとも1つ以外の前記第2の評価結果を除去する請求項13に記載のプログラム。 In the step of receiving the second evaluation result, receiving evaluations of the state of the audio data based on the quality of the audio data from the plurality of other terminal devices;
14. The program according to claim 13, wherein in the step of presenting the second evaluation results to the user, the second evaluation results other than at least one are removed.
前記第1の評価結果として出力するステップでは、前記第1の評価結果に前記端末装置を特定する第2識別子を付し、
前記第1の評価結果を前記他の端末装置に返信するステップでは、前記第2識別子が付された前記第1の評価結果を、前記第1識別子により特定される前記他の端末装置を送信先として送信する
請求項1~14のいずれか一項に記載のプログラム。 In the step of receiving the voice data, the voice data to which a first identifier specifying the other terminal device is assigned is received;
In the step of outputting as the first evaluation result, attaching a second identifier specifying the terminal device to the first evaluation result,
In the step of returning the first evaluation result to the other terminal device, the first evaluation result to which the second identifier is attached is sent to the other terminal device specified by the first identifier. 15. The program according to any one of claims 1 to 14, which is transmitted as.
前記端末装置の前記ユーザから発せられた音声に基づく前記音声データの品質の評価結果である第3の評価結果を前記ユーザに提示するステップと
をさらに実行させる請求項1~15のいずれか一項に記載のプログラム。 evaluating the quality of the voice data based on the voice uttered by the user of the terminal device;
and presenting to the user a third evaluation result, which is an evaluation result of the quality of the voice data based on the voice uttered by the user of the terminal device. program described in .
前記プログラムは、前記プロセッサに、
前記端末装置毎の入力音声の音声パワーを検出するステップと、
前記音声パワーの検出結果に基づいて、前記音声パワーの平均値及び分散を算出するステップと、
算出した前記平均値及び前記分散に基づいて、前記複数の端末装置を利用する各々の発話者の前記音声パワーと前記平均値とのずれが所定値以上であるか否かを判定するステップと、
前記音声パワーと前記平均値とのずれが所定値以上であると判定された前記発話者に対して第4の判定結果を提示するステップと
を実行させるプログラム。 A program for operating a server that includes a processor and a memory and transmits and receives audio data between a plurality of terminal devices,
The program causes the processor to:
detecting the audio power of the input audio for each of the terminal devices;
calculating an average value and a variance of the audio power based on the detection result of the audio power;
determining whether the difference between the voice power of each speaker using the plurality of terminal devices and the average value is equal to or greater than a predetermined value, based on the calculated average value and the variance;
and presenting a fourth determination result to the speaker determined to have a difference between the voice power and the average value equal to or greater than a predetermined value.
前記音声パワーの前記平均値及び前記分散を算出するステップでは、前記識別子に基づいて現在通話をしている前記発話者が変更されたことを検出したら、前記音声パワーの前記平均値及び前記分散を算出し直す
請求項22~25のいずれか一項に記載のプログラム。 The audio data is attached with an identifier that identifies the terminal device that sent the audio data,
In the step of calculating the average value and the variance of the voice power, when it is detected that the speaker who is currently speaking is changed based on the identifier, the average value and the variance of the voice power are calculated. 26. The program according to any one of claims 22 to 25, which recalculates.
前記プロセッサは、
前記他の装置から送信された前記音声データを受信するステップと、
受信した前記音声データの状態を評価して第1の評価結果として出力するステップと、
前記第1の評価結果を前記他の装置に返信するステップと、
前記受信した前記音声データに基づく音声をユーザに出力するステップと
を実行する装置。 A device comprising a processor and memory and capable of transmitting and receiving audio data to and from another device,
The processor
receiving the audio data transmitted from the other device;
evaluating the state of the received audio data and outputting it as a first evaluation result;
returning the first evaluation result to the other device;
and outputting audio based on the received audio data to a user.
前記プロセッサは、
前記他のコンピュータから送信された前記音声データを受信するステップと、
受信した前記音声データの状態を評価して第1の評価結果として出力するステップと、
前記第1の評価結果を前記他のコンピュータに返信するステップと、
前記受信した前記音声データに基づく音声をユーザに出力するステップと
を実行する方法。 A computer-implemented method comprising a processor and memory and capable of transmitting and receiving audio data to and from another computer, comprising:
The processor
receiving the audio data transmitted from the other computer;
evaluating the state of the received audio data and outputting it as a first evaluation result;
returning the first evaluation result to the other computer;
and outputting audio to a user based on the received audio data.
前記端末装置は、
前記他の端末装置から送信された前記音声データを受信する手段と、
受信した前記音声データの状態を評価して第1の評価結果として出力する手段と、
前記第1の評価結果を前記他の端末装置に返信する手段と、
前記受信した前記音声データに基づく音声をユーザに出力する手段と
を具備するシステム。 A system capable of transmitting and receiving audio data between a terminal device and another terminal device,
The terminal device
means for receiving the audio data transmitted from the other terminal device;
means for evaluating the state of the received audio data and outputting it as a first evaluation result;
means for returning the first evaluation result to the other terminal device;
and means for outputting to a user voice based on the received voice data.
前記プロセッサは、
前記端末装置毎の入力音声の音声パワーを検出するステップと、
前記音声パワーの検出結果に基づいて、前記音声パワーの平均値及び分散を算出するステップと、
算出した前記平均値及び前記分散に基づいて、前記複数の端末装置を利用する各々の発話者の前記音声パワーと前記平均値とのずれが所定値以上であるか否かを判定するステップと、
前記音声パワーと前記平均値とのずれが所定値以上であると判定された前記発話者に対して第4の判定結果を提示するステップと
を実行する装置。 A device for transmitting and receiving voice data between a plurality of terminal devices, comprising a processor and a memory,
The processor
detecting the audio power of the input audio for each of the terminal devices;
calculating an average value and a variance of the audio power based on the detection result of the audio power;
determining whether the difference between the voice power of each speaker using the plurality of terminal devices and the average value is equal to or greater than a predetermined value, based on the calculated average value and the variance;
and presenting a fourth determination result to the speaker determined to have a difference between the voice power and the average value equal to or greater than a predetermined value.
前記プロセッサは、
前記端末装置毎の入力音声の音声パワーを検出するステップと、
前記音声パワーの検出結果に基づいて、前記音声パワーの平均値及び分散を算出するステップと、
算出した前記平均値及び前記分散に基づいて、前記複数の端末装置を利用する各々の発話者の前記音声パワーと前記平均値とのずれが所定値以上であるか否かを判定するステップと、
前記音声パワーと前記平均値とのずれが所定値以上であると判定された前記発話者に対して第4の判定結果を提示するステップと
を実行する方法。 1. A computer-implemented method, comprising a processor and memory, for transmitting and receiving audio data between a plurality of terminal devices, the method comprising:
The processor
detecting the audio power of the input audio for each of the terminal devices;
calculating an average value and a variance of the audio power based on the detection result of the audio power;
determining whether the difference between the voice power of each speaker using the plurality of terminal devices and the average value is equal to or greater than a predetermined value, based on the calculated average value and the variance;
and presenting a fourth determination result to the speaker determined to have a difference between the voice power and the average value equal to or greater than a predetermined value.
前記サーバは、
前記端末装置毎の入力音声の音声パワーを検出する手段と、
前記音声パワーの検出結果に基づいて、前記音声パワーの平均値及び分散を算出する手段と、
算出した前記平均値及び前記分散に基づいて、前記複数の端末装置を利用する各々の発話者の前記音声パワーと前記平均値とのずれが所定値以上であるか否かを判定する手段と、
前記音声パワーと前記平均値とのずれが所定値以上であると判定された前記発話者に対して第4の判定結果を提示する手段と
を具備するシステム。
A system having a plurality of terminal devices and a server for transmitting and receiving voice data between the plurality of terminal devices,
The server is
means for detecting audio power of input audio for each terminal device;
means for calculating an average value and variance of the audio power based on the detection result of the audio power;
means for determining whether a difference between the voice power of each speaker using the plurality of terminal devices and the average value is equal to or greater than a predetermined value, based on the calculated average value and the variance;
and means for presenting a fourth determination result to the speaker determined to have a difference between the voice power and the average value equal to or greater than a predetermined value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021195194A JP2023081469A (en) | 2021-12-01 | 2021-12-01 | Program, apparatus, method, and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021195194A JP2023081469A (en) | 2021-12-01 | 2021-12-01 | Program, apparatus, method, and system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023081469A true JP2023081469A (en) | 2023-06-13 |
Family
ID=86728045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021195194A Pending JP2023081469A (en) | 2021-12-01 | 2021-12-01 | Program, apparatus, method, and system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023081469A (en) |
-
2021
- 2021-12-01 JP JP2021195194A patent/JP2023081469A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6381153B2 (en) | User terminal and method and apparatus for adjusting volume of terminal | |
US7974392B2 (en) | System and method for personalized text-to-voice synthesis | |
TWI333778B (en) | Method and system for enhanced conferencing using instant messaging | |
US9253303B2 (en) | Signal processing apparatus and storage medium | |
US20050048992A1 (en) | Multimode voice/screen simultaneous communication device | |
JP2008099330A (en) | Information processor, and portable telephone set | |
EP1804237A1 (en) | System and method for personalized text to voice synthesis | |
US11089541B2 (en) | Managing communication sessions with respect to multiple transport media | |
US10255266B2 (en) | Relay apparatus, display apparatus, and communication system | |
US20160323438A1 (en) | Server providing a quieter open space work environment | |
US20210314704A1 (en) | Systems and methods for distinguishing audio using positional information | |
US6687338B2 (en) | Call waiting notification | |
US9237224B2 (en) | Text interface device and method in voice communication | |
KR101609585B1 (en) | Mobile terminal for hearing impaired person | |
US9094514B2 (en) | Aural volume feedback in call center | |
JP2023081469A (en) | Program, apparatus, method, and system | |
JP2019184800A (en) | Information processor, program, and information processing system | |
JP4232453B2 (en) | Call voice text conversion system | |
JP5136823B2 (en) | PoC system with fixed message function, communication method, communication program, terminal, PoC server | |
KR100929531B1 (en) | Information provision system and method in wireless environment using speech recognition | |
EP1009145A1 (en) | Message control system | |
US11509993B2 (en) | Ambient noise detection using a secondary audio receiver | |
KR101778548B1 (en) | Conference management method and system of voice understanding and hearing aid supporting for hearing-impaired person | |
JP7331976B2 (en) | Information processing device, program, and information processing system | |
JP7233901B2 (en) | Information presentation system, information presentation device, information presentation method, and computer program |