JP2017220807A - Voice data collection system - Google Patents
Voice data collection system Download PDFInfo
- Publication number
- JP2017220807A JP2017220807A JP2016114027A JP2016114027A JP2017220807A JP 2017220807 A JP2017220807 A JP 2017220807A JP 2016114027 A JP2016114027 A JP 2016114027A JP 2016114027 A JP2016114027 A JP 2016114027A JP 2017220807 A JP2017220807 A JP 2017220807A
- Authority
- JP
- Japan
- Prior art keywords
- voice data
- user
- voice
- data collection
- collection system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、特定・不特定の多数のユーザからデータを収集する技術に関し、特に、ユーザの音声のデータを収集する音声データ収集システムに適用して有効な技術に関するものである。 The present invention relates to a technique for collecting data from a large number of specific and unspecified users, and more particularly to a technique that is effective when applied to a voice data collection system that collects voice data of users.
本人でも分かりづらい常に変化している心の状態を、人が日常的に発する音声に基づいて把握するという音声病態分析技術がある。この技術では、人の声に含まれる、その人が自然に出してしまった不随意の成分(本音)と、自分が相手に伝えようとして出した随意の成分(建前)のうち、不随意の成分に基づいて感情の状態を数値化・可視化する。 There is a speech pathological analysis technique that grasps a constantly changing mental state that is difficult for the person to understand based on speech that a person utters daily. In this technology, the involuntary component included in the voice of the person (the real intention) that the person naturally put out and the voluntary component that the person tried to convey to the other party (the erection) Quantify and visualize emotional states based on ingredients.
この技術を利用して、人が日常的に発する音声を収集・分析して心の状態をモニタリングし、分析結果を可視化することができるMIMOSYS(Mind Monitoring Systems、非特許文献1、登録商標(以下同様))というシステムも開発されている(詳細は、例えば、特開2015−128579号公報(特許文献1)を参照)。これによれば、心の状態が普通、上向き、活発である状態や、時には低調で休息が必要である状態等、ユーザのストレスや心の状態を計測して数値として表すことができる。そして、この技術を広く活用することにより、「うつ」状態等の心身の異常を本人が自覚する前に早期に検知し、適切な治療や対処を行うことで未然に疾病を防ぐことが可能になると期待される。 Using this technology, MIMSYS (Mind Monitoring Systems, Non-Patent Document 1, Registered Trademark (hereinafter referred to as the “registered trademark”)) can collect and analyze voices uttered daily by a person, monitor the state of the mind, and visualize the analysis results. The same system is also developed (see, for example, JP-A-2015-128579 (Patent Document 1) for details). According to this, it is possible to measure and express the user's stress and the state of the heart as a numerical value, such as a state in which the state of the heart is normal, upward, and active, or a state in which the state is low and sometimes needs rest. And by widely utilizing this technology, it is possible to detect illnesses such as “depression” at an early stage before the person becomes aware of it, and prevent diseases by taking appropriate treatment and countermeasures. Expected to be.
上述した従来技術では、例えば、スマートフォン等の携帯端末に導入されたアプリケーションプログラムの機能により、音声の収集・解析から可視化までを行うことが可能である。 In the above-described conventional technology, for example, it is possible to perform from voice collection / analysis to visualization by the function of an application program installed in a mobile terminal such as a smartphone.
一方で、携帯端末に導入されたアプリケーションを用いる場合、ユーザが当該アプリケーションを導入し、起動した上で能動的に音声を発話しなければならない。この点、例えば、ユーザが携帯電話で一般の通話を行う際にその通話内容を取得することも有効であると考えられるが、電話による通話自体がいつ行われるか不確定である。よって、これらの手法のみでは、ユーザの音声データを収集するという点で不確実性が高く、また効率性も高くない。国民全体として疾病を未然に防ぐという目的を実現するため、幅広いユーザに様々な場面や状況において広く利用してもらえるような音声データの収集の仕組みが必要である。 On the other hand, when using an application installed in a portable terminal, the user must speak the voice actively after installing and starting the application. In this regard, for example, it is considered effective to acquire the contents of a call when the user makes a general call with a mobile phone, but it is uncertain when the call by the telephone itself is performed. Therefore, these methods alone are highly uncertain and efficient in collecting user voice data. In order to realize the purpose of preventing illness as a whole, it is necessary to have a voice data collection mechanism that can be widely used by various users in various situations and situations.
そこで本発明の目的は、より自然で効率的かつ確実に音声データを収集できる音声データ収集システムを提供することにある。 Accordingly, an object of the present invention is to provide an audio data collection system that can collect audio data more naturally, efficiently and reliably.
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。 The above and other objects and novel features of the present invention will be apparent from the description of this specification and the accompanying drawings.
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。 Of the inventions disclosed in this application, the outline of typical ones will be briefly described as follows.
本発明の代表的な実施の形態による音声データ収集システムは、ユーザの発話に係る音声データを収集する音声データ収集システムであって、1つ以上の拠点のそれぞれに対して構成された、PBXと、CTIサーバと、IVRサーバと、を有し、前記ユーザから受けた電話での通話における前記ユーザの発話を前記音声データとして取得する音声データ収集環境と、前記各音声データ収集環境における前記各IVRサーバとネットワークを介して接続され、前記各IVRサーバから取得した前記音声データを処理して処理結果を前記ユーザの情報処理端末に対して閲覧可能とする音声分析サーバと、を有するものである。 An audio data collection system according to an exemplary embodiment of the present invention is an audio data collection system that collects audio data related to a user's utterance, and is configured for each of one or more sites. , A CTI server, and an IVR server, and a voice data collection environment for acquiring the user's utterance in a telephone call received from the user as the voice data, and each IVR in each voice data collection environment A voice analysis server that is connected to a server via a network and that processes the voice data acquired from each of the IVR servers and allows the processing result to be viewed on the information processing terminal of the user.
そして、前記音声データ収集環境は、前記ユーザから受けた電話での通話において、前記ユーザに対して回答を求める質問を発出し、前記質問に対する前記ユーザからの回答に係る発話を録音して前記音声データとし、前記音声データが所定の数に達するまで、前記質問の発出と前記ユーザからの回答に係る前記音声データの取得とを繰り返す。 The voice data collection environment issues a question asking the user for an answer in a telephone call received from the user, records an utterance related to the answer from the user to the question, and records the voice As the data, until the voice data reaches a predetermined number, the issuing of the question and the acquisition of the voice data related to the answer from the user are repeated.
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。 Among the inventions disclosed in the present application, effects obtained by typical ones will be briefly described as follows.
すなわち、本発明の代表的な実施の形態によれば、より自然で効率的かつ確実に音声データを収集できる音声データ収集システムを提供することにある。 That is, according to a typical embodiment of the present invention, it is an object to provide an audio data collection system capable of collecting audio data more naturally, efficiently and reliably.
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。一方で、ある図において符号を付して説明した部位について、他の図の説明の際に再度の図示はしないが同一の符号を付して言及する場合がある。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that components having the same function are denoted by the same reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted. On the other hand, parts described with reference numerals in some drawings may be referred to with the same reference numerals although not illustrated again in the description of other drawings.
<システム構成>
図1は、本発明の一実施の形態である音声データ収集システムの構成例について概要を示した図である。本実施の形態の音声データ収集システム1は、ユーザ2が電話機51やスマートフォン52を介して発話した音声を取得・収集するとともに、これを上述のMIMOSYS等の音声病態分析エンジンにより分析し、その結果をユーザ2が閲覧可能なように可視化するシステムである。
<System configuration>
FIG. 1 is a diagram showing an outline of a configuration example of an audio data collection system according to an embodiment of the present invention. The voice data collection system 1 according to the present embodiment acquires and collects voices uttered by the user 2 via the telephone 51 and the smartphone 52, and analyzes the voices using a voice pathological analysis engine such as the above-mentioned MIMSSYS, and the result. Is a system for visualizing the user 2 so that the user 2 can view it.
音声データ収集システム1は、例えば、PBX(Private Branch eXchange:構内交換機)10、CTI(Computer Telephony Integration)サーバ20、IVR(Interactive Voice Response:自動音声応答装置)サーバ30からなる音声データ収集環境、および音声分析サーバ40の各サブシステムからなる情報処理システムである。音声データ収集環境は、例えば、オフィスビル等の拠点毎に独立して複数構築することができる。
The voice data collection system 1 includes a voice data collection environment including, for example, a PBX (Private Branch eXchange) 10, a CTI (Computer Telephony Integration)
PBX10は、所定の電話番号に対応して、当該電話番号への複数のユーザ2からの電話機51による通話を受け付ける交換機である。電話番号は、例えばフリーダイヤル(登録商標)であってもよいしオフィスビル等における内線番号であってもよい。PBX10には、一般的に用いられるPBX機器を適宜使用することができる。なお、電話機51は、固定電話や携帯電話、スマートフォンなど特に限定されない。内線電話であってもよい。 The PBX 10 is an exchange that accepts calls by the telephones 51 from a plurality of users 2 corresponding to a predetermined telephone number. The telephone number may be, for example, a free dial (registered trademark) or an extension number in an office building or the like. A commonly used PBX device can be used as the PBX 10 as appropriate. Note that the telephone 51 is not particularly limited, such as a fixed phone, a mobile phone, and a smartphone. It may be an extension telephone.
CTIサーバ20は、PBX10により受け付けた電話機51からの通話によるアクセスをIVRサーバ30等の情報処理システムに連携する機能を有するサーバ機器である。CTIサーバ20についても、一般的に用いられるCTI機器を適宜利用することができる。本実施の形態では、CTIサーバ20は、例えば、図示しないOS(Operating System)やDBMS(DataBase Management System)、CTIソフトウェア等のミドルウェア上で稼働するソフトウェアプログラムやスクリプト等として実装された収集制御部21を有する。収集制御部21は、後述するIVRサーバ30と連携して、ユーザ2から発話に伴う音声データを取得・収集するための一連の処理フローを実行・制御する。
The
IVRサーバ30は、CTIサーバ20と連携し、ユーザ2の電話機51による通話に対して予め設定された内容に基づいて所定の音声ガイダンスを出力する機能を有するサーバ機器である。本実施の形態では、一般的なCTI/IVRによる音声案内システムやコールセンターシステムでの利用形態とは異なり、通話内容からユーザ2の音声データを取得して音声データDB34に記録するため、ユーザ2に発話を促すような音声ガイダンスを行うものである。
The
IVRサーバ30は、例えば、図示しないOSやDBMS、IVRソフトウェア等のミドルウェア上で稼働するソフトウェアプログラムやスクリプト等として実装された認証部31および音声収集部32などの各部を有する。また、データベース等として実装された認証マスタデータベース(DB)33および音声データDB34等の各データストアを有する。
The IVR
認証部31は、電話機51からの通話によるアクセスを行っているユーザ2に対する認証を行う機能を有する。本実施の形態では、後述するように、ユーザ2が電話機51を操作して一連の数字をプッシュすることによりIDコードを入力し、入力されたIDコードが認証マスタDB33に登録されているか否かを認証部31が照合することにより認証を行う。認証手法はこれに限られず、例えば、IDコード以外の他の情報を入力させてこれを照合するようにしてもよい。また、後述する音声収集部32により取得したユーザ2の音声の情報に基づいて、公知の声紋認証技術等を用いて認証を行なってもよい。
The
音声収集部32は、予め音声ガイダンス情報35に登録されている音声ガイダンスのパターンに基づいて、ユーザ2からの電話機51による通話に対して音声でのガイダンスを自動的に行う機能を有する。そして、ガイダンスに対する応答としてユーザ2が発話した音声の内容をデジタルデータとして録音し、音声データDB34に記録する。
The
音声の情報に基づいて、後述する音声分析サーバ40で音声病態分析を精度よく行うには、発話として区切ることができる単位での音声データを複数個(例えば、7、8個程度)取得することが望ましい。本実施の形態では、後述するように、複数個の音声データを取得できるよう、音声ガイダンスとして複数個の質問をユーザ2に対して発出し、その回答を音声データとしてそれぞれ記録するものとする。
In order to accurately analyze the voice pathological condition by the
質問は、予め設定された一定のパターンのものを毎回用いてもよいし、予め用意した質問候補の中から必要数の質問をランダムもしくは所定の基準により選択して用いるようにしてもよい。ユーザ2のIDコードに基づいて認証マスタDB33等からユーザの属性情報を取得し、これに応じて質問を切り替えてもよい。また、回答内容を即時に音声認識して解析し、回答内容に応じて質問を切り替えてもよい。
Questions with a predetermined pattern may be used each time, or a required number of questions may be selected from among candidate questions prepared in advance at random or based on a predetermined standard. The user attribute information may be acquired from the
上記のPBX10、CTIサーバ20、およびIVRサーバ30からなる音声データ収集環境により、ユーザ2が電話機51を利用して通話を行った際の音声データを収集するサービスを提供する。本実施の形態では、音声データの収集手段はこれに限られない。例えば、ユーザ2がスマートフォン52を利用してスマートフォン52上に録音した音声データを用いることもできる。この場合は、電話サービスのキャリアの通話品質に左右されずに音声データを取得することが可能である。これらの手段により収集された音声データは、収集手段による区別なく共通に、後述する音声分析サーバ40での分析のために用いられる。このように、音声データの収集手段を複数設けることにより、ユーザ2の状況に応じた簡易・適切な手段で音声データを収集することが可能となる。
The voice data collection environment including the
音声分析サーバ40は、各音声データ収集環境のIVRサーバ30や、ユーザ2が使用するスマートフォン52等から音声データを取得して音声データDB45として記録し、その内容を上述のMIMOSYS等の音声病態分析エンジンにより分析し、結果をユーザ2が閲覧可能なように可視化するサーバ機器である。例えば、クラウドコンピューティング環境に構築された仮想サーバにより構成され、各拠点の音声データ収集環境に対して音声病態分析の機能をクラウドサービスとして提供する構成とすることができる。
The
本実施の形態の音声分析サーバ40は、例えば、図示しないOSやDBMS、Webサーバプログラム等のミドルウェア上で稼働するソフトウェアプログラムとして実装された音声データ取得部41、音声分析部42、分析結果処理部43、およびユーザインタフェース(IF)部44などの各部を有する。また、データベース等として実装された音声データDB45、ユーザマスタDB46、および分析結果DB47などの各データストアを有する。
The
音声データ取得部41は、音声データ収集環境のIVRサーバ30や、ユーザ2が使用するスマートフォン52等から音声データを取得し、音声データDB45として記録する機能を有する。例えば、各拠点のIVRサーバ30にて取得された音声データDB34のうち未処理のものは、一定時間毎(例えば1時間毎)のバッチ処理にて音声分析サーバ40に送信される。音声データのサイズやネットワークの帯域等との関係で、リアルタイムもしくはこれに近い状態での送信が可能な場合は、IVRサーバ30で取得された音声データを、都度リアルタイムで音声分析サーバ40に送信する構成とすることも可能である。
The voice
また、スマートフォン52上の図示しないアプリケーションからリアルタイムで送信される音声データを受信して音声データDB45に記録するようにしてもよい。音声データ取得部41は、音声データ収集環境のIVRサーバ30やユーザ2のスマートフォン52から送信された音声データについて、必要に応じてフォーマット変換する等の処理や加工を行って音声データDB45に記録する。
Further, audio data transmitted in real time from an application (not shown) on the smartphone 52 may be received and recorded in the
音声分析部42は、音声データDB45に記録されたユーザ2毎の音声データについて、音声病態分析を行なって心の状態(現在の状態、時系列での変化の状況)を把握する機能を有する。本実施の形態では、上述のMIMOSYS等の音声病態分析エンジンを含んで実装される。音声データDB45に新たに音声データが記録されたことをトリガーとして、未処理の音声データについて都度リアルタイムで分析を行うようにしてもよいし、一定時間毎(例えば1時間毎)に、音声データDB45に蓄積されている未処理の音声データについて一括して分析を行うようにしてもよい。
The
分析結果処理部43は、音声分析部42により音声病態分析が行われた結果を取得して、これをユーザ2毎に可視化して分析結果DB47に記録する機能を有する。可視化とは、例えば、分析結果の出力データを、ユーザ2に提示できるような文字情報や数値情報、評価情報等に変換等するとともに、情報処理端末53上に表示できるような画面データや画像データを生成する処理を含む。このとき、例えば、ユーザ2毎の属性情報や独自の設定情報等を保持するユーザマスタDB46を参照して、ユーザ2に即した可視化を行うようにしてもよい。
The analysis
ユーザIF部44は、情報処理端末53を介したユーザ2からの要求を受け付けて、分析結果DB47に記録された可視化されたデータを情報処理端末53の画面上に表示させる機能を有する。まだユーザ登録しておらず、IDコード等のアカウント情報を有していない不特定のユーザ2に対して、新たにアカウント情報を登録してIDコードを発行する機能を有していてもよい。
The user IF
なお、情報処理端末53は、例えば、PC(Personal Computer)や、スマートフォン、タブレット型端末などの汎用の情報処理端末を適宜利用することができる。音声データ録音用のスマートフォン52を有している場合はこれをそのまま情報処理端末53として用いてもよい。1人のユーザ2が状況に応じて複数種類の情報処理端末53を使い分けてもよい。ユーザ2は、例えば、情報処理端末53上の図示しないWebブラウザを利用してクラウドコンピューティング環境上の音声分析サーバ40にアクセスする。
As the information processing terminal 53, for example, a general-purpose information processing terminal such as a PC (Personal Computer), a smartphone, or a tablet terminal can be used as appropriate. When the smartphone 52 for recording voice data is provided, it may be used as the information processing terminal 53 as it is. One user 2 may use different types of information processing terminals 53 depending on the situation. For example, the user 2 accesses the
図1の例では、PBX10、CTIサーバ20、IVRサーバ30、および音声分析サーバ40をそれぞれ個別の機器やサーバシステムとして構成しているが、このような構成に限られない。さらに複数のサーバシステム等に機能を分散して構成してもよいし、逆に複数のサーバシステムの機能を1つのサーバシステムに集約して構成してもよい。
In the example of FIG. 1, the
<処理の流れ(電話での通話を介した音声データの収集)>
図2は、本実施の形態における音声データの収集と分析に係る処理の流れの例について概要を示した図である。ここでは、ユーザ2が電話機51を用いて行った通話から音声データ収集環境が音声データを取得・収集する場合について示す。まず、ユーザ2が電話機51により所定の電話番号に電話をかける(S01)。この電話を、対応する拠点すなわち音声データ収集環境のPBX10が受けると、まず、対応するCTIサーバ20の収集制御部21等により、サービス時間内であるか否かの判定を行う(S02)。サービス時間外である場合は、図示しないが、対応するIVRサーバ30の音声収集部32と連携してその旨の音声ガイダンスをユーザ2の電話機51に応答して、通話を終了する、すなわち全体の処理を終了する。
<Processing flow (voice data collection via telephone call)>
FIG. 2 is a diagram showing an outline of an example of the flow of processing related to the collection and analysis of audio data in the present embodiment. Here, a case where the voice data collection environment acquires and collects voice data from a call made by the user 2 using the telephone 51 will be described. First, the user 2 makes a call to a predetermined telephone number by the telephone 51 (S01). When this call is received by the corresponding base, that is, the
サービス時間内である場合は、IVRサーバ30の音声収集部32と連携して、ユーザの認証を行うためにIDコード等の識別情報の入力を促す音声からなる認証ガイダンスをユーザ2の電話機51に応答する(S03)。ここでは、例えば、電話機51のプッシュボタンやテンキー等により、IDコードをなす一連の数字をプッシュして入力するようユーザ2に指示する。
If it is within the service time, an authentication guidance consisting of voice prompting the input of identification information such as an ID code is performed on the telephone 51 of the user 2 in cooperation with the
認証ガイダンスに従ってユーザ2がIDコード等を入力すると(S04)、CTIサーバ20の収集制御部21は、IVRサーバ30の認証部31と連携して、入力されたIDコード等が認証マスタDB33に登録されているか否かによりユーザの認証を行う(S05)。上述したように、認証の手法はこれに限られず、これに代えて、もしくはこれに加えて、例えば、ユーザ2に発話を促し、取得した音声データの声紋等を解析して認証する等の他の手法を用いてもよい。
When the user 2 inputs an ID code or the like according to the authentication guidance (S04), the
認証が失敗した場合、すなわち入力されたIDコード等が認証マスタDB33に登録されていない場合は、図示しないが、所定の回数(例えば、3回)のリトライを許容する。所定のリトライ回数をオーバーした場合は、認証できなかった旨の音声ガイダンスをユーザ2の電話機51に応答して、通話を終了する。
If the authentication fails, that is, if the input ID code or the like is not registered in the
認証が成功した場合は、IVRサーバ30の音声収集部32と連携して、ユーザ2に対して所定の質問を行う音声ガイダンスをユーザ2の電話機51に応答する(S06)。ユーザ2が電話機51により質問に対する回答を発話すると(S07)、CTIサーバ20の収集制御部21は、IVRサーバ30の音声収集部32と連携して、発話内容を音声データとして録音する(S08)。得られた音声データは音声データDB34に記録する。音声データが適切に取得できなかった場合や、録音できなかった場合は、図示しないが、所定の回数(例えば、3回)のリトライを許容する。リトライ回数をオーバーした場合は、音声データが取得できなかった旨の音声ガイダンスをユーザ2の電話機51に応答して、通話を終了する。
When the authentication is successful, in cooperation with the
音声データが録音できた場合は、当該通話中で音声データの録音が所定の回数できたか否か、すなわち、音声データを所定の数以上取得できたか否かを判定する(S09)。所定の数に満たない場合は、ステップS06に戻って次(n個目)の質問を行う。音声データを取得する所定の数は、音声分析サーバ40の音声分析部42で用いられる音声病態分析エンジンの仕様や必要な精度等に応じて適宜設定する。例えば、MIMOSYSの場合は現在7個以上の音声データがあればよいとされる。
If the voice data can be recorded, it is determined whether or not the voice data has been recorded a predetermined number of times during the call, that is, whether or not a predetermined number or more of voice data has been acquired (S09). If it is less than the predetermined number, the process returns to step S06 to ask the next (nth) question. The predetermined number for acquiring the voice data is appropriately set according to the specifications of the voice pathological analysis engine used in the
所定の数の音声データを取得できた場合は、IVRサーバ30の音声収集部32と連携して、質問を終了して通話を終了する旨の終了ガイダンスをユーザ2の電話機51に応答する(S10)。そして、ユーザ2は電話機51による通話を終了する(S11)。CTIサーバ20の収集制御部21が主導して通話を終了してもよい。なお、所定の数の音声データが取得できる前にユーザ2との通話が切れた場合は、それまでに取得できた音声データのみを用いるようにしてもよい。
When a predetermined number of voice data can be acquired, in cooperation with the
このように、本実施の形態では、所定の数の質問を繰り返して回答の音声データを取得する。上述したように、質問は、予め定められたパターンのものを毎回用いてもよいし、予め用意した質問候補の中から必要数の質問をランダムもしくは所定の基準により選択して用いるようにしてもよい。ユーザ2のIDコードに基づいてユーザの属性情報を取得し、これに応じて質問を切り替えてもよいし、回答内容を即時に音声認識して解析し、回答内容に応じて質問を切り替えてもよい。このような変化をつけることにより、ユーザ2をできるだけ飽きさせないようにすることができる。 As described above, in the present embodiment, a predetermined number of questions are repeated to obtain answer voice data. As described above, the question may be used in a predetermined pattern every time, or a necessary number of questions may be selected from random candidate questions or selected based on a predetermined criterion. Good. The user attribute information may be acquired based on the ID code of the user 2 and the question may be switched according to the user's attribute information, or the answer content may be immediately recognized and analyzed, and the question may be switched according to the answer content. Good. By giving such a change, it is possible to prevent the user 2 from getting bored as much as possible.
全ての質問が異なるものであることが要求されない場合には、各質問のうち1つ以上が他と同じ内容の質問であってもよい。また、音声データの収集のみを目的としてユーザ2に発話させるのではなく、例えば、電話予約など電話による他の業務やサービスと組み合わせ、その際に発話される内容を取得して転用するようにしてもよい。 If not all questions are required to be different, one or more of each question may be the same content as the others. Also, instead of letting the user 2 speak only for the purpose of collecting voice data, for example, it is combined with other services and services by telephone such as telephone reservation, and the contents spoken at that time are acquired and diverted. Also good.
上記の一連の処理により録音された音声データは、例えば、1時間毎等の一定時間毎にIVRサーバ30から音声分析サーバ40に転送される(S21)。音声分析サーバ40では、音声データ取得部41により、取得した音声データを音声データDB45に記録する(S22)。そして、例えば一定時間毎に、未処理の音声データに対して、音声分析部42により音声病態分析の処理を行う(S23)。処理を行った音声データは、プライバシー等を考慮して削除するのが望ましい。その後、分析結果の内容を分析結果処理部43により可視化して分析結果DB47に記録する処理を行う(S24)。この一連の処理により、ユーザ2が分析結果を表示・閲覧する準備が完了したことになる。分析が完了した旨を対象のユーザ2に対して電子メールやプッシュ通知等により通知するようにしてもよい。
The voice data recorded by the above series of processes is transferred from the
ユーザ2は、音声分析サーバ40での分析の完了後の任意のタイミングで、情報処理端末53上のWebブラウザ等を利用して音声分析サーバ40のユーザIF部44にアクセスし、アカウント情報を入力してログインする(S31)。アカウント情報としては、例えば、ユーザ2のIDコードとパスワードを用いることができるが、他のアカウント情報であってもよく、また、生体認証等の他の手法のための認証情報を含んでいてもよい。
The user 2 accesses the user IF
音声分析サーバ40では、ユーザマスタDB46の登録内容に基づいてユーザ認証を行う(S32)。認証が失敗した場合、すなわち入力されたIDコードやパスワード等がユーザマスタDB46に登録されていない場合や登録されている内容と合致しない場合は、図示しないが、認証できなかった旨の画面を情報処理端末53上に表示して処理を終了する。
The
認証が成功した場合は、分析結果DB47から対象のユーザ2に係る分析結果のデータを取得して、表示画面(例えば、HTML(HyperText Markup Language)データ)を生成して出力する(S33)。情報処理端末53では、図示しないWebブラウザ上で、出力された分析結果の画面を表示する(S34)。これにより、ユーザ2は、自身の発話に係る音声データに対して音声病態分析を行った結果として、心の状態を把握することができる。
When the authentication is successful, the analysis result data relating to the target user 2 is acquired from the
<画面例>
図3は、音声分析サーバ40での分析結果として情報処理端末53上に表示される画面の例について概要を示した図である。図示しないログイン画面において、ユーザ2がIDコードやパスワード等のアカウント情報を入力してログインした後、例えば、図3(a)に示すような分析結果の画面が表示される。この画面では、「心の活量値」として、時系列(例えば、直近の2週間等)での変化の状況に基づく評価を示している。ここでは、例えば、計測値の範囲を数段階に区分して、計測値に対応する区分の内容(図中の例では「キラキラ★」を示すことで、ユーザ2が直感的に理解しやすいようにしている。
<Screen example>
FIG. 3 is a diagram showing an outline of an example of a screen displayed on the information processing terminal 53 as an analysis result in the
また、ユーザ2が画面を切り替えることで、図3(b)に示すような分析結果の画面が表示される。この画面では、「元気圧」として、対象の通話を行った時点、すなわち音声データを取得した時点での心の元気さの評価を、ユーザ2が直感的に把握しやすいようにメーターの画像により示している。これらの画面では、いずれも、過去の分析結果の履歴についても閲覧することが可能である。なお、図3に示した画面はあくまで一例であり、他の表示形式をとってもよいことは言うまでもない。 Further, when the user 2 switches the screen, an analysis result screen as shown in FIG. 3B is displayed. On this screen, as the “original pressure”, the evaluation of the spirit at the time when the target call is made, that is, when the voice data is acquired, is displayed on the meter image so that the user 2 can easily grasp intuitively. Show. In any of these screens, it is possible to browse the history of past analysis results. Note that the screen shown in FIG. 3 is merely an example, and it goes without saying that other display formats may be used.
<処理の流れ(スマートフォンによる音声データの収集)>
図4は、本実施の形態における音声データの収集と分析に係る処理の流れの他の例について概要を示した図である。ここでは、スマートフォン52が有する音声録音機能を用いてユーザ2が音声データを取得・収集する場合について示す。まず、ユーザ2がスマートフォン52上で専用のアプリケーションを起動する(S41、S42)。スマートフォン52上のアプリケーションは、起動すると、まず、認証画面を表示する(S43)。
<Process flow (voice data collection by smartphone)>
FIG. 4 is a diagram showing an outline of another example of the flow of processing relating to the collection and analysis of audio data in the present embodiment. Here, a case where the user 2 acquires and collects voice data using the voice recording function of the smartphone 52 will be described. First, the user 2 starts a dedicated application on the smartphone 52 (S41, S42). When the application on the smartphone 52 is activated, first, an authentication screen is displayed (S43).
認証画面の指示に従ってユーザ2がユーザIDやパスワード等のアカウント情報を入力すると(S44)、スマートフォン52のアプリケーションは、音声分析サーバ40に対して認証要求を行う(S45)。音声分析サーバ40では、ユーザマスタDB46の登録内容に基づいてユーザ認証を行う(S46)。認証が失敗した場合、すなわち入力されたIDコードやパスワード等がユーザマスタDB46に登録されていない場合や登録されている内容と合致しない場合は、図示しないが、認証できなかった旨の画面をスマートフォン52のアプリケーションに表示して処理を終了する。
When the user 2 inputs account information such as a user ID and a password according to the instruction on the authentication screen (S44), the application of the smartphone 52 makes an authentication request to the voice analysis server 40 (S45). The
認証が成功した場合は、スマートフォン52のアプリケーションは、ユーザ2に対して所定の質問を行う画面を表示する(S47)。質問の内容はアプリケーションの更新や音声分析サーバ40等のサーバからのダウンロードにより、適宜変更することが可能である。ユーザ2がスマートフォン52のマイクロフォンに対して質問に対する回答を発話すると(S48)、スマートフォン52は、自身が備える音声録音機能により発話内容を音声データとして録音する(S49)。得られた音声データはメモリ等に記録しておく。音声データが適切に取得できなかった場合や、録音できなかった場合は、図示しないが、所定の回数(例えば、3回)のリトライを許容する。リトライ回数をオーバーした場合は、音声データが取得できなかった旨の画面をスマートフォン52のアプリケーション上に表示し、処理を終了する。
When the authentication is successful, the application of the smartphone 52 displays a screen for asking a predetermined question to the user 2 (S47). The contents of the question can be appropriately changed by updating the application or downloading from a server such as the
音声データが録音できた場合は、当該アプリケーションの実行中における音声データの録音が所定の回数できたか否か、すなわち、音声データを所定の数以上取得できたか否かを判定する(S50)。所定の数に満たない場合は、ステップS47に戻って次(n個目)の質問を行う。音声データを取得する所定の数は、上述の図2における電話機51の場合と同様に、音声分析サーバ40の音声分析部42で用いられる音声病態分析エンジンの仕様や必要な精度等に応じて適宜設定する。基本的には電話機51での通話品質と、スマートフォン52での録音品質との差に基づく相違はなく、例えば、MIMOSYSの場合は現在7個以上の音声データがあればよいとされる。
If the audio data can be recorded, it is determined whether or not the audio data has been recorded a predetermined number of times during execution of the application, that is, whether or not the audio data has been acquired a predetermined number or more (S50). If it is less than the predetermined number, the process returns to step S47 to ask the next (nth) question. As in the case of the telephone 51 in FIG. 2 described above, the predetermined number for acquiring the voice data is appropriately determined according to the specifications of the voice pathological analysis engine used in the
所定の数の音声データを取得できた場合は、質問を終了する旨の画面を表示する(S51)。その後、上記の一連の処理により録音された音声データを、音声分析サーバ40に転送する(S52)。音声分析サーバ40では、音声データ取得部41により、取得した音声データを音声データDB45に記録する(S53)。そして、未処理の音声データに対して、音声分析部42により音声病態分析の処理を行い(S54)、分析結果の内容を分析結果処理部43により可視化して分析結果DB47に記録する処理を行う(S55)。この一連の処理により、ユーザ2が分析結果を表示・閲覧する準備が完了する。ユーザ2は、音声データの録音後、即時もしくは短時間のうちに、スマートフォン52のアプリケーションを用いて、上述の図3に示したような分析結果を表示させて参照することができる(S56、S57)。
If a predetermined number of audio data can be acquired, a screen to end the question is displayed (S51). Thereafter, the voice data recorded by the series of processes described above is transferred to the voice analysis server 40 (S52). In the
なお、図4の例では、ステップS49でスマートフォン52上に録音された音声データを、質問が全て終了した時点で一括して音声分析サーバ40に転送しているが(ステップS52)、音声データの転送の手法はこれに限られない。例えば、ステップS49で録音された音声データをその都度音声分析サーバ40に送信するようにして、質問終了後の処理負担を軽減し、分析結果が出力されるまでの処理時間を短縮するようにしてもよい。
In the example of FIG. 4, the voice data recorded on the smartphone 52 in step S49 is transferred to the
<画面例>
図5は、スマートフォン52により音声データを収集するアプリケーションの画面例について概要を示した図である。上段左の画面は、起動時に表示される認証画面であり、この画面を介してユーザ2はユーザIDやパスワード等のアカウント情報を入力してユーザ認証を行う。なお、一度入力されたアカウント情報はCookie等を用いて保持し、次回以降は自動的に認証を行うようにしてもよい。ユーザ認証が成功すると、上段中央に示すような開始およびガイダンスの画面が表示される。ここで「スタート」ボタンを押下すると、上段右に示すような質問画面が表示され、音声データの取得処理が開始する。
<Screen example>
FIG. 5 is a diagram showing an overview of an example screen of an application that collects audio data by the smartphone 52. The upper left screen is an authentication screen displayed at the time of activation, and the user 2 performs user authentication by inputting account information such as a user ID and a password via this screen. Note that the account information once input may be stored using Cookie or the like, and authentication may be automatically performed after the next time. When the user authentication is successful, a start and guidance screen as shown in the upper center is displayed. When the “Start” button is pressed here, a question screen as shown in the upper right is displayed, and the voice data acquisition process starts.
ユーザ2は、画面の「マイク」ボタンをタップして、画面に表示されている質問事項に対する回答を発話する。このとき、画面は下段左に示すような録音中の画面となる。アプリケーションは、スマートフォン52の音声録音機能を利用して、マイクロフォンから入力されたユーザ2の発話を音声データとして録音する。ユーザ2が下段左の画面における「停止」ボタンをタップすることで録音は終了する。 The user 2 taps the “microphone” button on the screen, and utters an answer to the question item displayed on the screen. At this time, the screen is a recording screen as shown in the lower left. The application uses the voice recording function of the smartphone 52 to record the speech of the user 2 input from the microphone as voice data. Recording is ended when the user 2 taps a “stop” button on the lower left screen.
録音が終了すると、次の質問に対する処理が繰り返される。現時点で回答した質問および残りの質問の数は、画面上部の●(回答済み)、○(未回答)のマークの数により示される。所定の数の質問に対する回答(音声データの録音)が完了すると、下段中央に示すような終了画面が表示される。このとき、録音した音声データがスマートフォン52から音声分析サーバ40に自動的に送信され、音声分析サーバ40で音声病態分析の処理がリアルタイムで行われる。
When the recording is finished, the process for the next question is repeated. The number of questions that have been answered at this time and the remaining questions are indicated by the numbers of ● (answered) and ○ (unanswered) marks at the top of the screen. When answers to predetermined number of questions (recording of voice data) are completed, an end screen as shown in the lower center is displayed. At this time, the recorded voice data is automatically transmitted from the smartphone 52 to the
その後、ユーザ2は、例えば、下段右に示すようなメニュー画面から「分析結果サイトへ」という項目を選択することで、上述の図3に示したような分析結果の画面をアプリケーションもしくは連携するWebブラウザ上に表示させ、即時に分析結果を確認することができる。 Thereafter, for example, the user 2 selects an item “go to analysis result site” from the menu screen as shown on the lower right side, so that the analysis result screen as shown in FIG. It can be displayed on the browser and the analysis result can be confirmed immediately.
<データ構成>
図6は、IVRサーバ30の認証マスタDB33のデータ構成の例について概要を示した図である。認証マスタDB33は、ユーザ2毎に、音声データの取得のために電話機51により通話を行う際にユーザ認証を行うための認証データを保持するマスタテーブルであり、例えば、IDコード、およびユーザ名などの各項目を有する。
<Data structure>
FIG. 6 is a diagram showing an overview of an example of the data configuration of the
IDコードの項目は、対象のユーザ2に対してユニークに割り当てられた数桁の数字からなるコード値である。電話機51でのボタンのプッシュにより入力されるため、数字により構成されるものとしているが、入力が可能な場合には文字や記号を含んでいてもよい。ユーザ名の項目は、対象のユーザ2の属性情報としてのユーザ名や氏名の情報を保持する。例えば、ユーザ2に対する認証時に、公知のテキスト読み上げ機能によりユーザ名を音声として応答することで、対象のユーザ2として正しく認証されたことをユーザ2自身が確認できるようにしてもよい。 The ID code item is a code value composed of several digits uniquely assigned to the target user 2. Since it is input by pushing a button on the telephone 51, it is assumed to be composed of numbers. However, if input is possible, it may include characters and symbols. The user name item holds user name and name information as attribute information of the target user 2. For example, when the user 2 is authenticated, the user 2 may confirm that the user 2 has been correctly authenticated by responding with the user name as a voice by a known text-to-speech function.
図7は、IVRサーバ30の音声データDB34のデータ構成の例について概要を示した図である。音声データDB34は、ユーザ2の通話における発話毎に、録音した音声データを保持するテーブルであり、例えば、IDコード、拠点コード、通話番号、データ番号、音声データ、および録音日時などの各項目を有する。
FIG. 7 is a diagram showing an outline of an example of the data configuration of the
IDコードの項目は、対象の音声データに係る発話を行ったユーザ2を特定するコード値を保持する。この項目は、上述の図6の認証マスタDB33におけるIDコードの項目と同じである。拠点コードの項目は、対象の音声データを収集した拠点、すなわち、対象の音声データに係る通話を受けたPBX10等が属する音声データ収集環境を特定するIDやコード等の情報を保持する。PBX10に対応する電話番号であってもよい。通話番号の項目は、各ユーザ2においてそれぞれの通話を一意に識別するシーケンス番号等の情報を保持する。また、データ番号の項目は、各通話においてそれぞれの発話を一意に識別するシーケンス番号等の情報を保持する。すなわち、IDコード、通話番号、およびデータ番号の項目の組み合わせにより、音声データ収集システム1全体で対象の発話(音声データ)を一意に特定することができる。
The item of ID code holds a code value that identifies the user 2 who has made a speech related to the target voice data. This item is the same as the ID code item in the
音声データの項目は、対象の発話において録音された音声データの情報を保持する。音声データ自体を直接保持していてもよいし、音声データをファイルとして別途保持しておき、そのファイル名やパスの情報を保持するようにしてもよい。録音日時の項目は、対象の発話に係る音声データを録音したときのタイムスタンプの情報を保持する。 The audio data item holds information of audio data recorded in the target speech. The audio data itself may be held directly, or the audio data may be held separately as a file, and the file name and path information may be held. The recording date / time item holds time stamp information when the voice data related to the target speech is recorded.
図8は、音声分析サーバ40の音声データDB45のデータ構成の例について概要を示した図である。音声データDB45は、各拠点のIVRサーバ30もしくは各ユーザ2のスマートフォン52からそれぞれ送られた音声データの情報を記録するテーブルであり、基本的には上述の図7の音声データDB34と同様のデータ構成を有する。スマートフォン52からの音声データも含むため、電話機51での通話を特定する通話番号に加えて、スマートフォン52での各発話を特定する発話番号の情報も保持できるよう、通話番号の項目に代えて通話・発話番号の項目を有している。また、音声データDB34のデータ構成に加えて、例えば、分析状況などの項目を有する。分析状況の項目は、対象の音声データについての分析が実施済みか未済かを識別するコード値やフラグ等の情報を保持する。
FIG. 8 is a diagram showing an outline of an example of the data configuration of the
図9は、音声分析サーバ40のユーザマスタDB46のデータ構成の例について概要を示した図である。ユーザマスタDB46は、音声データに基づく音声病態分析の結果を閲覧するためのユーザ2のアカウント情報を保持するマスタテーブルであり、例えば、IDコード、パスワード、ユーザ名、ユーザ属性情報、およびユーザ設定情報などの各項目を有する。
FIG. 9 is a diagram showing an outline of an example of the data configuration of the
IDコードの項目は、対象のユーザ2を一意に識別するコード値を保持する。この項目は、上述の図6の認証マスタDB33におけるIDコードの項目と同じであってもよい。パスワードの項目は、対象のユーザ2のIDコードに対応するパスワードの情報を保持する。パスワードに加えて、もしくはこれに代えて、生体認証その他の認証手法に係る認証情報を保持していてもよい。さらに、パスワードの登録日時や更新日時等の情報を保持する項目を有していてもよい。
The ID code item holds a code value that uniquely identifies the target user 2. This item may be the same as the item of the ID code in the
ユーザ名の項目は、対象のユーザの表示名の情報を保持する。ユーザ属性情報の項目は、対象のユーザ2の各種の属性情報を保持する。例えば、性別や年齢等が含まれ得る。これらの属性情報は、例えば、音声病態分析や分析結果の可視化等の処理を行う際の参照情報とすることができる。ユーザ設定情報の項目は、対象のユーザ2により設定された独自の設定情報の内容を保持する。例えば、音声病態分析や分析結果の可視化等の処理を行う際の条件のカスタマイズや、図3に示したような分析結果を表示する画面における表示項目や表示方法のカスタマイズ等の内容を各ユーザ2がそれぞれ設定することができる。ユーザ属性情報やユーザ設定情報のデータフォーマット等は特に限定されず、任意のものとすることができる。 The item of the user name holds information on the display name of the target user. The item of user attribute information holds various attribute information of the target user 2. For example, sex and age can be included. These attribute information can be used as reference information when performing processing such as voice pathological analysis and visualization of analysis results, for example. The user setting information item holds the contents of the unique setting information set by the target user 2. For example, each user 2 can customize the contents such as customization of conditions when performing processing such as voice pathological analysis and visualization of analysis results, and customization of display items and display methods on the screen displaying the analysis results as shown in FIG. Can be set individually. The data format of user attribute information and user setting information is not particularly limited, and can be arbitrary.
図10は、音声分析サーバ40の分析結果DB47のデータ構成の例について概要を示した図である。分析結果DB47は、ユーザ2毎に、音声データに対する音声病態分析が行われた結果を可視化したデータを保持するテーブルであり、例えば、IDコード、拠点コード、通話・発話番号、分析結果データ、および分析日時などの各項目を有する。
FIG. 10 is a diagram showing an outline of an example of the data configuration of the
IDコードの項目は、対象のユーザ2を一意に識別するコード値を保持する。この項目は、上述の図9のユーザマスタDB46におけるIDコードの項目と同じである。拠点コードの項目は、対象の分析結果に係る音声データが収集された拠点を特定するシーケンス番号やコード等の情報を保持する。この項目は、上述の図7の音声データDB34や図8の音声データDB45における拠点コードの項目と同じである。
The ID code item holds a code value that uniquely identifies the target user 2. This item is the same as the ID code item in the
通話・発話番号の項目は、対象の分析結果に係る音声データを収集した通話や発話を特定するシーケンス番号等である。この項目は、上述の図7の音声データDB34や図8の音声データDB45における通話・発話番号の項目と同じである。分析結果データの項目は、対象の分析結果が可視化された内容に係る情報を保持する。データ自体を保持していてもよいし、データの所在場所のパス等を保持していてもよい。データフォーマット等は特に限定されず、任意のものとすることができる。分析日時の項目は、音声分析部42および分析結果処理部43による分析処理および分析結果の可視化の処理が行われたときのタイムスタンプの情報を保持する。
The item of the call / speech number is a sequence number or the like for identifying a call or utterance that collects voice data related to the target analysis result. This item is the same as the call / speech number item in the
なお、上述の図6〜図10で示した各テーブルのデータ構成(項目)はあくまで一例であり、同様のデータを保持・管理することが可能な構成であれば、他のテーブル構成やデータ構成であってもよい。 Note that the data configuration (items) of each table shown in FIGS. 6 to 10 is merely an example, and other table configurations and data configurations may be used as long as similar data can be held and managed. It may be.
以上に説明したように、本発明の一実施の形態である音声データ収集システム1によれば、不特定・特定の多数のユーザ2から、必要な数の音声データをより自然で効率的かつ確実に収集することができ、音声病態分析等の音声データを必要とする処理への入力とすることができる。 As described above, according to the voice data collection system 1 which is an embodiment of the present invention, a necessary number of voice data is obtained from a large number of unspecified / specific users 2 in a more natural, efficient and reliable manner. And can be used as an input to a process that requires voice data such as voice pathological analysis.
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記の各実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。 As mentioned above, the invention made by the present inventor has been specifically described based on the embodiments. However, the present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the scope of the invention. Needless to say. For example, the above-described embodiment has been described in detail for easy understanding of the present invention, and is not necessarily limited to the one having all the configurations described. In addition, it is possible to add, delete, and replace other configurations for a part of the configuration of each of the above embodiments.
例えば、上記の実施の形態では、1回の通話もしくは発話において所定の数の質問を行い、これに対する回答として所定の数の音声データを全て取得する構成としているが、このような構成に限られない。1日の単位で所定の数の音声データが得られれば、1回の通話もしくは発話で全ての数の音声データを取得することは必要ではなく、複数回の通話もしくは発話の合計で所定の数の音声データを取得するようにしてもよい。また、この場合の音声データは、図2や図4に示した一連の処理により得られたものに限られない。例えば、これとは無関係に日常生活や業務等において行われた電話等の内容についても自動的に録音しておき、ここで得られた既存の音声データも流用して全体として所定の数の音声データを確保することも可能である。 For example, in the above-described embodiment, a predetermined number of questions are asked in one call or utterance, and a predetermined number of voice data are all acquired as an answer to the question. Absent. If a predetermined number of voice data is obtained in units of one day, it is not necessary to acquire all the number of voice data in one call or utterance, and a predetermined number in total of multiple calls or utterances. The voice data may be acquired. Further, the audio data in this case is not limited to the data obtained by the series of processes shown in FIGS. For example, regardless of this, the contents of telephone calls made in daily life or business are automatically recorded, and the existing voice data obtained here is also diverted to a predetermined number of voices as a whole. It is also possible to secure data.
また、上記の実施の形態では、ユーザ2が能動的に電話機51により電話を掛けたり、スマートフォン52でアプリケーションを起動したり等の行為を行う必要があるが、これらの行為がより確実に行われるような仕組みを別途有していてもよい。例えば、毎日所定の時間に、音声データ収集環境の側からCTIサーバ20やIVRサーバ30の機能によりユーザ2に自動的に電話を掛けるようにしてもよい。当該電話に応答しない場合にはさらに一定時間後に電話を掛けるようにしてもよい。同様に、スマートフォン52上の専用アプリケーションが所定の時間に実行を促す通知を行うようにしてもよい。
Further, in the above embodiment, the user 2 needs to actively make a call with the telephone 51 or start an application with the smartphone 52, but these actions are performed more reliably. Such a mechanism may be provided separately. For example, the user 2 may be automatically called by the function of the
また、毎日所定の時間に、音声分析サーバ40による分析結果をレポートとしてユーザ2に対して電子メール等により送信し、リマインドするようにしてもよい。また、直近の利用日時(すなわち、音声データの録音と分析を行った日時)から所定の期間以上利用がない場合に電子メール等により通知するようにしてもよい。
Further, at a predetermined time every day, the analysis result by the
本発明は、ユーザの音声のデータを収集する音声データ収集システムに利用可能である。 The present invention is applicable to a voice data collection system that collects user voice data.
1…音声データ収集システム、2…ユーザ、
10…PBX、
20…CTIサーバ、21…収集制御部、
30…IVRサーバ、31…認証部、32…音声収集部、33…認証マスタDB、34…音声データDB、35…音声ガイダンス情報、
40…音声分析サーバ、41…音声データ取得部、42…音声分析部、43…分析結果処理部、44…ユーザIF部、45…音声データDB、46…ユーザマスタDB、47…分析結果DB、
51…電話機、52…スマートフォン、53…情報処理端末
1 ... voice data collection system, 2 ... user,
10 ... PBX,
20 ... CTI server, 21 ... collection control unit,
30 ... IVR server, 31 ... Authentication unit, 32 ... Voice collection unit, 33 ... Authentication master DB, 34 ... Voice data DB, 35 ... Voice guidance information,
DESCRIPTION OF
51 ... Telephone, 52 ... Smartphone, 53 ... Information processing terminal
Claims (8)
1つ以上の拠点のそれぞれに対して構成された、PBXと、CTIサーバと、IVRサーバと、を有し、前記ユーザから受けた電話での通話における前記ユーザの発話を前記音声データとして取得する音声データ収集環境と、
前記各音声データ収集環境における前記各IVRサーバとネットワークを介して接続され、前記各IVRサーバから取得した前記音声データを処理して処理結果を前記ユーザの情報処理端末に対して閲覧可能とする音声分析サーバと、を有し、
前記音声データ収集環境は、前記ユーザから受けた電話での通話において、前記ユーザに対して回答を求める質問を発出し、前記質問に対する前記ユーザからの回答に係る発話を録音して前記音声データとし、前記音声データが所定の数に達するまで、前記質問の発出と前記ユーザからの回答に係る前記音声データの取得とを繰り返す、音声データ収集システム。 An audio data collection system for collecting audio data related to a user's utterance,
A PBX, a CTI server, and an IVR server configured for each of one or more locations, and acquiring the user's utterance in a telephone call received from the user as the voice data Voice data collection environment,
Voice connected to each IVR server in each voice data collection environment via a network, processing the voice data acquired from each IVR server, and enabling processing results to be viewed on the information processing terminal of the user An analysis server,
The voice data collection environment issues a question asking the user for an answer in a telephone call received from the user, and records the utterance related to the answer from the user to the question as the voice data. The voice data collection system that repeats issuing the question and obtaining the voice data related to the answer from the user until the voice data reaches a predetermined number.
前記音声データ収集環境が前記ユーザから受けた電話での通話において発出する前記各質問は、そのうちの1つ以上が他と同じ内容のものである、音声データ収集システム。 The voice data collection system according to claim 1,
The voice data collection system in which one or more of the questions issued in a telephone call received from the user by the voice data collection environment have the same contents as others.
前記音声データ収集環境は、前記ユーザから電話を受けた際に、前記ユーザにより電話機を介して入力された1つ以上の数字が予め登録されている1つ以上のコード値のいずれかと合致する場合に、前記質問を発する、音声データ収集システム。 The voice data collection system according to claim 1,
When the voice data collection environment receives a telephone call from the user, one or more numbers input via the telephone by the user match one of one or more code values registered in advance. A voice data collection system that issues the question.
前記音声分析サーバは、前記IVRサーバから取得した前記音声データに対して音声病態分析を行い、分析結果に基づいて表示のための画面情報を生成し、前記ユーザの前記情報処理端末からの要求を受けて、前記画面情報に基づく内容を前記情報処理端末に表示させる、音声データ収集システム。 The voice data collection system according to claim 1,
The voice analysis server performs voice pathological analysis on the voice data acquired from the IVR server, generates screen information for display based on the analysis result, and requests the user from the information processing terminal. And a voice data collection system for causing the information processing terminal to display contents based on the screen information.
前記音声データ収集環境は、取得した前記音声データを、所定の時間間隔毎に前記音声分析サーバに送信する、音声データ収集システム。 The voice data collection system according to claim 1,
The voice data collection system, wherein the voice data collection environment transmits the acquired voice data to the voice analysis server at predetermined time intervals.
音声録音機能を有する情報処理端末と、
前記情報処理端末から取得した前記ユーザの発話を録音した前記音声データを処理して、処理結果を前記情報処理端末に対して閲覧可能とする音声分析サーバと、を有し、
前記情報処理端末は、前記ユーザに対して回答を求める質問を表示し、前記質問に対する前記ユーザからの回答に係る発話を録音して前記音声データとし、前記音声データが所定の数に達するまで、前記質問の表示と前記ユーザからの回答に係る前記音声データの取得とを繰り返す、音声データ収集システム。 An audio data collection system for collecting audio data related to a user's utterance,
An information processing terminal having a voice recording function;
A voice analysis server that processes the voice data recording the user's utterance acquired from the information processing terminal, and enables a processing result to be viewed on the information processing terminal;
The information processing terminal displays a question asking the user for an answer, records an utterance related to the answer from the user to the question as the voice data, and until the voice data reaches a predetermined number, An audio data collection system that repeats display of the question and acquisition of the audio data related to an answer from the user.
前記情報処理端末が表示する前記各質問は、そのうちの1つ以上が他と同じ内容のものである、音声データ収集システム。 The voice data collection system according to claim 6,
Each of the questions displayed by the information processing terminal is an audio data collection system in which one or more of them have the same content as the others.
前記音声分析サーバは、前記情報処理端末から取得した前記音声データに対して音声病態分析を行い、分析結果に基づいて表示のための画面情報を生成し、前記ユーザの前記情報処理端末からの要求を受けて、前記画面情報に基づく内容を前記情報処理端末に表示させる、音声データ収集システム。 The voice data collection system according to claim 6,
The speech analysis server performs speech pathological analysis on the speech data acquired from the information processing terminal, generates screen information for display based on the analysis result, and requests from the information processing terminal of the user And receiving the content based on the screen information on the information processing terminal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016114027A JP2017220807A (en) | 2016-06-08 | 2016-06-08 | Voice data collection system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016114027A JP2017220807A (en) | 2016-06-08 | 2016-06-08 | Voice data collection system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017220807A true JP2017220807A (en) | 2017-12-14 |
Family
ID=60656530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016114027A Pending JP2017220807A (en) | 2016-06-08 | 2016-06-08 | Voice data collection system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017220807A (en) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5633910A (en) * | 1994-09-13 | 1997-05-27 | Cohen; Kopel H. | Outpatient monitoring system |
JP2003225228A (en) * | 2002-01-31 | 2003-08-12 | Sanyo Electric Co Ltd | Health management terminal device, computer program and recording medium |
JP2003228391A (en) * | 2002-01-31 | 2003-08-15 | Sanyo Electric Co Ltd | Method, system, and device for information processing, computer program, and recording medium |
JP2004179897A (en) * | 2002-11-26 | 2004-06-24 | Oki Electric Ind Co Ltd | Call center system and its program |
WO2006064635A1 (en) * | 2004-12-17 | 2006-06-22 | Konica Minolta Holdings, Inc. | Diagnosis system |
JP2006230548A (en) * | 2005-02-23 | 2006-09-07 | Matsushita Electric Ind Co Ltd | Physical condition judging device and its program |
US20080298562A1 (en) * | 2007-06-04 | 2008-12-04 | Microsoft Corporation | Voice aware demographic personalization |
JP2011115390A (en) * | 2009-12-03 | 2011-06-16 | Higashi Nihon Medicom Kk | Automatic inquiry apparatus |
JP2011206342A (en) * | 2010-03-30 | 2011-10-20 | Yuuki Kitaoka | Health management system |
JP2012008687A (en) * | 2010-06-23 | 2012-01-12 | Nec Corp | Information tabulating system, information tabulating device and information tabulating method |
JP2015128579A (en) * | 2013-12-05 | 2015-07-16 | Pst株式会社 | Assumption machine, program, method of operating assumption machine, and assumption system |
-
2016
- 2016-06-08 JP JP2016114027A patent/JP2017220807A/en active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5633910A (en) * | 1994-09-13 | 1997-05-27 | Cohen; Kopel H. | Outpatient monitoring system |
JP2003225228A (en) * | 2002-01-31 | 2003-08-12 | Sanyo Electric Co Ltd | Health management terminal device, computer program and recording medium |
JP2003228391A (en) * | 2002-01-31 | 2003-08-15 | Sanyo Electric Co Ltd | Method, system, and device for information processing, computer program, and recording medium |
JP2004179897A (en) * | 2002-11-26 | 2004-06-24 | Oki Electric Ind Co Ltd | Call center system and its program |
WO2006064635A1 (en) * | 2004-12-17 | 2006-06-22 | Konica Minolta Holdings, Inc. | Diagnosis system |
JP2006230548A (en) * | 2005-02-23 | 2006-09-07 | Matsushita Electric Ind Co Ltd | Physical condition judging device and its program |
US20080298562A1 (en) * | 2007-06-04 | 2008-12-04 | Microsoft Corporation | Voice aware demographic personalization |
JP2011115390A (en) * | 2009-12-03 | 2011-06-16 | Higashi Nihon Medicom Kk | Automatic inquiry apparatus |
JP2011206342A (en) * | 2010-03-30 | 2011-10-20 | Yuuki Kitaoka | Health management system |
JP2012008687A (en) * | 2010-06-23 | 2012-01-12 | Nec Corp | Information tabulating system, information tabulating device and information tabulating method |
JP2015128579A (en) * | 2013-12-05 | 2015-07-16 | Pst株式会社 | Assumption machine, program, method of operating assumption machine, and assumption system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9706050B2 (en) | Routing user communications to agents | |
US20180152560A1 (en) | Routing user communications to agents | |
US10244111B1 (en) | System for providing data to an interactive response system | |
US20150281436A1 (en) | Recording user communications | |
KR102136706B1 (en) | Information processing system, reception server, information processing method and program | |
GB2492903A (en) | Generating and processing voice-based forms | |
US9674638B2 (en) | Dynamic mobile device feedback methods, systems, and apparatus | |
US8670529B1 (en) | Context aware help system | |
US11677558B2 (en) | System and method for customizing inmate communication notification | |
US20100042413A1 (en) | Voice Activated Application Service Architecture and Delivery | |
JP2015186018A (en) | Communication apparatus, operator selection method and program | |
JP2019144400A (en) | Controller, control method and computer program | |
TW202145200A (en) | Mobile device, system and method for task management based on voice intercom function | |
WO2020125529A1 (en) | Application method, system and apparatus for interactive voice response menu, and storage medium | |
JP7237381B1 (en) | Program, information processing system and information processing method | |
JP2021051385A (en) | Information processing system, information processing method, and program | |
JP2017220807A (en) | Voice data collection system | |
TWI723988B (en) | Information processing system, receiving server, information processing method and program | |
JP6669374B1 (en) | Setting device, setting method and setting program | |
JP6534171B2 (en) | Call support system | |
EP3138273B1 (en) | Method and apparatus for providing communication interaction visibility | |
Asthana et al. | Building efficient mobile systems and applications for supporting information exchange in resource limited settings | |
JP7169030B1 (en) | Program, information processing device, information processing system, information processing method, information processing terminal | |
RU2788321C1 (en) | System for providing end-user communication with a service provider using a virtual assistant | |
US20240048654A1 (en) | Methods and Systems for Augmenting Caller ID Information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200519 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200720 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200811 |