JP2020154178A - Information processing device, information processing method and information processing program - Google Patents
Information processing device, information processing method and information processing program Download PDFInfo
- Publication number
- JP2020154178A JP2020154178A JP2019053888A JP2019053888A JP2020154178A JP 2020154178 A JP2020154178 A JP 2020154178A JP 2019053888 A JP2019053888 A JP 2019053888A JP 2019053888 A JP2019053888 A JP 2019053888A JP 2020154178 A JP2020154178 A JP 2020154178A
- Authority
- JP
- Japan
- Prior art keywords
- information
- voice
- user
- unit
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。 The present invention relates to an information processing device, an information processing method, and an information processing program.
従来、入力される音声の話者を特定する情報処理装置が知られている。かかる情報処理装置では、話者の音声入力の特徴パラメータを予め機械学習により学習することで話者モデルを生成し、音声を話者モデルに入力して音声特徴を推定することで話者を特定する技術がある(例えば、特許文献1参照)。 Conventionally, an information processing device for identifying a speaker of input voice is known. In such an information processing device, a speaker model is generated by learning the characteristic parameters of the speaker's voice input in advance by machine learning, and the speaker is specified by inputting the voice into the speaker model and estimating the voice characteristics. (See, for example, Patent Document 1).
しかしながら、従来技術は、音声を発することができるユーザに限定したサービスであるため、例えば挿管された人等のような音声を発することができないユーザにとっては有用なサービスとは言えなかった。このため、従来は、サービスの質を向上させる点で改善の余地があった。 However, since the prior art is a service limited to users who can emit voice, it cannot be said to be a useful service for users who cannot emit voice, such as an intubated person. Therefore, in the past, there was room for improvement in terms of improving the quality of service.
本願は、上記に鑑みてなされたものであって、サービスの質を向上させることができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。 The present application has been made in view of the above, and an object of the present application is to provide an information processing device, an information processing method, and an information processing program capable of improving the quality of service.
本願に係る情報処理装置は、取得部と、推定部とを備える。前記取得部は、ユーザのゲノム情報を取得する。前記推定部は、前記取得部によって取得された前記ゲノム情報に基づいて、前記ユーザの音声特徴を示す音声情報を推定する。 The information processing apparatus according to the present application includes an acquisition unit and an estimation unit. The acquisition unit acquires the user's genomic information. The estimation unit estimates voice information indicating the voice characteristics of the user based on the genome information acquired by the acquisition unit.
実施形態の一態様によれば、サービスの質を向上させることができるという効果を奏する。 According to one aspect of the embodiment, there is an effect that the quality of service can be improved.
以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、「実施形態」と記載する)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Hereinafter, the information processing apparatus, the information processing method, and the mode for implementing the information processing program according to the present application (hereinafter, referred to as “the embodiment”) will be described in detail with reference to the drawings. The information processing device, information processing method, and information processing program according to the present application are not limited by this embodiment. Further, in each of the following embodiments, the same parts are designated by the same reference numerals, and duplicate description is omitted.
まず、図1を用いて、実施形態に係る情報処理プログラムにより実現される情報処理の一例について説明する。図1は、実施形態に係る情報処理の一例を示す図である。図1では、例えば、挿管により音声を発することができないユーザ(以下、対象ユーザと記載する)の音声特徴を示す音声情報を推定する情報処理方法を情報処理装置が実行する場合について説明する。 First, an example of information processing realized by the information processing program according to the embodiment will be described with reference to FIG. FIG. 1 is a diagram showing an example of information processing according to an embodiment. FIG. 1 describes, for example, a case where an information processing apparatus executes an information processing method for estimating voice information indicating voice characteristics of a user who cannot emit voice due to intubation (hereinafter referred to as a target user).
なお、対象ユーザは、音声を発するユーザであってもよく、情報処理装置に音声情報が登録されていないユーザであればよい。また、図1に示す情報処理では、事前に、音声を発することができるユーザ(以下、教師ユーザと記載する)のゲノム情報および音声情報に基づいて、対象ユーザの音声情報を推定するための話者モデルを生成するモデル生成処理が実行される。 The target user may be a user who emits voice, and may be a user whose voice information is not registered in the information processing device. Further, in the information processing shown in FIG. 1, a story for estimating the voice information of the target user based on the genomic information and voice information of a user who can emit voice (hereinafter referred to as a teacher user) in advance. The model generation process that generates the person model is executed.
まず、モデル生成処理までの一連の処理について説明する。具体的には、図1に示すように、まず、教師ユーザは、解析機関に対して遺伝解析の解析依頼を行う(S1)。例えば、教師ユーザは、解析依頼時に、唾液や血液等を解析機関へ提供する。 First, a series of processes up to the model generation process will be described. Specifically, as shown in FIG. 1, the teacher user first requests an analysis institution to analyze genetic analysis (S1). For example, the teacher user provides saliva, blood, etc. to the analysis institution at the time of requesting analysis.
つづいて、解析機関は、教師ユーザから採取した唾液や血液等により遺伝解析を行う(S2)。そして、実施形態に係る情報処理装置は、解析機関から遺伝解析の結果として、教師ユーザのゲノム情報を取得する(S3)。 Subsequently, the analysis institution performs genetic analysis using saliva, blood, etc. collected from the teacher user (S2). Then, the information processing apparatus according to the embodiment acquires the genomic information of the teacher user as a result of the genetic analysis from the analysis institution (S3).
ゲノム情報には、例えば、ユーザの健康リスクに関する情報や、ユーザの体質、身体的特徴に関する情報等が含まれる。なお、ゲノム情報には、例えば、ユーザの塩基配列やアミノ酸配列等の遺伝暗号に関する情報が含まれてもよい。 The genomic information includes, for example, information on the health risk of the user, information on the constitution and physical characteristics of the user, and the like. The genomic information may include, for example, information related to the genetic code such as a user's base sequence or amino acid sequence.
なお、情報処理装置は、解析機関からゲノム情報を取得する場合に限らず、ユーザから直接唾液や血液を採取して、遺伝解析を行い、ゲノム情報を取得したり、ユーザがすでに保有しているゲノム情報をユーザから解析機関を経ずに直接取得してもよい。 The information processing device is not limited to acquiring genomic information from an analysis institution, but collects saliva or blood directly from the user, performs genetic analysis, acquires genomic information, or is already possessed by the user. Genome information may be obtained directly from the user without going through an analysis institution.
つづいて、実施形態に係る情報処理装置は、教師ユーザの音声特徴を示す音声情報を取得する(S4)。音声情報は、マイク等により入力された音声を解析した解析結果、例えば、音声の周波数特性等の音響特徴や音素の配列に関する言語特徴等を含む情報である。なお、音声情報は、マイク等により集音された音声そのものであってもよい。 Subsequently, the information processing device according to the embodiment acquires voice information indicating the voice characteristics of the teacher user (S4). The voice information is information including an analysis result obtained by analyzing a voice input by a microphone or the like, for example, an acoustic feature such as a frequency characteristic of the voice and a language feature related to an arrangement of phonemes. The voice information may be the voice itself collected by a microphone or the like.
なお、図1では、一の教師ユーザからゲノム情報および音声情報を取得する場合を示しているが、複数の教師ユーザからゲノム情報および音声情報を取得することが好ましい。これにより、後段のモデル生成処理により生成されるモデルの精度を高めることができる。 Although FIG. 1 shows a case where genome information and voice information are acquired from one teacher user, it is preferable to acquire genome information and voice information from a plurality of teacher users. As a result, the accuracy of the model generated by the model generation process in the subsequent stage can be improved.
つづいて、実施形態に係る情報処理装置は、取得したゲノム情報および音声情報を用いてモデル生成処理を実行し、音声情報を推定するためのモデル(以下、話者モデルと記載する)を生成する(S5)。 Subsequently, the information processing apparatus according to the embodiment executes a model generation process using the acquired genomic information and voice information, and generates a model for estimating voice information (hereinafter, referred to as a speaker model). (S5).
具体的には、実施形態に係る情報処理装置は、教師ユーザの音声情報を教師とし、教師ユーザのゲノム情報を素性とする機械学習によって、音声特徴に関する指標を出力する話者モデルを生成するモデル生成処理を実行する。 Specifically, the information processing apparatus according to the embodiment is a model that generates a speaker model that outputs an index related to voice features by machine learning that uses the voice information of the teacher user as the teacher and the genomic information of the teacher user as the element. Execute the generation process.
次に、対象ユーザの音声情報を推定する一連の処理について説明する。具体的には、まず、対象ユーザは、解析機関に対して遺伝解析の解析依頼を行う(S6)。つづいて、解析機関は、対象ユーザから採取した唾液や血液等により遺伝解析を行う(S7)。そして、実施形態に係る情報処理装置は、解析機関から遺伝解析の結果として、対象ユーザのゲノム情報を取得する(S8)。 Next, a series of processes for estimating the voice information of the target user will be described. Specifically, first, the target user requests an analysis institution to analyze the genetic analysis (S6). Subsequently, the analysis institution performs genetic analysis using saliva, blood, etc. collected from the target user (S7). Then, the information processing apparatus according to the embodiment acquires the genomic information of the target user as a result of the genetic analysis from the analysis institution (S8).
つづいて、実施形態に係る情報処理装置は、対象ユーザのゲノム情報に基づいて、対象ユーザの音声情報を推定する推定処理を実行する(S9)。具体的には、実施形態に係る情報処理装置は、取得したゲノム情報を話者モデルに入力して、モデルから出力された指標に基づいて対象ユーザの音声情報を推定する。 Subsequently, the information processing apparatus according to the embodiment executes an estimation process for estimating the voice information of the target user based on the genomic information of the target user (S9). Specifically, the information processing apparatus according to the embodiment inputs the acquired genomic information into the speaker model, and estimates the voice information of the target user based on the index output from the model.
なお、実施形態に係る情報処理装置は、推定した音声情報に基づいて、対象ユーザの音声を生成(再現)する音声生成処理を行うことができるが、かかる点については後述する。 The information processing device according to the embodiment can perform a voice generation process for generating (reproducing) the voice of the target user based on the estimated voice information, which will be described later.
また、実施形態に係る情報処理装置は、音声を発することができるユーザについては、例えば、音声入力を受け付け、かかる音声と、推定処理により推定した音声情報とを照合することで、音声を入力したユーザが本人であるか否かの認証処理を行うことができるが、かかる点についても後述する。 Further, the information processing device according to the embodiment receives, for example, a voice input for a user who can emit a voice, and inputs the voice by collating the voice with the voice information estimated by the estimation process. It is possible to perform authentication processing for whether or not the user is the person himself / herself, and this point will also be described later.
このように、実施形態に係る情報処理装置は、ゲノム情報に基づいてユーザの音声情報を推定することで、音声を発することができない対象ユーザにとって有用なサービスを提供できる。従って、実施形態に係る情報処理装置によれば、サービスの質を向上させることができる。 As described above, the information processing apparatus according to the embodiment can provide a useful service for the target user who cannot emit the voice by estimating the voice information of the user based on the genomic information. Therefore, according to the information processing apparatus according to the embodiment, the quality of service can be improved.
次に、図2を用いて、実施形態に係る情報処理システムのシステム構成について説明する。図2は、実施形態に係る情報処理システムの構成を示す図である。 Next, the system configuration of the information processing system according to the embodiment will be described with reference to FIG. FIG. 2 is a diagram showing a configuration of an information processing system according to an embodiment.
図2に示すように、実施形態に係る情報処理システムSは、情報処理装置1と、複数の端末装置10−1〜10−nと、機関端末100とを備える。これら情報処理装置1、複数の端末装置10−1〜10−nおよび機関端末100は、ネットワークNを介して有線または無線により互いに通信可能に接続される。ネットワークNは、例えば、LAN(Local Area Network)や、インターネットなどのWAN(Wide Area Network)である。端末装置10−1〜10−nは、ユーザU−1〜U−nによって操作される。
As shown in FIG. 2, the information processing system S according to the embodiment includes an
以下においては、端末装置10−1〜10−nの各々を区別せずに示す場合、端末装置10と記載し、ユーザU−1〜U−nの各々を区別せずに示す場合、ユーザUと記載する。また、ユーザUには、上記した教師ユーザおよび対象ユーザが含まれる。
In the following, when each of the terminal devices 10-1 to 10-n is shown without distinction, it is described as the
端末装置10は、ユーザUの端末装置であり、スマートフォン、タブレット型端末、PDA(Personal Digital Assistant)、パーソナルコンピュータなどのスマートデバイス(通信端末)である。端末装置10は、ブラウザや、各種のアプリケーション等が実行可能である。
The
端末装置10は、ブラウザやアプリケーションから、機関端末100にネットワークNを介してアクセスして、遺伝解析の解析依頼を行う。また、端末装置10は、例えば、マイク等を備え、ユーザUが発する音声を集音し、音声情報として情報処理装置1へ送信することができる。
The
機関端末100は、遺伝解析を行う解析機関が所有する端末装置である。機関端末100は、ネットワークNを介して、端末装置10からユーザUの解析依頼を受け付けたり、遺伝解析の結果であるゲノム情報を情報処理装置1へ送信したりする。
The
なお、図2では、端末装置10および情報処理装置1を別体で構成する場合を示したが、例えば、端末装置10および情報処理装置1を一体で構成し、情報処理装置1の各処理を端末装置10が実行してもよい。
Although FIG. 2 shows a case where the
次に、図3を用いて、実施形態に係る情報処理装置1の構成について説明する。図3は、実施形態に係る情報処理装置1の構成例を示すブロック図である。
Next, the configuration of the
図3に示すように、情報処理装置1は、通信部2と、制御部3と、記憶部4とを備える。
As shown in FIG. 3, the
通信部2は、たとえば、NIC(Network Interface Card)等によって実現される。通信部2は、ネットワークNと有線または無線で接続され、ネットワークNを介して、端末装置10や機関端末100との間で情報の送受信を行う。
The
記憶部4は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図3に示すように、記憶部4は、ユーザ情報40と、モデル情報41とを記憶する。
The
ユーザ情報40は、ユーザUの情報であるユーザ情報を含む。図4は、ユーザ情報の一例を示す図である。ユーザ情報は、例えば、ゲノム情報や音声情報の取得時に生成される。
The
図4に示すように、ユーザ情報には、「ユーザID」、「属性」、「ゲノム情報」および「音声情報」といった項目を含む。 As shown in FIG. 4, the user information includes items such as "user ID", "attribute", "genome information", and "voice information".
「ユーザID」は、ユーザUを識別する識別情報である。「属性」は、ユーザUの属性に関する情報であり、例えば、デモグラフィック属性や、サイコグラフィック属性を含む。「ゲノム情報」は、例えば、ユーザUの唾液等を採取して抽出されるユーザUの遺伝子に関する情報であり、例えば、ユーザUの健康リスクに関する情報や、ユーザUの体質、身体的特徴に関する情報、ユーザUの塩基配列やアミノ酸配列等の遺伝暗号に関する情報が含まれる。なお、ゲノム情報は、他の検査機関で生成されたゲノム情報を含んでもよい。「音声情報」は、ユーザUの音声特徴を示す音声情報であり、例えば、ユーザUの入力音声を解析した解析結果や、入力音声そのものが含まれる。 The "user ID" is identification information that identifies the user U. The "attribute" is information about the attribute of the user U, and includes, for example, a demographic attribute and a psychographic attribute. The "genome information" is, for example, information on the gene of the user U extracted by collecting saliva of the user U, for example, information on the health risk of the user U, and information on the constitution and physical characteristics of the user U. , Information on the genetic code such as the base sequence and amino acid sequence of user U is included. The genomic information may include genomic information generated by another laboratory. The "voice information" is voice information indicating the voice characteristics of the user U, and includes, for example, an analysis result obtained by analyzing the input voice of the user U and the input voice itself.
次に、モデル情報41は、後述の生成部31によって生成される話者モデルに関する情報である。図5は、モデル情報の一例を示す図である。図5に示すように、モデル情報には、「モデルID」および「モデル情報」といった項目が含まれる。
Next, the
「モデルID」は、話者モデルを識別する識別情報である。「モデル情報」は、音声特徴を示す指標を出力するためのモデルの情報を示す。なお、モデル情報41において、モデルIDで識別される話者モデルは、例えば、性別や、国籍、年齢等によって区分けされてもよく、1つの話者モデルであってもよい。つまり、モデル情報41には、1つ、または、複数の話者モデルが含まれる。
The "model ID" is identification information that identifies the speaker model. "Model information" indicates model information for outputting an index indicating a voice feature. In the
制御部3は、コントローラ(controller)であり、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置1内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部3は、たとえば、コントローラであり、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
The control unit 3 is a controller, and for example, various programs stored in a storage device inside the
制御部3は、取得部30と、生成部31と、推定部32と、受付部33と、処理部34とを備える。
The control unit 3 includes an
取得部30は、ユーザUの各種情報を取得する。取得部30は、例えば、ゲノム情報や、音声情報を取得する。また、取得部30は、ゲノム情報や音声情報を取得したユーザUに関するユーザ情報である属性情報等を取得する。取得部30は、取得したゲノム情報、音声情報および属性情報等をユーザ情報40として記憶部4に記憶する。
The
生成部31は、取得部30によって取得されたユーザU(教師ユーザ)のゲノム情報および音声情報に基づいて機械学習のモデルを生成する。具体的には、生成部31は、教師ユーザの音声情報を教師とし、教師ユーザのゲノム情報を素性とする機械学習によって、音声特徴に関する指標を出力する話者モデルを生成する。
The
例えば、生成部31は、機械学習として、ニューラルネットワークを用いる場合、ゲノム情報および音声情報に基づいて、ニューラルネットワークにおける各重みを学習する。
For example, when a neural network is used as machine learning, the
より具体的には、生成部31は、教師ユーザの音声情報を目的変数(教師)とし、ゲノム情報およびユーザ情報から抽出される各特徴情報を説明変数(素性)とする回帰モデルを学習モデルとして求めることができる。
More specifically, the
ゲノム情報から抽出される特徴情報には、例えば、ユーザUの音声器官の形状等に関する情報や、ユーザUの音声の周波数特性に関する情報、ユーザUの体格や体質に関する情報等がある。また、ユーザ情報から抽出される特徴情報には、ユーザUの出身地や、過去の居住地、居住期間、年齢、性別等の属性に関する情報等が含まれる。 The feature information extracted from the genomic information includes, for example, information on the shape of the voice organ of the user U, information on the frequency characteristics of the voice of the user U, information on the physique and constitution of the user U, and the like. In addition, the feature information extracted from the user information includes information on attributes such as the birthplace of the user U, the past residence, the period of residence, the age, and the gender.
また、話者モデルから出力される指標には、例えば、音声の周波数特性を示すスコアや、音声の抑揚を示すスコア、音声の強弱を示すスコア、音素の配列を示すスコア等が含まれる。なお、生成部31は、上記のスコア毎に話者モデルを生成してもよく、全てのスコアを総合したスコアを出力する1つの話者モデルを生成してもよい。
Further, the index output from the speaker model includes, for example, a score indicating the frequency characteristic of the voice, a score indicating the intonation of the voice, a score indicating the strength of the voice, a score indicating the arrangement of phonemes, and the like. The
なお、生成部31が用いる機械学習の学習モデルは、ニューラルネットワークに限定されるものではなく、例えば、SVM(Support Vector Machine)等の他の機械学習の学習モデルを用いてもよい。
The machine learning learning model used by the
また、生成部31は、深層学習(ディープラーニング)の技術を用いて話者モデルを生成することもできる。例えば、生成部31は、DNN(Deep Neural Network)やRNN(Recurrent Neural Network)やCNN(Convolutional Neural Network)等の種々のディープラーニングの技術を適宜用いて話者モデルを生成することができる。
In addition, the
また、生成部31は、話者モデルを生成後については、話者モデルの更新処理を行う。具体的には、生成部31は、話者モデルを用いて後述の推定部32によって推定された所定のユーザU(音声を発することが可能なユーザU)の音声情報と、取得部30によって取得された当該ユーザUの音声情報との照合結果に基づいて話者モデルを更新する。
In addition, the
例えば、生成部31は、ニューラルネットワークにおける各重みを更新する。具体的には、生成部31は、推定部32によって推定される音声情報と、取得部30によって取得される音声情報との類似度が所定の閾値以上となるように、ニューラルネットワークにおける各重みを更新する。
For example, the
推定部32は、取得部30によって取得されたゲノム情報に基づいて、ユーザUの音声特徴を示す音声情報を推定する。具体的には、推定部32は、取得部30によって取得されたユーザU(例えば、対象ユーザ)のゲノム情報を話者モデルに入力して、ユーザUの音声情報を推定する。より具体的には、推定部32は、話者モデルから出力される指標に基づく音声特徴を音声情報として推定する。
The estimation unit 32 estimates voice information indicating the voice characteristics of the user U based on the genomic information acquired by the
受付部33は、後述の処理部34が認証処理を行うための音声入力を受け付ける。例えば、受付部33は、端末装置10のマイクを介して集音されたユーザUの音声を音声入力として受け付ける。
The
処理部34は、推定部32によって推定された音声情報に基づいて、各種処理を実行する。例えば、処理部34は、推定部32によって推定された音声情報に基づいて、ユーザUの音声を生成する音声生成処理を行う。具体的には、処理部34は、推定した音声情報における音声特徴に基づく音声をユーザUの音声として生成する。
The
また、処理部34は、推定部32によって推定された音声情報を用いて、音声による認証処理を行うこともできる。具体的には、処理部34は、推定部32によって推定されたユーザUの音声情報と、受付部33によって受け付けられた音声とを照合することで、ユーザUが本人であることを認証する認証処理を行う。
In addition, the
より具体的には、処理部34は、まず、推定部32によって推定された音声情報に基づく音声を正解音声として記憶部4に記憶しておく(例えば、ユーザ情報40の「音声情報」)。
More specifically, the
そして、処理部34は、ユーザUの認証時に受付部33が受け付けた音声入力と、記憶部4に記憶された正解音声との比較結果に基づき、ユーザU本人であるか否かの認証処理を行う。すなわち、処理部34は、話者モデルに基づく音声情報を認証処理における正解音声として生成する。
Then, the
あるいは、処理部34は、話者モデルに基づく音声情報を認証処理における音声入力として生成してもよい。具体的には、処理部34は、まず、受付部33が受け付けた音声入力を正解音声として記憶部4に記憶しておく。
Alternatively, the
そして、処理部34は、ユーザUの認証時にゲノム情報を取得し、かかるゲノム情報を基に推定された音声情報に基づく音声と、記憶部4に記憶された正解音声との比較結果に基づき、ユーザU本人であるか否かの認証処理を行ってもよい。
Then, the
次に、図6〜図9を用いて、実施形態に係る情報処理装置1が実行する処理の手順について説明する。まず、図6を用いて、モデル生成処理の処理手順について説明する。
Next, the procedure of the process executed by the
図6は、実施形態に係る情報処理装置1が実行するモデル生成処理の手順を示すフローチャートである。図6に示すように、取得部30は、教師ユーザのゲノム情報を取得する(S101)。
FIG. 6 is a flowchart showing a procedure of model generation processing executed by the
つづいて、取得部30は、教師ユーザの音声情報を取得する(S102)。なお、図6において、S101およびS102の処理手順は入れ替わってもよい。
Subsequently, the
つづいて、生成部31は、教師ユーザの音声情報を教師とし、教師ユーザのゲノム情報を素性とする機械学習によって、音声特徴に関する指標を出力する話者モデルを生成する(S103)。
Subsequently, the
つづいて、生成部31は、生成した話者モデルをモデル情報41として記憶部4に記憶し(S104)、処理を終了する。
Subsequently, the
次に、図7を用いて、音声生成処理の処理手順について説明する。図7は、実施形態に係る情報処理装置1が実行する音声生成処理の手順を示すフローチャートである。
Next, the processing procedure of the voice generation processing will be described with reference to FIG. 7. FIG. 7 is a flowchart showing a procedure of voice generation processing executed by the
図7に示すように、まず、取得部30は、対象ユーザのゲノム情報を取得する(S201)。
As shown in FIG. 7, first, the
つづいて、推定部32は、話者モデルにゲノム情報を入力して、音声特徴を示す指標を出力する(S202)。 Subsequently, the estimation unit 32 inputs genomic information into the speaker model and outputs an index indicating voice characteristics (S202).
つづいて、推定部32は、出力した指標に基づいて、音声情報を推定する(S203)。 Subsequently, the estimation unit 32 estimates the voice information based on the output index (S203).
つづいて、処理部34しゃ、推定された音声情報に基づいて、対象ユーザの音声を生成する音声生成処理を実行し(S204)、処理を終了する。
Subsequently, the
次に、図8および図9を用いて、認証処理の処理手順について説明する。図8は、実施形態に係る情報処理装置1が実行する正解音声の登録処理の手順を示すフローチャートである。図9は、実施形態に係る情報処理装置1が実行する認証処理の手順を示すフローチャートである。
Next, the processing procedure of the authentication process will be described with reference to FIGS. 8 and 9. FIG. 8 is a flowchart showing a procedure of registration processing of correct answer voice executed by the
図8に示すように、取得部30は、認証処理の対象となるユーザUのゲノム情報を取得する(S301)。
As shown in FIG. 8, the
つづいて、推定部32は、話者モデルにゲノム情報を入力して、音声特徴を示す指標を出力する(S302)。 Subsequently, the estimation unit 32 inputs genomic information into the speaker model and outputs an index indicating voice characteristics (S302).
つづいて、推定部32は、出力した指標に基づいて、音声情報を推定する(S303)。 Subsequently, the estimation unit 32 estimates the voice information based on the output index (S303).
つづいて、推定部32は、推定した音声情報(あるいは、音声情報に基づく音声)を正解音声として記憶部4に記憶し(S304)、処理を終了する。
Subsequently, the estimation unit 32 stores the estimated voice information (or voice based on the voice information) in the
次に、図9に示すように、認証処理において、受付部33は、認証処理の対象となるユーザUの音声入力を受け付けたか否かを判定する(S401)。なお、受付部33は、ユーザUの音声入力を受け付けていない場合(S401:No)、音声入力を受け付けるまでS401を繰り返し実行する。
Next, as shown in FIG. 9, in the authentication process, the
つづいて、処理部34は、受付部33が受け付けた音声および記憶部4に記憶された正解音声を照合する(S402)。
Subsequently, the
処理部34は、照合の結果、受付部33が受け付けた音声および正解音声の類似度が所定の閾値以上であるか否かを判定する(S403)。
As a result of the collation, the
つづいて、処理部34は、類似度が所定の閾値以上である場合(S403:Yes)、ユーザU本人であると判定し(S404)、処理を終了する。
Subsequently, when the similarity is equal to or higher than a predetermined threshold value (S403: Yes), the
一方、処理部34は、類似度が所定の閾値未満である場合(S403:No)、ユーザU本人でないと判定し(S405)、処理を終了する。
On the other hand, when the similarity is less than a predetermined threshold value (S403: No), the
また、上述してきた実施形態にかかる情報処理装置1は、例えば図10に示すような構成のコンピュータ200によって実現される。図10は、実施形態に係る情報処理装置1の機能を実現するコンピュータ200の一例を示すハードウェア構成図である。コンピュータ200は、CPU201、RAM202、ROM203、HDD204、通信インターフェイス(I/F)205、入出力インターフェイス(I/F)206、及びメディアインターフェイス(I/F)207を有する。
Further, the
CPU201は、ROM203又はHDD204に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM203は、コンピュータ200の起動時にCPU201によって実行されるブートプログラムや、コンピュータ200のハードウェアに依存するプログラム等を格納する。
The
HDD204は、CPU201によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス205は、ネットワークNを介して他の機器からデータを受信してCPU201へ送り、CPU201が生成したデータを、ネットワークNを介して他の機器へ送信する。
The
CPU201は、入出力インターフェイス206を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU201は、入出力インターフェイス206を介して、入力装置からデータを取得する。また、CPU201は、生成したデータを、入出力インターフェイス206を介して出力装置へ出力する。
The
メディアインターフェイス207は、記録媒体208に格納されたプログラム又はデータを読み取り、RAM202を介してCPU201に提供する。CPU201は、かかるプログラムを、メディアインターフェイス207を介して記録媒体208からRAM202上にロードし、ロードしたプログラムを実行する。記録媒体208は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
The
例えば、コンピュータ200が実施形態にかかる情報処理装置1として機能する場合、コンピュータ200のCPU201は、RAM202上にロードされたプログラムを実行することにより、制御部3の機能を実現する。また、HDD204には、記憶部4内のデータが格納される。コンピュータ200のCPU201は、これらのプログラムを、記録媒体208から読み取って実行するが、他の例として、他の装置から、ネットワークNを介してこれらのプログラムを取得してもよい。
For example, when the
上述してきたように、実施形態に係る情報処理装置1は、取得部30と、推定部32とを備える。取得部30は、ユーザUのゲノム情報を取得する。推定部32は、取得部30によって取得されたゲノム情報に基づいて、ユーザUの音声特徴を示す音声情報を推定する。
As described above, the
これにより、サービスの質を向上させることができる。 As a result, the quality of service can be improved.
また、上述した実施形態に係る情報処理装置1は、処理部34をさらに備える。処理部34は、推定部32によって推定されたユーザUの音声情報に基づいて、ユーザUの音声を生成する音声生成処理を行う。
In addition, the
これにより、例えば、挿管等で声が出ないユーザUの音声を再現できるため、このようなユーザUにとって有用なサービスを提供できる。 As a result, for example, the voice of the user U who does not make a voice due to intubation or the like can be reproduced, so that a useful service for such a user U can be provided.
また、上述した実施形態に係る情報処理装置1は、受付部33と、処理部34とをさらに備える。受付部33は、ユーザUの音声入力を受け付ける。処理部34は、推定部32によって推定されたユーザUの音声情報と、受付部33によって受け付けられた音声とを照合することで、ユーザUを認証する認証処理を行う。
Further, the
これにより、ユーザUの認証精度を向上させることができる。 As a result, the authentication accuracy of the user U can be improved.
また、上述した実施形態に係る情報処理装置1は、生成部31をさらに備える。生成部31は、教師ユーザの音声情報を教師とし、教師ユーザのゲノム情報を素性とする機械学習によって、音声特徴に関する指標を出力するモデルを生成する。推定部32は、取得部30によって取得されたゲノム情報をモデルに入力して、ユーザUの音声情報を推定する。
In addition, the
これにより、ユーザUの音声情報の推定精度を向上させることができる。 Thereby, the estimation accuracy of the voice information of the user U can be improved.
また、上述した実施形態に係る情報処理装置1において、取得部30は、ユーザUの音声情報を取得する。生成部31は、推定部32によって推定された音声情報と、取得部30によって取得された音声情報との照合結果に基づいてモデルを更新する。
Further, in the
これにより、話者モデルから出力される指標の精度を向上させることができるため、推定部32による音声情報の推定精度を向上させることができる。 As a result, the accuracy of the index output from the speaker model can be improved, so that the estimation accuracy of the voice information by the estimation unit 32 can be improved.
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 Although some of the embodiments of the present application have been described in detail with reference to the drawings, these are examples, and various modifications are made based on the knowledge of those skilled in the art, including the embodiments described in the disclosure column of the invention. It is possible to carry out the present invention in other improved forms.
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。 Further, among the processes described in the above-described embodiment, all or a part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed can be performed. All or part of it can be done automatically by a known method. In addition, the processing procedure, specific name, and information including various data and parameters shown in the above document and drawings can be arbitrarily changed unless otherwise specified. For example, the various information shown in each figure is not limited to the illustrated information.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Further, each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically distributed / physically in arbitrary units according to various loads and usage conditions. It can be integrated and configured.
また、上述してきた実施形態に記載した各処理は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 In addition, the processes described in the above-described embodiments can be appropriately combined as long as the processing contents do not contradict each other.
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、推定部32は、推定手段や推定回路に読み替えることができる。 In addition, the above-mentioned "section, module, unit" can be read as "means" or "circuit". For example, the estimation unit 32 can be read as an estimation means or an estimation circuit.
1 情報処理装置
2 通信部
3 制御部
4 記憶部
10 端末装置
30 取得部
31 生成部
32 推定部
33 受付部
34 処理部
100 機関端末
U ユーザ
1
Claims (7)
前記取得部によって取得された前記ゲノム情報に基づいて、前記ユーザの音声特徴を示す音声情報を推定する推定部と
を備えることを特徴とする情報処理装置。 The acquisition department that acquires the user's genome information,
An information processing device including an estimation unit that estimates voice information indicating the voice characteristics of the user based on the genome information acquired by the acquisition unit.
を特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, further comprising a processing unit that performs a voice generation process for generating a voice of the user based on the voice information of the user estimated by the estimation unit.
前記推定部によって推定された前記ユーザの音声情報と、前記受付部によって受け付けられた音声とを照合することで、前記ユーザを認証する認証処理を行う処理部と、をさらに備えること
を特徴とする請求項1または2に記載の情報処理装置。 The reception unit that accepts the user's voice input and
It is characterized by further including a processing unit that performs an authentication process for authenticating the user by collating the voice information of the user estimated by the estimation unit with the voice received by the reception unit. The information processing device according to claim 1 or 2.
前記推定部は、
前記取得部によって取得された前記ユーザのゲノム情報を前記モデルに入力して、当該ユーザの音声情報を推定すること
を特徴とする請求項1〜3のいずれか1つに記載の情報処理装置。 It further includes a generator that generates a model that outputs an index related to voice features by machine learning that uses the voice information of the teacher user as a teacher and the genomic information of the teacher user as a feature.
The estimation unit
The information processing apparatus according to any one of claims 1 to 3, wherein the user's genomic information acquired by the acquisition unit is input to the model to estimate the user's voice information.
前記ユーザの音声情報をさらに取得し、
前記生成部は、
前記推定部によって推定された前記音声情報と、前記取得部によって取得された前記音声情報との照合結果に基づいて前記モデルを更新すること
を特徴とする請求項4に記載の情報処理装置。 The acquisition unit
Further acquisition of the user's voice information
The generator
The information processing apparatus according to claim 4, wherein the model is updated based on a collation result of the voice information estimated by the estimation unit and the voice information acquired by the acquisition unit.
ユーザのゲノム情報を取得する取得工程と、
前記取得工程によって取得された前記ゲノム情報に基づいて、前記ユーザの音声特徴を示す音声情報を推定する推定工程と
を含むことを特徴とする情報処理方法。 Information processing method executed by a computer
The acquisition process to acquire the user's genome information and
An information processing method including an estimation step of estimating voice information indicating a voice feature of the user based on the genome information acquired by the acquisition step.
前記取得手順によって取得された前記ゲノム情報に基づいて、前記ユーザの音声特徴を示す音声情報を推定する推定手順と
をコンピュータに実行させることを特徴とする情報処理プログラム。 The acquisition procedure for acquiring the user's genome information and
An information processing program characterized in that a computer executes an estimation procedure for estimating voice information indicating the voice characteristics of the user based on the genome information acquired by the acquisition procedure.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019053888A JP2020154178A (en) | 2019-03-20 | 2019-03-20 | Information processing device, information processing method and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019053888A JP2020154178A (en) | 2019-03-20 | 2019-03-20 | Information processing device, information processing method and information processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020154178A true JP2020154178A (en) | 2020-09-24 |
Family
ID=72558846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019053888A Pending JP2020154178A (en) | 2019-03-20 | 2019-03-20 | Information processing device, information processing method and information processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020154178A (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05100692A (en) * | 1991-05-31 | 1993-04-23 | Oki Electric Ind Co Ltd | Voice synthesizer |
JP2015536344A (en) * | 2012-11-14 | 2015-12-21 | エディマー ファーマシューティカルズ インコーポレイテッドEdimer Pharmaceuticals,Inc. | Compositions and methods for the treatment of ectodermal dysplasia |
JP2016099901A (en) * | 2014-11-25 | 2016-05-30 | 学校法人 岩手医科大学 | Method for creating trait prediction model and trait prediction method |
-
2019
- 2019-03-20 JP JP2019053888A patent/JP2020154178A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05100692A (en) * | 1991-05-31 | 1993-04-23 | Oki Electric Ind Co Ltd | Voice synthesizer |
JP2015536344A (en) * | 2012-11-14 | 2015-12-21 | エディマー ファーマシューティカルズ インコーポレイテッドEdimer Pharmaceuticals,Inc. | Compositions and methods for the treatment of ectodermal dysplasia |
JP2016099901A (en) * | 2014-11-25 | 2016-05-30 | 学校法人 岩手医科大学 | Method for creating trait prediction model and trait prediction method |
Non-Patent Citations (3)
Title |
---|
宇杉朋子他: ""猫なき症候群"", 日本臨床(別冊)領域別症候群シリーズ39精神医学症候群 II, JPN6021000539, 28 August 2003 (2003-08-28), pages 431 - 433, ISSN: 0004424501 * |
小井土大: ""2.機械学習によるゲノムデータの解釈と予測"", 遺伝統計学と疾患ゲノムデータ解析, vol. 第1版, JPN6021000538, 10 April 2018 (2018-04-10), pages 143 - 148, ISSN: 0004424500 * |
竹本稔 他: "Werner syndrome(ウェルナー症候群)", 日本臨床(別冊) 家族性腫瘍学 107, vol. 73, no. 6, JPN6021000540, 20 August 2015 (2015-08-20), pages 246 - 250, ISSN: 0004424502 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6429945B2 (en) | Method and apparatus for processing audio data | |
JP7014100B2 (en) | Expansion equipment, expansion method and expansion program | |
CN109564640B (en) | Using agents to enable machine learning on a device | |
WO2017215558A1 (en) | Voiceprint recognition method and device | |
KR102226939B1 (en) | Method, apparatus and computer program for matching users using artificial intelligence model with improved effective data extraction performance | |
CN116756579B (en) | Training method of large language model and text processing method based on large language model | |
KR102271602B1 (en) | Effective data extraction method, apparatus and computer program for optimized matching between financial product seller and purchaser using artificial intelligence model | |
US20230014315A1 (en) | Trained model establishment method, estimation method, performance agent recommendation method, performance agent adjustment method, trained model establishment system, estimation system, trained model establishment program, and estimation program | |
CN110648671A (en) | Voiceprint model reconstruction method, terminal, device and readable storage medium | |
JP6680659B2 (en) | Information processing device, information processing method, and program | |
CN107846408A (en) | Identity authorization system and method based on cloud platform | |
JP2023055910A (en) | Robot, dialogue system, information processing method, and program | |
US11561761B2 (en) | Information processing system, method, and storage medium | |
WO2018207619A1 (en) | Data collection apparatus and learning apparatus | |
JP2020154178A (en) | Information processing device, information processing method and information processing program | |
US20230062127A1 (en) | Method for collaborative knowledge base development | |
JP2020154180A (en) | Information processing device, information processing method and information processing program | |
JP2020154179A (en) | Information processing device, information processing method and information processing program | |
JP7278340B2 (en) | Decision device, decision method, and decision program | |
JP2020154176A (en) | Information processing device, information processing method and information processing program | |
JP2019215823A (en) | Extraction device, evaluation device, extraction method, and extraction program | |
US11783215B2 (en) | Information processing apparatus and recommendation control method | |
JP7160571B2 (en) | Evaluation device, evaluation method and evaluation program | |
JP6516805B2 (en) | DECISION DEVICE, DECISION METHOD, AND DECISION PROGRAM | |
JP7044729B2 (en) | Information processing equipment, information processing methods and information processing programs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210810 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211007 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220308 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220606 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220606 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220614 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220621 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20220902 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20220906 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20221004 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20221122 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20230104 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20230131 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20230131 |