JP2020197629A - Speech-text conversion system and speech-text conversion device - Google Patents

Speech-text conversion system and speech-text conversion device Download PDF

Info

Publication number
JP2020197629A
JP2020197629A JP2019103763A JP2019103763A JP2020197629A JP 2020197629 A JP2020197629 A JP 2020197629A JP 2019103763 A JP2019103763 A JP 2019103763A JP 2019103763 A JP2019103763 A JP 2019103763A JP 2020197629 A JP2020197629 A JP 2020197629A
Authority
JP
Japan
Prior art keywords
voice
bone conduction
text
air
conduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019103763A
Other languages
Japanese (ja)
Other versions
JP7373739B2 (en
Inventor
啓 田坂
Hiroshi Tasaka
啓 田坂
中尾 克
Katsu Nakao
克 中尾
国本 浩
Hiroshi Kunimoto
浩 国本
賀津雄 西郷
Kazuo Saigo
賀津雄 西郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2019103763A priority Critical patent/JP7373739B2/en
Publication of JP2020197629A publication Critical patent/JP2020197629A/en
Application granted granted Critical
Publication of JP7373739B2 publication Critical patent/JP7373739B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Telephone Set Structure (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Abstract

To recognize a speech according to the kind of a connected microphone and to perform text conversion.SOLUTION: A speech-text conversion system is so configured that a terminal device to which a sound receiver for picking up a speech is connected and a server are in communication with each other. The terminal device transmits a speech signal of the speech picked up by the sound receiver to the server. The server determines, on the basis of the speech signal received from the terminal device, which of a bone-conduction speech based upon vibration of the vocal cords of a user and an air conduction speech based upon vibration of the eardrums of the user via air the speech is, and then converts, when the speech is the bone conduction speech, the bone conduction speech into an air conduction speech and the air conduction speech into text information and also outputs the converted text information.SELECTED DRAWING: Figure 1

Description

本開示は、音声テキスト変換システムおよび音声テキスト変換装置に関する。 The present disclosure relates to a voice-to-text conversion system and a voice-to-text conversion device.

特許文献1には、騒音を低減し、聞き取りやすい音声信号を生成できる音声補正装置が提案されている。この音声補正装置は、空気の振動を用いて気導音を収音する気導マイクと、ユーザの骨の振動を用いて骨導音を収音する骨伝導マイクと、気導音でのユーザの音声の雑音に対する比率を算出する算出部と、骨導音の周波数スペクトルを、比率が第1の閾値以上のときの気導音中の周波数スペクトルに一致させるための補正係数を記憶する記憶部と、骨導音を、補正係数を用いて補正する補正部と、比率が第2の閾値より小さくなると、補正後の骨導音から出力信号を生成する生成部と、を備える。 Patent Document 1 proposes a voice correction device capable of reducing noise and generating a voice signal that is easy to hear. This voice correction device includes an air conduction microphone that collects air conduction sound using the vibration of air, a bone conduction microphone that collects bone conduction sound using the vibration of the user's bone, and a user with air conduction sound. A calculation unit that calculates the ratio of the sound to the noise of the sound, and a storage unit that stores a correction coefficient for matching the frequency spectrum of the bone conduction sound with the frequency spectrum in the air conduction sound when the ratio is equal to or higher than the first threshold value. A correction unit that corrects the bone conduction sound using a correction coefficient, and a generation unit that generates an output signal from the corrected bone conduction sound when the ratio becomes smaller than the second threshold value.

特開2014−239346号公報Japanese Unexamined Patent Publication No. 2014-239346

本開示は、上述した従来の事情に鑑みて案出され、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる音声テキスト変換システムおよび音声テキスト変換装置を提供することを目的とする。 The present disclosure has been devised in view of the above-mentioned conventional circumstances, and an object of the present disclosure is to provide a voice-text conversion system and a voice-text conversion device capable of voice-recognizing voice and text-converting voice according to the type of connected microphone. And.

本開示は、音声を収音する受音器が接続された端末装置とサーバとの間で通信可能な音声テキスト変換システムであって、前記端末装置は、前記受音器により収音された前記音声の音声信号を前記サーバに送信し、前記サーバは、前記端末装置から受信された前記音声信号に基づいて、前記音声がユーザの声帯の振動に基づく骨導音声あるいは空気を介した前記ユーザの鼓膜の振動に基づく気導音声のいずれかを判別し、前記音声が前記骨導音声の場合、前記骨導音声を前記気導音声に変換し、前記気導音声をテキスト情報に変換し、変換された前記テキスト情報を出力する、音声テキスト変換システムを提供する。 The present disclosure is a voice-text conversion system capable of communicating between a terminal device to which a sound receiver for collecting voice is connected and a server, and the terminal device is said to have sound picked up by the sound receiver. A voice signal of voice is transmitted to the server, and the server uses the voice signal received from the terminal device, and the voice is a bone conduction voice based on the vibration of the user's vocal band or the user's via air. Any of the air conduction voices based on the vibration of the tympanic membrane is discriminated, and when the voice is the bone conduction voice, the bone conduction voice is converted into the air conduction voice, and the air conduction voice is converted into text information and converted. Provided is a voice-to-text conversion system that outputs the above-mentioned text information.

また、本開示は、音声を収音する受音器との間で通信可能な音声テキスト変換装置であって、前記受音器により収音された前記音声が、ユーザの声帯の振動に基づく骨導音声あるいは空気を介した前記ユーザの鼓膜の振動に基づく気導音声のいずれかを判別する音声判別部と、前記骨導音声を前記気導音声に変換する音声変換部と、前記気導音声をテキスト情報に変換する音声認識部と、変換された前記テキスト情報を出力する出力部と、を備える、音声テキスト変換装置を提供する。 Further, the present disclosure is a voice text conversion device capable of communicating with a sound receiver that collects voice, and the voice picked up by the sound receiver is a bone based on the vibration of the user's voice band. A voice discrimination unit that discriminates either a guide voice or an air conduction voice based on the vibration of the user's tympanic membrane via air, a voice conversion unit that converts the bone conduction voice into the air conduction voice, and the air conduction voice. Provided is a voice-text conversion device including a voice recognition unit that converts the text information into text information and an output unit that outputs the converted text information.

本開示によれば、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。 According to the present disclosure, voice recognition and text conversion can be performed according to the type of connected microphone.

実施の形態1に係る音声テキスト変換システムのユースケース例を示す図The figure which shows the use case example of the voice-text conversion system which concerns on Embodiment 1. 実施の形態1に係る音声テキスト変換システムの内部構成例を示すブロック図A block diagram showing an example of the internal configuration of the voice-text conversion system according to the first embodiment. 骨導マイクロホンの使用例を示す図Diagram showing an example of using a bone conduction microphone 気導マイクロホンの使用例を示す図The figure which shows the use example of the air conduction microphone 実施の形態1に係る音声テキスト変換システムの動作手順例を示すシーケンス図A sequence diagram showing an example of an operation procedure of the voice-text conversion system according to the first embodiment. 実施の形態1に係る音声テキスト変換システムの音声判別手順例を示すフローチャートA flowchart showing an example of a voice discrimination procedure of the voice text conversion system according to the first embodiment. 実施の形態1に係る音声テキスト変換システムの音声認識例1を示す図The figure which shows the voice recognition example 1 of the voice text conversion system which concerns on Embodiment 1. 実施の形態1に係る音声テキスト変換システムの音声認識例2を示す図The figure which shows the voice recognition example 2 of the voice text conversion system which concerns on Embodiment 1. 音声テキスト変換装置の一例を示す図The figure which shows an example of the voice-text converter

(実施の形態1の内容に至る経緯)
特許文献1には、収音された気導音におけるユーザの音声の雑音に対する比率(SNR(Signal to Noise Ratio))に基づいて、骨伝導マイクによって収音された骨導音を補正する音声補正装置が提案されている。この音声補正装置は、比率が第1の閾値以上となる場合に、補正係数(例えば、気導マイクロホンで得られた信号強度を骨導マイクロホンから得られた信号強度で割った値)を用いて骨導音の周波数スペクトルを気導音中の周波数スペクトルに一致させる。音声補正装置は、比率が第2の閾値より小さくなるまで補正を繰り返し、補正後の骨導音から出力信号を生成する。しかし、上述した音声補正装置は、骨導マイクロホンと気導音マイクロホンとを同時に使用して音声を収音する必要があり、一方のマイクロホンによって収音された音声を補正することは困難だった。
(Background to the contents of the first embodiment)
Patent Document 1 describes a voice correction that corrects the bone conduction sound picked up by the bone conduction microphone based on the ratio (SNR (Signal to Noise Ratio)) of the picked air conduction sound to the noise of the user's voice. A device has been proposed. This voice correction device uses a correction coefficient (for example, a value obtained by dividing the signal strength obtained by the air conduction microphone by the signal strength obtained from the bone conduction microphone) when the ratio becomes equal to or higher than the first threshold value. Match the frequency spectrum of the bone conduction sound with the frequency spectrum in the air conduction sound. The voice correction device repeats the correction until the ratio becomes smaller than the second threshold value, and generates an output signal from the corrected bone conduction sound. However, in the above-mentioned voice correction device, it is necessary to use both the bone conduction microphone and the air conduction sound microphone at the same time to collect the sound, and it is difficult to correct the sound picked up by one of the microphones.

そこで、以下の各種の実施の形態においては、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる音声テキスト変換システムおよび音声テキスト変換装置の例を説明する。 Therefore, in the following various embodiments, an example of a voice-text conversion system and a voice-text conversion device capable of recognizing voice and converting text according to the type of connected microphone will be described.

以下、適宜図面を参照しながら、本開示に係る音声テキスト変換システムおよび音声テキスト変換装置の構成および作用を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になることを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるものであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。 Hereinafter, embodiments in which the configurations and operations of the speech-text conversion system and the speech-text conversion device according to the present disclosure are specifically disclosed will be described in detail with reference to the drawings as appropriate. However, more detailed explanation than necessary may be omitted. For example, detailed explanations of already well-known matters and duplicate explanations for substantially the same configuration may be omitted. This is to avoid unnecessary redundancy of the following description and to facilitate the understanding of those skilled in the art. It should be noted that the accompanying drawings and the following description are provided for those skilled in the art to fully understand the present disclosure, and are not intended to limit the subject matter described in the claims.

(実施の形態1)
図1は、実施の形態1に係る音声テキスト変換システム100のユースケース例を示す図である。音声テキスト変換システム100は、受音器1と、端末装置2と、サーバ3と、を含んで構成される。受音器1には、骨導マイクロホンMC1または気導マイクロホンMC2のいずれか一方が接続される。
(Embodiment 1)
FIG. 1 is a diagram showing an example of a use case of the voice text conversion system 100 according to the first embodiment. The voice-text conversion system 100 includes a sound receiver 1, a terminal device 2, and a server 3. Either the bone conduction microphone MC1 or the air conduction microphone MC2 is connected to the sound receiver 1.

受音器1は、端末装置2との間で有線通信可能に接続された骨導ヘッドセットであり、マイク接続端子11と、スピーカ(不図示)と、を含んで構成される。マイク接続端子11は、骨導マイクロホンMC1と気導マイクロホンMC2とを切り替えて接続可能に構成される。受音器1は、接続されたマイクロホンにより収音されたアナログ音声信号(例えば、骨導マイクロホンMC1により収音された骨導音声、または気導マイクロホンMC2により収音された気導音声に基づいて変換されたアナログ音声信号)を端末装置2に送信する。また、受音器1が備えるスピーカは、骨伝導スピーカ(不図示)である。 The sound receiver 1 is a bone conduction headset connected to the terminal device 2 so as to be capable of wired communication, and includes a microphone connection terminal 11 and a speaker (not shown). The microphone connection terminal 11 is configured so that the bone conduction microphone MC1 and the air conduction microphone MC2 can be switched and connected. The sound receiver 1 is based on an analog audio signal picked up by the connected microphone (for example, a bone conduction sound picked up by the bone conduction microphone MC1 or an air conduction sound picked up by the air conduction microphone MC2). The converted analog audio signal) is transmitted to the terminal device 2. The speaker included in the sound receiver 1 is a bone conduction speaker (not shown).

骨導マイクロホンMC1は、ユーザの声帯付近に装着され、声帯の振動(骨導音声)を収音する圧電素子を有して構成される。骨導マイクロホンMC1は、収音された声帯の振動に伴う機械的応力から電位を発生させ、電位を音声信号(つまり、アナログ音声信号)に変換する。なお、骨導マイクロホンMC1は、声帯付近に限らず、例えば頬骨弓部上に装着され、声帯の振動が伝播した鼻腔音の振動を拾ってもよい。 The bone conduction microphone MC1 is mounted near the user's vocal cords and includes a piezoelectric element that collects the vibration of the vocal cords (bone conduction voice). The bone conduction microphone MC1 generates an electric potential from the mechanical stress associated with the vibration of the picked vocal cords, and converts the electric potential into an audio signal (that is, an analog audio signal). The bone conduction microphone MC1 may be mounted not only in the vicinity of the vocal cords but also on the zygomatic arch, for example, and may pick up the vibration of the nasal cavity sound to which the vibration of the vocal cords propagates.

骨導マイクロホンMC1は、収音された骨導音声(振動)を増幅する増幅器(不図示)を内蔵し、骨導音声の振動を増幅する。これにより、骨導マイクロホンMC1によって変換されるアナログ音声信号は、増幅器によって利得が上げられているため、デジタル信号変換の際の電圧降下が、気導マイクロホンMC2よりも大きくなる。したがって、端末装置2およびサーバ3は、受信されたアナログ音声信号またはデジタル音声信号の電圧値を検出することにより、音声信号が骨伝導音を変換したものであるか、または気導音声を変換したものであるかを判別することができる。 The bone conduction microphone MC1 has a built-in amplifier (not shown) that amplifies the collected bone conduction voice (vibration), and amplifies the vibration of the bone conduction voice. As a result, the gain of the analog audio signal converted by the bone conduction microphone MC1 is increased by the amplifier, so that the voltage drop during digital signal conversion becomes larger than that of the air conduction microphone MC2. Therefore, the terminal device 2 and the server 3 detect the voltage value of the received analog voice signal or digital voice signal, so that the voice signal is a conversion of the bone conduction sound or the air conduction voice is converted. It is possible to determine whether it is a thing.

また、骨導マイクロホンMC1は、ユーザの声帯付近に装備され、気導マイクロホンMC2よりも優れた耐騒音性を有している。よって、骨導マイクロホンMC1は、例えば80〜90dBの騒音が発生する工事現場または高架下などであってもユーザの音声を収音することができる。 Further, the bone conduction microphone MC1 is installed near the vocal cords of the user and has better noise resistance than the air conduction microphone MC2. Therefore, the bone conduction microphone MC1 can pick up the user's voice even at a construction site or under an elevated structure where noise of 80 to 90 dB is generated, for example.

気導マイクロホンMC2は、空気を伝搬するユーザの気導音声を音声信号(つまり、アナログ音声信号)に変換する。また、気導マイクロホンMC2は、無指向性マイクロホン、単一指向性マイクロホンまたは相指向性マイクロホンのいずれであってもよいし、またはこれらを組み合わせて複数の種類のマイクのそれぞれとして区別されてもよい。 The air conduction microphone MC2 converts the air conduction voice of the user propagating in the air into a voice signal (that is, an analog voice signal). Further, the air conduction microphone MC2 may be either an omnidirectional microphone, a unidirectional microphone or a phase directional microphone, or may be combined and distinguished as each of a plurality of types of microphones. ..

骨伝導スピーカ(不図示)は、音声信号を機械的振動に変換してその振動をユーザの皮膚、頭蓋骨を経由して伝播させ、聴覚神経に伝える。即ち、通常のスピーカは空気の振動で伝えられた音(気導音)を聴くのに対し、骨伝導スピーカは骨の振動で伝えられた音(骨導音)を聴く。また、骨伝導スピーカにより骨伝導で伝わる音声は、外部雑音の影響をほとんど受けない。即ち、骨伝導スピーカを備える受音器1は、外部の騒音を拾いにくいため、耐騒音性を高めることができる。さらに、骨導マイクロホンMC1を備える受音器1は、口元が完全にオープンとなる。これにより、受音器1は、例えばユーザが防塵・防毒マスクなどを併用しても通常に通信が可能となる。 The bone conduction speaker (not shown) converts an audio signal into mechanical vibration, propagates the vibration through the user's skin and skull, and transmits the vibration to the auditory nerve. That is, a normal speaker listens to the sound transmitted by the vibration of air (air conduction sound), whereas the bone conduction speaker listens to the sound transmitted by the vibration of bone (bone conduction sound). In addition, the sound transmitted by bone conduction by the bone conduction speaker is hardly affected by external noise. That is, since the sound receiver 1 provided with the bone conduction speaker does not easily pick up external noise, the noise resistance can be improved. Further, the sound receiver 1 provided with the bone conduction microphone MC1 has a completely open mouth. As a result, the sound receiver 1 can normally communicate even if the user uses, for example, a dustproof / gas mask.

端末装置2は、例えば、スマートフォン、タブレット端末あるいはPC(Personal Computer)であり、受音器1との間で有線通信可能に接続される。また、端末装置2は、サーバ3との間でネットワークNW1を介して無線通信可能に接続される。端末装置2は、受音器1から受信されたアナログ音声信号をデジタル音声信号に変換し、サーバ3に送信する。また、端末装置2は、アナログ音声信号に基づいてテキストに変換されたテキスト情報、あるいはテキスト情報に基づいて変換された音声信号を受信する。 The terminal device 2 is, for example, a smartphone, a tablet terminal, or a PC (Personal Computer), and is connected to the sound receiver 1 in a wired communication manner. Further, the terminal device 2 is wirelessly connected to the server 3 via the network NW1. The terminal device 2 converts the analog voice signal received from the sound receiver 1 into a digital voice signal and transmits it to the server 3. Further, the terminal device 2 receives the text information converted into text based on the analog audio signal, or the audio signal converted based on the text information.

ネットワークNW1は、無線ネットワークである。無線ネットワークは、例えば無線LAN(Local Area Network)、無線WAN(Wide Area Network)、4G(第4世代移動通信システム)、LTE(Long Term Evolution)、LTE−Advanced、5G(第5世代移動通信方式)、Wi−fi(登録商標)、またはWiGig(Wireless Gigabit)である。 The network NW1 is a wireless network. The wireless network includes, for example, wireless LAN (Local Area Network), wireless WAN (Wide Area Network), 4G (4th generation mobile communication system), LTE (Long Term Evolution), LTE-Advanced, 5G (5th generation mobile communication system). ), Wi-fi®, or WiGig (Wireless Gigabit).

サーバ3は、端末装置2との間でネットワークNW1を介して無線通信可能に接続される。サーバ3は、受信されたデジタル音声信号をテキスト情報に変換して端末装置2に送信する。また、サーバ3は、変換したテキスト情報に基づいて再度デジタル音声信号に変換し、端末装置2に送信する。 The server 3 is wirelessly connected to the terminal device 2 via the network NW1. The server 3 converts the received digital audio signal into text information and transmits it to the terminal device 2. Further, the server 3 converts the converted text information into a digital voice signal again and transmits the digital voice signal to the terminal device 2.

図2は、実施の形態1に係る音声テキスト変換システム100の内部構成例を示すブロック図である。受音器1については、図1を参照して説明したため、詳細な説明を省略する。 FIG. 2 is a block diagram showing an example of the internal configuration of the speech-text conversion system 100 according to the first embodiment. Since the sound receiver 1 has been described with reference to FIG. 1, detailed description thereof will be omitted.

まず、端末装置2の内部構成例について説明する。端末装置2は、通信部20と、プロセッサ21と、メモリ22と、A/D(Analog―to―Digital)変換部23と、を含んで構成される。 First, an example of the internal configuration of the terminal device 2 will be described. The terminal device 2 includes a communication unit 20, a processor 21, a memory 22, and an A / D (Analog-to-Digital) conversion unit 23.

通信部20は、ネットワークNW1を介してサーバ3と通信可能に接続される。通信部20は、A/D変換部23によって変換されたデジタル音声信号をサーバ3に送信し、テキスト情報またはテキスト情報に基づいて生成されたデジタル音声信号をサーバ3から受信する。 The communication unit 20 is communicably connected to the server 3 via the network NW1. The communication unit 20 transmits the digital audio signal converted by the A / D conversion unit 23 to the server 3, and receives the text information or the digital audio signal generated based on the text information from the server 3.

プロセッサ21は、例えばCPU(Central Processing unit)またはFPGA(Field Programmable Gate Array)を用いて構成されて、メモリ22と協働して、各種の処理および制御を行う。具体的には、プロセッサ21はメモリ22に保持されたプログラムおよびデータを参照し、そのプログラムを実行することにより、各部の機能を実現する。各部の機能は、例えば、受音器1から受信されたアナログ音声信号をデジタル音声信号に変換する機能などである。 The processor 21 is configured by using, for example, a CPU (Central Processing unit) or an FPGA (Field Programmable Gate Array), and performs various processes and controls in cooperation with the memory 22. Specifically, the processor 21 refers to the program and data held in the memory 22 and executes the program to realize the functions of each part. The function of each part is, for example, a function of converting an analog voice signal received from the sound receiver 1 into a digital voice signal.

メモリ22は、例えばプロセッサ21の各処理を実行する際に用いられるワークメモリとしてのRAM(Random Access Memory)と、プロセッサ21の動作を規定したプログラムおよびデータを格納するROM(Read Only Memory)とを有する。RAMには、プロセッサ21により生成あるいは取得されたデータもしくは情報が一時的に保存される。ROMには、プロセッサ21の動作を規定するプログラムが書き込まれている。また、メモリ22は、サーバ3に送信されたデジタル音声信号およびサーバ3から受信されたテキスト情報を記憶する。 The memory 22 includes, for example, a RAM (Random Access Memory) as a work memory used when executing each process of the processor 21 and a ROM (Read Only Memory) for storing a program and data defining the operation of the processor 21. Have. Data or information generated or acquired by the processor 21 is temporarily stored in the RAM. A program that defines the operation of the processor 21 is written in the ROM. Further, the memory 22 stores the digital audio signal transmitted to the server 3 and the text information received from the server 3.

A/D変換部23は、受音器1から受信されたアナログ音声信号をデジタル音声信号に変換する。A/D変換部23は、変換したデジタル音声信号を、ネットワークNW1を介してサーバ3に送信する。また、A/D変換部23は、受音器1からアナログ音声信号を受信した際の電圧降下によって降下した電圧値を測定する。測定された電圧値の情報は、サーバ3に送信される。 The A / D conversion unit 23 converts the analog audio signal received from the sound receiver 1 into a digital audio signal. The A / D conversion unit 23 transmits the converted digital audio signal to the server 3 via the network NW1. Further, the A / D conversion unit 23 measures the voltage value dropped due to the voltage drop when the analog audio signal is received from the sound receiver 1. The measured voltage value information is transmitted to the server 3.

次に、サーバ3の内部構成例について説明する。サーバ3は、通信部30と、プロセッサ31と、メモリ32と、音声判別部33と、音声変換部34と、音声認識部35と、出力部36と、記憶部37と、テキスト音声変換部38と、を含んで構成される。なお、テキスト音声変換部38は、必須の構成でなく、省略されても端末装置2に備えられてもよい。 Next, an example of the internal configuration of the server 3 will be described. The server 3 includes a communication unit 30, a processor 31, a memory 32, a voice discrimination unit 33, a voice conversion unit 34, a voice recognition unit 35, an output unit 36, a storage unit 37, and a text voice conversion unit 38. And are configured to include. The text-to-speech conversion unit 38 is not an essential configuration and may be omitted or provided in the terminal device 2.

通信部30は、ネットワークNW1を介して端末装置2と通信可能に接続される。通信部30は、デジタル音声信号を端末装置2から受信し、テキスト情報またはテキスト情報に基づいて生成されたデジタル音声信号を端末装置2に送信する。 The communication unit 30 is communicably connected to the terminal device 2 via the network NW1. The communication unit 30 receives the digital audio signal from the terminal device 2, and transmits the text information or the digital audio signal generated based on the text information to the terminal device 2.

プロセッサ31は、例えばCPU(Central Processing unit)またはFPGA(Field Programmable Gate Array)を用いて構成されて、メモリ32と協働して、各種の処理および制御を行う。具体的には、プロセッサ31はメモリ32に保持されたプログラムおよびデータを参照し、そのプログラムを実行することにより、各部の機能を実現する。各部の機能は、例えば、デジタル音声信号が骨導音声または気導音声のどちらであるかを判定する機能、およびデジタル音声信号を予め生成されている学習データに基づいてテキスト情報に変換する機能などである。 The processor 31 is configured by using, for example, a CPU (Central Processing unit) or an FPGA (Field Programmable Gate Array), and performs various processes and controls in cooperation with the memory 32. Specifically, the processor 31 refers to the program and data held in the memory 32, and executes the program to realize the functions of each part. The functions of each part include, for example, a function of determining whether a digital voice signal is a bone conduction voice or an air conduction voice, and a function of converting a digital voice signal into text information based on pre-generated learning data. Is.

メモリ32は、例えばプロセッサ31の各処理を実行する際に用いられるワークメモリとしてのRAM(Random Access Memory)と、プロセッサ31の動作を規定したプログラムおよびデータを格納するROM(Read Only Memory)とを有する。RAMには、プロセッサ31により生成あるいは取得されたデータもしくは情報が一時的に保存される。ROMには、プロセッサ31の動作を規定するプログラムが書き込まれている。また、メモリ32は、学習データ、音響モデル、発音辞書、言語モデル、認識デコーダなどを記憶する。 The memory 32 includes, for example, a RAM (Random Access Memory) as a work memory used when executing each process of the processor 31 and a ROM (Read Only Memory) for storing a program and data defining the operation of the processor 31. Have. Data or information generated or acquired by the processor 31 is temporarily stored in the RAM. A program that defines the operation of the processor 31 is written in the ROM. The memory 32 also stores learning data, an acoustic model, a pronunciation dictionary, a language model, a recognition decoder, and the like.

音声判別部33は、端末装置2からデジタル音声信号と降下した電圧値の情報とを受信し、電圧値の情報に基づいて、デジタル音声信号の基となる音声が骨導音声あるいは気導音声であるかを判別する。 The voice discrimination unit 33 receives the digital voice signal and the information of the dropped voltage value from the terminal device 2, and based on the voltage value information, the voice that is the basis of the digital voice signal is the bone conduction voice or the air conduction voice. Determine if there is.

音声判別部33は、デジタル音声信号が骨導音声に基づいて変換された音声信号であると判別した場合には、識別子を付与する。識別子は、例えば、人の音声とは異なる周波数帯域の人工音、あるいは特定の識別信号(例えば、「110011」)などである。音声判別部33は、電圧値の情報が所定の閾値以下であり、さらに識別子が付与されていると判別すると、デジタル音声信号の基となる音声が骨導音声であることを示す判別結果を音声変換部34に出力する。 When the voice discrimination unit 33 determines that the digital voice signal is a voice signal converted based on the bone conduction voice, the voice discrimination unit 33 assigns an identifier. The identifier is, for example, an artificial sound having a frequency band different from that of human voice, or a specific identification signal (for example, "110011"). When the voice discrimination unit 33 determines that the voltage value information is equal to or less than a predetermined threshold value and is further assigned an identifier, the voice discrimination unit 33 determines that the voice on which the digital voice signal is based is a bone conduction voice. Output to the conversion unit 34.

また、音声判別部33は、デジタル音声信号のスペクトル特性のうち、高周波数帯域(例えば、1001〜8000Hz)における信号レベル(dB)に対する低周波数帯域(例えば、0〜1000Hz)における信号レベル(dB)の比率を算出し、この比率に基づいて、デジタル音声信号の基となる音声が骨導音声あるいは気導音声であるかを判別してよい。骨導音声は、ユーザの音声による振動を、体内を通じて収音するため、体内減衰により高周波数帯域において信号レベルが小さくなる。よって、音声判別部33は、比率の値が小さいほど低周波数帯域における信号レベルが高周波数帯域における信号レベルに対する相対的な減衰が小さい場合には気導音声と判別し、相対的な減衰が大きい場合には骨導音声と判別する。 Further, the voice discrimination unit 33 has a signal level (dB) in a low frequency band (for example, 0 to 1000 Hz) with respect to a signal level (dB) in a high frequency band (for example, 1001 to 8000 Hz) among the spectral characteristics of the digital voice signal. The ratio of the above may be calculated, and based on this ratio, it may be determined whether the voice that is the basis of the digital voice signal is the bone conduction voice or the air conduction voice. Since the bone conduction voice collects the vibration of the user's voice through the body, the signal level becomes small in the high frequency band due to the attenuation in the body. Therefore, the voice discrimination unit 33 determines that the smaller the ratio value, the smaller the relative attenuation of the signal level in the low frequency band with respect to the signal level in the high frequency band, and the larger the relative attenuation is. In that case, it is determined to be a bone conduction voice.

なお、上述した比率に基づくデジタル音声信号の基となる音声の判別方法は、ユーザによる個人差および環境差によって得られるスペクトル特性が変化する。よって、音声判別部33は、予め収集された複数のスペクトル特性に基づいて生成された判別データがメモリ32に記憶されている場合には、スペクトル特性とこの判別データとを用いてデジタル音声信号の基となる音声が骨導音声あるいは気導音声であるかを判別してもよい。 In the method of discriminating the voice that is the basis of the digital voice signal based on the above-mentioned ratio, the spectral characteristics obtained by the individual difference and the environmental difference depending on the user change. Therefore, when the discrimination data generated based on the plurality of spectral characteristics collected in advance is stored in the memory 32, the voice discrimination unit 33 uses the spectral characteristics and the discrimination data to generate a digital voice signal. It may be determined whether the underlying voice is a bone conduction voice or an air conduction voice.

音声変換部34は、音声判別部33より入力されたデジタル音声信号が骨導音声の場合には、予め生成された学習モデルを用いて骨導音声の特徴量を気導音声の特徴量にマッピングすることにより、骨導音声のデジタル音声信号を気導音声のデジタル音声信号に変換する。学習モデルは、メモリ32に予め記憶されており、骨導マイクロホンMC1と気導マイクロホンMC2とから同時に収音した音声から骨導音声および気導音声の特徴量をそれぞれ抽出し、骨導音声の特徴量を気導音声の特徴量にマッピングすることにより生成される。なお、音声の特徴量は、例えば基本周波数(声の高さ)、音声信号のスペクトル特性(声質)、非周期信号(声のかすれ)などの情報である。音声変換部34は、変換後の気導音声を音声認識部35に出力する。なお、音声変換部34は、音声判別部33により入力されたデジタル音声信号が気導音声の場合には、そのまま音声認識部35に出力する。 When the digital voice signal input from the voice discrimination unit 33 is the bone conduction voice, the voice conversion unit 34 maps the feature amount of the bone conduction voice to the feature amount of the air conduction voice by using the learning model generated in advance. By doing so, the digital voice signal of the bone conduction voice is converted into the digital voice signal of the air conduction voice. The learning model is stored in the memory 32 in advance, and the features of the bone conduction voice and the air conduction voice are extracted from the voices simultaneously picked up from the bone conduction microphone MC1 and the air conduction microphone MC2, and the features of the bone conduction voice are extracted. It is generated by mapping the amount to the feature amount of the air-conducted voice. The voice feature amount is, for example, information such as a fundamental frequency (voice pitch), a spectral characteristic of a voice signal (voice quality), and an aperiodic signal (voice faintness). The voice conversion unit 34 outputs the converted air conduction voice to the voice recognition unit 35. If the digital voice signal input by the voice discrimination unit 33 is air conduction voice, the voice conversion unit 34 outputs the digital voice signal to the voice recognition unit 35 as it is.

音声認識部35は、例えば音声認識エンジンであり、気導マイクロホンMC2によって収音された音声をデータベースとする音響モデルを用いて、音声変換部34より入力された気導音声のデジタル音声信号に含まれる音素(例えば、/a/,/k/など)を判別する。なお、音響モデルは、気導マイクロホンMC2によって収音された数千人、数千時間の音声の周波数特性および時間特性を統計処理して予め生成され、メモリ32に記憶される。 The voice recognition unit 35 is, for example, a voice recognition engine, and is included in the digital voice signal of the air conduction voice input from the voice conversion unit 34 by using an acoustic model using the voice collected by the air conduction microphone MC2 as a database. The phoneme to be used (for example, / a /, / k /, etc.) is determined. The acoustic model is generated in advance by statistically processing the frequency characteristics and time characteristics of the voices of thousands and thousands of hours picked up by the air conduction microphone MC2, and is stored in the memory 32.

また、音声認識部35は、言語モデルを用いて、音声変換部34より入力された気導音声のデジタル音声信号に含まれる文字列または単語列が言語として適切か否かを評価する。言語モデルは、各国の言語におけるテキストを収集し、統計処理されて生成される。具体的には、言語モデルは、自然言語処理などを実行し、文の品詞および統語構造、単語同士あるいは文書同士の関係性などを定式化したものであり、統計学的な観点から確率的に定められる。言語モデルは、例えばNグラムモデル、隠れマルコフモデル、最大エントロピーモデルなどであり、メモリ32に記憶される。 In addition, the voice recognition unit 35 evaluates whether or not the character string or word string included in the digital voice signal of the air conduction voice input from the voice conversion unit 34 is appropriate as a language by using the language model. The language model is generated by collecting texts in each country's language and statistically processing them. Specifically, the language model executes natural language processing and formulates the part of speech and syntactic structure of sentences, the relationship between words or documents, and is probabilistic from a statistical point of view. It is decided. The language model is, for example, an N-gram model, a hidden Markov model, a maximum entropy model, or the like, and is stored in the memory 32.

音声認識部35は、音響モデルを用いて判別されたデジタル音声信号に含まれる音素と言語モデルを用いて評価された文字列または単語列とを、発音辞書に基づいて音素を結びつけて単語発話(例えば、/sakura/)を構成し、認識デコーダによって音響的かつ言語的に最も適合する言語表現を解読してテキスト情報に変換される。なお、発音辞書は、音響モデルと言語モデルとを結びつけるためのデータであり、メモリ32に記憶される。認識デコーダは、所謂解読装置であり、音響モデル、発音辞書および言語モデルを用いて音声信号をその発話内容に対応する言語表現に解読して変換する処理を実行する。音声認識部35は、認識デコーダにより変換されたテキスト情報を出力部36に出力する。 The voice recognition unit 35 connects the phonemes contained in the digital voice signal determined by using the acoustic model and the character string or word string evaluated by using the language model with the phonemes based on the pronunciation dictionary to utter a word (word utterance). For example, / sakura /) is constructed, and the recognition decoder decodes the most acoustically and linguistically suitable linguistic expression and converts it into text information. The pronunciation dictionary is data for linking the acoustic model and the language model, and is stored in the memory 32. The recognition decoder is a so-called decoding device, and executes a process of decoding and converting a voice signal into a linguistic expression corresponding to the utterance content by using an acoustic model, a pronunciation dictionary, and a language model. The voice recognition unit 35 outputs the text information converted by the recognition decoder to the output unit 36.

また、上述した気導音声に変換された骨導音声をテキスト情報に変換する処理を第1の音声認識処理として、音声認識部35は、骨導音声をテキスト情報に変換する第2の音声認識処理を実行してもよい。この場合、音声変換部34は、音声判別部33から入力されたデジタル音声信号が骨導音声であると判別すると、骨導音声と骨導音声から音声変換した気導音声とを音声認識部35に出力する。 Further, the process of converting the bone conduction voice converted into the air conduction voice described above into text information is regarded as the first voice recognition processing, and the voice recognition unit 35 converts the bone conduction voice into text information by the second voice recognition. The process may be executed. In this case, when the voice conversion unit 34 determines that the digital voice signal input from the voice discrimination unit 33 is the bone conduction voice, the voice recognition unit 35 converts the bone conduction voice and the air conduction voice obtained by voice conversion from the bone conduction voice. Output to.

音声認識部35は、変換された第1のテキスト情報と第2のテキスト情報とに対して信頼度を判定し、より高い信頼度を有するテキスト情報を出力部36に出力する。音声認識部35は、テキスト情報に対して単語信頼度に基づく信頼度の判定を実行する。具体的には、音声認識部35は、認識デコーダにより音声信号を第1のテキスト情報および第2のテキスト情報のそれぞれに変換する際に用いられた音響モデルと言語モデルとに基づいて、単語信頼度を判定する。音声認識部35は、テキスト情報に含まれる各単語に対して近い他の候補の単語が存在するか否かを判定し、その単語に似たスコアを有する他の候補がなければ信頼度が高いと判定し、その単語に同程度のスコアを有する他の候補が多いほど信頼度が低いと判定する。音声認識部35は、より信頼度が高い方のテキスト情報を出力部36に出力する。 The voice recognition unit 35 determines the reliability of the converted first text information and the second text information, and outputs the text information having a higher reliability to the output unit 36. The voice recognition unit 35 executes a determination of reliability based on word reliability for text information. Specifically, the speech recognition unit 35 trusts words based on the acoustic model and the language model used when the speech signal is converted into the first text information and the second text information by the recognition decoder. Determine the degree. The voice recognition unit 35 determines whether or not there is another candidate word that is close to each word contained in the text information, and if there is no other candidate having a score similar to that word, the reliability is high. It is determined that the more other candidates have the same score for the word, the lower the reliability. The voice recognition unit 35 outputs the text information having the higher reliability to the output unit 36.

出力部36は、音声認識部35より入力されたテキスト情報を記憶部37およびテキスト音声変換部38に出力し、通信部30に出力する。通信部30は、ネットワークNW1を介してテキスト情報を端末装置2に送信する。 The output unit 36 outputs the text information input from the voice recognition unit 35 to the storage unit 37 and the text / voice conversion unit 38, and outputs the text information to the communication unit 30. The communication unit 30 transmits text information to the terminal device 2 via the network NW1.

記憶部37は、所謂ストレージであり、音声認識部35によって変換されたテキスト情報を記憶する。また、記憶部37は、端末装置ごと(つまり、ユーザごと)にテキスト情報を記憶してもよい。 The storage unit 37 is a so-called storage, and stores text information converted by the voice recognition unit 35. Further, the storage unit 37 may store text information for each terminal device (that is, for each user).

テキスト音声変換部38は、出力部36より入力されたテキスト情報を音声信号に変換する。変換された音声信号は、ネットワークNW1を介して端末装置2に送信され、再生される。これにより、ユーザは、発話内容が正しくテキスト情報に変換されたか否かを音声によって確認することができる。また、この音声信号は、一度テキスト情報に変換されたことでノイズレスの音声信号として生成されるため、より聞き取りやすい音声となる。したがって、ユーザは、ノイズが低減された音声を再生することができる。 The text-to-speech conversion unit 38 converts the text information input from the output unit 36 into a voice signal. The converted audio signal is transmitted to the terminal device 2 via the network NW1 and reproduced. As a result, the user can confirm by voice whether or not the utterance content is correctly converted into text information. Further, since this voice signal is generated as a noiseless voice signal once it is converted into text information, the voice becomes easier to hear. Therefore, the user can reproduce the sound with reduced noise.

また、テキスト音声変換部38は、ユーザの音声データに基づいて生成された音響モデルを用いた音声合成エンジンを有してもよい。これにより、テキスト音声変換部38は、ユーザの音声に変換して音声信号を再生することができる。 Further, the text-to-speech conversion unit 38 may have a speech synthesis engine using an acoustic model generated based on the user's speech data. As a result, the text-to-speech conversion unit 38 can convert the voice to the user's voice and reproduce the voice signal.

以上により、音声テキスト変換システム100は、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。 As described above, the voice-text conversion system 100 can perform voice recognition and text conversion of voice according to the type of the connected microphone.

図3Aおよび図3Bを参照して、受音器1の使用例を説明する。図3Aは、骨導マイクロホンMC1の使用例を示す図である。図3Bは、気導マイクロホンMC2の使用例を示す図である。 An example of using the sound receiver 1 will be described with reference to FIGS. 3A and 3B. FIG. 3A is a diagram showing a usage example of the bone conduction microphone MC1. FIG. 3B is a diagram showing a usage example of the air conduction microphone MC2.

受音器1は、骨導マイクロホンMC1あるいは気導マイクロホンMC2のいずれか一方を、マイク接続端子11に接続して使用される。骨導マイクロホンMC1は、ユーザの声帯付近に接触して装着されて使用される。また、気導マイクロホンMC2は、ユーザの口の前に位置するように配置されて使用される。 The sound receiver 1 is used by connecting either the bone conduction microphone MC1 or the air conduction microphone MC2 to the microphone connection terminal 11. The bone conduction microphone MC1 is used by being worn in contact with the vicinity of the vocal cords of the user. Further, the air conduction microphone MC2 is arranged and used so as to be located in front of the user's mouth.

図4は、実施の形態1に係る音声テキスト変換システム100の動作手順例を示すシーケンス図である。なお、図4において、ネットワークNW1の図示は省略されている。 FIG. 4 is a sequence diagram showing an example of an operation procedure of the voice-text conversion system 100 according to the first embodiment. In FIG. 4, the network NW1 is not shown.

受音器1は、接続された骨導マイクロホンMC1あるいは気導マイクロホンMC2のいずれか一方のマイクロホンを用いて、ユーザの音声を収音してアナログ音声信号に変換する(T1)。 The sound receiver 1 picks up the user's voice and converts it into an analog voice signal by using either the bone conduction microphone MC1 or the air conduction microphone MC2 connected (T1).

受音器1は、アナログ音声信号を端末装置2に送信する(T2)。 The sound receiver 1 transmits an analog audio signal to the terminal device 2 (T2).

端末装置2は、受信されたアナログ音声信号をデジタル音声信号に変換する(T3)。なお、端末装置2は、アナログ信号を受信した際の電圧降下に基づいて、降下した電圧値を測定する。 The terminal device 2 converts the received analog voice signal into a digital voice signal (T3). The terminal device 2 measures the dropped voltage value based on the voltage drop when the analog signal is received.

端末装置2は、変換したデジタル音声信号を、ネットワークNW1を介してサーバ3に送信する(T4)。また、端末装置2は、測定された電圧値の情報を、ネットワークNW1を介してサーバ3に送信する。 The terminal device 2 transmits the converted digital audio signal to the server 3 via the network NW1 (T4). Further, the terminal device 2 transmits the measured voltage value information to the server 3 via the network NW1.

サーバ3は、端末装置2から受信した電圧降下に基づく電圧値の情報に基づいて、デジタル音声信号の基となる音声が骨導音声か否かを判別する(T5)。また、ステップT5の処理においてサーバ3は、デジタル音声信号の基となる音声が骨導音声である場合、デジタル音声信号に識別子を付与する。 The server 3 determines whether or not the voice that is the basis of the digital voice signal is the bone conduction voice based on the information of the voltage value based on the voltage drop received from the terminal device 2 (T5). Further, in the process of step T5, when the voice that is the basis of the digital voice signal is the bone conduction voice, the server 3 assigns an identifier to the digital voice signal.

サーバ3は、ステップT5の処理の結果、骨導音声である場合には気導音声のデジタル音声信号に変換する(T6)。なお、サーバ3は、気導音声である場合には何の処理も実行しない。 As a result of the process of step T5, the server 3 converts the bone conduction voice into a digital voice signal of the air conduction voice (T6). Note that the server 3 does not execute any processing when it is an air-conducted voice.

サーバ3は、気導音声を音声認識してテキスト情報に変換する(T7)。なお、図4には示していないが、さらにサーバ3は、テキスト情報に基づいて音声信号を生成してもよい。 The server 3 recognizes the air-conducted voice and converts it into text information (T7). Although not shown in FIG. 4, the server 3 may further generate an audio signal based on the text information.

サーバ3は、変換されたテキスト情報を、ネットワークNW1を介して端末装置2に送信する(T8)。なお、サーバ3は、ステップT7の処理においてさらに音声信号を生成する場合には、生成された音声信号とテキスト情報とのうち少なくとも一方を端末装置2に送信する。 The server 3 transmits the converted text information to the terminal device 2 via the network NW1 (T8). When the server 3 further generates an audio signal in the process of step T7, the server 3 transmits at least one of the generated audio signal and the text information to the terminal device 2.

端末装置2は、テキスト情報を受信する(T9)。受信されたテキスト情報は、端末装置2に表示されてもよいし、さらに音声信号に変換されて受音器1に送信されてもよい。 The terminal device 2 receives the text information (T9). The received text information may be displayed on the terminal device 2, or may be further converted into a voice signal and transmitted to the sound receiver 1.

図5は、実施の形態1に係る音声テキスト変換システム100の音声判別手順例を示すフローチャートである。図5に示す音声判別処理は、サーバ3における音声判別部33によって実行される。 FIG. 5 is a flowchart showing an example of a voice discrimination procedure of the voice text conversion system 100 according to the first embodiment. The voice discrimination process shown in FIG. 5 is executed by the voice discrimination unit 33 in the server 3.

音声判別部33は、端末装置2よりデジタル音声信号を受信する(St1)。また、音声判別部33は、この際に電圧降下により降下した電圧値の情報を受信する。 The voice discrimination unit 33 receives a digital voice signal from the terminal device 2 (St1). Further, the voice discrimination unit 33 receives information on the voltage value dropped due to the voltage drop at this time.

音声判別部33は、端末装置2より受信された電圧降下により降下した電圧値の情報に基づいて、電圧値が閾値Th以下であるか否かを判定する(St2)。 The voice discrimination unit 33 determines whether or not the voltage value is equal to or less than the threshold value Th based on the information of the voltage value dropped due to the voltage drop received from the terminal device 2 (St2).

音声判別部33は、ステップSt2の処理において、降下した電圧値が閾値Th以下の場合(St2,YES)には、デジタル音声信号に識別子を付与する(St3)。 In the process of step St2, the voice discrimination unit 33 assigns an identifier to the digital voice signal when the dropped voltage value is equal to or less than the threshold value Th (St2, YES) (St3).

音声判別部33は、デジタル音声信号に識別子があるか否かを判別する(St4)。これにより、音声判別部33は、デジタル音声信号の基となる音声が気導音声であるにも関わらず、降下した電圧値が大きくなってしまった場合に骨導音声と誤判別する可能性を低くすることができる。 The voice discrimination unit 33 determines whether or not the digital voice signal has an identifier (St4). As a result, the voice discrimination unit 33 may erroneously discriminate as the bone conduction voice when the dropped voltage value becomes large even though the voice on which the digital voice signal is based is the air conduction voice. Can be lowered.

音声判別部33は、ステップSt4の処理において、識別子が付与されている場合(St4,YES)には、デジタル音声信号の基となる音声が骨導音声であると判定する(St5)。 In the process of step St4, the voice discrimination unit 33 determines that the voice that is the basis of the digital voice signal is the bone conduction voice (St5) when the identifier is given (St4, YES).

音声判別部33は、ステップSt4の処理において、識別子が付与されていない場合(St4,NO)には、デジタル音声信号の基となる音声が気導音声であると判定する(St6)。 In the process of step St4, the voice discrimination unit 33 determines that the voice that is the basis of the digital voice signal is the air conduction voice when the identifier is not assigned (St4, NO) (St6).

以上により、音声テキスト変換システム100は、音声判別処理を終了する。 As described above, the voice text conversion system 100 ends the voice discrimination process.

図6Aおよび図6Bを参照して、実施の形態1に係る音声テキスト変換システム100によって実行された音声認識結果の一例について説明する。図6Aは、実施の形態1に係る音声テキスト変換システム100の音声認識例1を示す図である。図6Bは、実施の形態1に係る音声テキスト変換システム100の音声認識例2を示す図である。図6Aおよび図6Bでは、骨導音声、気導音声、学習モデルを用いて骨度音声から変換された気導音声のそれぞれを音声認識した音声認識結果の一例を示す。発話内容U11,U12のそれぞれは、ユーザによって実際に発話された音声である。 An example of the voice recognition result executed by the voice text conversion system 100 according to the first embodiment will be described with reference to FIGS. 6A and 6B. FIG. 6A is a diagram showing a voice recognition example 1 of the voice text conversion system 100 according to the first embodiment. FIG. 6B is a diagram showing a voice recognition example 2 of the voice text conversion system 100 according to the first embodiment. 6A and 6B show an example of the voice recognition result of voice recognition of each of the bone conduction voice, the air conduction voice, and the air conduction voice converted from the bone degree voice using the learning model. Each of the utterance contents U11 and U12 is a voice actually uttered by the user.

発話内容U11は、「テレビ ゲーム や パソコンで ゲーム を して 遊ぶ」である。音声認識結果An11は、骨導音声に基づいて音声認識を実行して得られた結果であり、「テレビ ゲーム や 若く 音 で、 ゲーム を し て 遊ぶ」というテキスト情報に変換される。音声認識結果An21は、気導音声に基づいて音声認識を実行して得られた結果であり、「あれ は テレビ ゲーム や パソコン で ワン ゲーム を し て 遊ぶ なあ」というテキスト情報に変換される。音声認識結果An31は、学習モデルを用いて骨導音声から変換された気導音声に基づいて音声認識を実行して得られた結果であり、「テレビ ゲーム や パソコンで ゲーム を し て 遊ぶ」というテキスト情報に変換される。 The utterance content U11 is "playing a video game or a game on a personal computer". The voice recognition result An11 is a result obtained by executing voice recognition based on the bone conduction voice, and is converted into text information "playing a game with a video game or a young sound". The voice recognition result An21 is a result obtained by executing voice recognition based on the air-conducted voice, and is converted into text information such as "That is a video game or a one-game play on a personal computer." The voice recognition result An31 is a result obtained by executing voice recognition based on the air conduction voice converted from the bone conduction voice using a learning model, and is called "playing a game on a video game or a personal computer". Converted to text information.

発話内容U12は、「あらゆる 現実を すべて 自分の方へ ねじ曲げたのだ」である。音声認識結果An12は、骨導音声に基づいて音声認識を実行して得られた結果であり、「あらゆる 現 F を、ら すべて 自分 の 方 へ、 ねじ曲げ た の だ」というテキスト情報に変換される。音声認識結果An22は、気導音声に基づいて音声認識を実行して得られた結果であり、「うーん あらゆる 現実 を ら すべて の 主婦 の 方 へ、 ねじ曲げ た の だろ う」というテキスト情報に変換される。音声認識結果An32は、学習モデルを用いて骨導音声から変換された気導音声に基づいて音声認識を実行して得られた結果であり、「あらゆる 現実 を、 すべて 自分 の 方 へ、 ねじ曲げ た の だ」というテキスト情報に変換される。 The utterance content U12 is "I twisted all the reality toward myself." Speech recognition result An12 is the result obtained by performing speech recognition based on bone conduction speech, and is converted into text information that "every present F is twisted toward oneself." .. The speech recognition result An22 is the result obtained by performing speech recognition based on the air-conducted speech, and is converted into the text information "Hmm, I wonder if every reality was twisted toward all housewives." To. The speech recognition result An32 is the result obtained by performing speech recognition based on the air conduction speech converted from the bone conduction speech using the learning model, and "twisted all the realities toward oneself." It is converted to the text information "Noda".

以上により、音声テキスト変換システム100は、学習モデルを用いて骨導音声を気導音声に変換することにより、ユーザの発話内容を類似する音声認識結果(テキスト情報)を得ることができる。 As described above, the voice text conversion system 100 can obtain a voice recognition result (text information) similar to the user's utterance content by converting the bone conduction voice into the air conduction voice using the learning model.

また、音声テキスト変換システム100は、音声認識結果(テキスト情報)を用いることにより、ノイズを低減した音声信号を生成することができる。 Further, the voice-text conversion system 100 can generate a voice signal with reduced noise by using the voice recognition result (text information).

また、実施の形態1に係る音声テキスト変換システム100について、その他の実施例について説明する。 In addition, other examples of the voice-text conversion system 100 according to the first embodiment will be described.

端末装置2は、図2に示す内部構成例に限定されない。端末装置2は、例えば、サーバ3の構成を含んで構成されてもよい。この場合、音声テキスト変換装置100Aは、ネットワークNW1およびサーバ3が不要となり省略することができる。以下、図7を参照して説明する。 The terminal device 2 is not limited to the internal configuration example shown in FIG. The terminal device 2 may be configured including, for example, the configuration of the server 3. In this case, the voice-text converter 100A does not require the network NW1 and the server 3, and can be omitted. Hereinafter, description will be made with reference to FIG. 7.

図7は、音声テキスト変換装置100Aの一例を示す図である。なお、図7に示す音声テキスト変換装置100Aの構成は、実施の形態1に係る音声テキスト変換システム100において説明した構成が有する機能と略同一の機能を有するため、同一の構成については同一の符号を付与して説明を省略する。 FIG. 7 is a diagram showing an example of the voice text conversion device 100A. Since the configuration of the voice text conversion device 100A shown in FIG. 7 has substantially the same function as the function described in the voice text conversion system 100 according to the first embodiment, the same reference numerals are given to the same configuration. Is added to omit the description.

図7に示す音声テキスト変換装置100Aは、受音器1と、端末装置2と、を含んで構成される。端末装置2は、さらに音声判別部33と、音声変換部34と、音声認識部35と、出力部36と、記憶部37と、テキスト音声変換部38と、を含んで構成される。なお、テキスト音声変換部38は必須の構成でなく、省略されてもよい。また、端末装置2は、さらにテキスト情報を表示する表示部(不図示)などを備えてもよい。 The voice-text conversion device 100A shown in FIG. 7 includes a sound receiver 1 and a terminal device 2. The terminal device 2 is further composed of a voice discrimination unit 33, a voice conversion unit 34, a voice recognition unit 35, an output unit 36, a storage unit 37, and a text voice conversion unit 38. The text-to-speech conversion unit 38 is not an essential configuration and may be omitted. Further, the terminal device 2 may further include a display unit (not shown) for displaying text information.

以上により、実施の形態1に係る音声テキスト変換システム100は、音声を収音する受音器1が接続された端末装置2とサーバ3との間が通信可能であり、端末装置2は、受音器により収音された音声の音声信号をサーバ3に送信し、サーバ3は、端末装置2から受信された音声信号に基づいて、音声がユーザの声帯の振動に基づく骨導音声あるいは空気を介したユーザの鼓膜の振動に基づく気導音声のいずれかを判別し、骨導音声を気導音声に変換し、気導音声をテキスト情報に変換し、変換されたテキスト情報を出力する。 As described above, the voice text conversion system 100 according to the first embodiment can communicate between the terminal device 2 and the server 3 to which the sound receiver 1 for collecting the sound is connected, and the terminal device 2 receives the sound. The voice signal of the voice picked up by the sound device is transmitted to the server 3, and the server 3 transmits the bone conduction voice or air based on the vibration of the user's vocal band based on the voice signal received from the terminal device 2. It discriminates one of the air-conducted voices based on the vibration of the user's tympanic membrane, converts the bone-conducted voice into air-conducted voice, converts the air-conducted voice into text information, and outputs the converted text information.

これにより、実施の形態1に係る音声テキスト変換システム100は、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。 As a result, the voice-to-text conversion system 100 according to the first embodiment can recognize the voice and convert the text according to the type of the connected microphone.

また、音声テキスト変換システム100は、音声が気導音声の場合、気導音声をテキスト情報に変換し、変換されたテキスト情報を出力する。これにより、実施の形態1に係る音声テキスト変換システム100は、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。 Further, when the voice is an air-conducted voice, the voice-text conversion system 100 converts the air-conducted voice into text information and outputs the converted text information. As a result, the voice-to-text conversion system 100 according to the first embodiment can recognize the voice and convert the text according to the type of the connected microphone.

また、受音器1は、骨導音声を取得する骨導マイクロホンMC1または気導音声を取得する気導マイクロホンMC2のいずれか一方を備える。これにより、音声テキスト変換システム100は、複数の種類のマイクロホンを接続可能であり、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。 Further, the sound receiver 1 includes either the bone conduction microphone MC1 for acquiring the bone conduction sound or the air conduction microphone MC2 for acquiring the air conduction sound. As a result, the voice-text conversion system 100 can connect a plurality of types of microphones, and can perform voice recognition and text conversion of voice according to the types of connected microphones.

また、サーバ3は、音声信号のスペクトル特性のうち高周波数成分と低周波数成分との比率に基づいて、音声信号が骨導音声あるいは気導音声のいずれかを判別する。これにより、音声テキスト変換システム100は、音声信号の基となる音声が骨導音声あるいは気導音声のいずれかを判別可能であり、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。 Further, the server 3 determines whether the audio signal is a bone conduction voice or an air conduction voice based on the ratio of the high frequency component and the low frequency component in the spectral characteristics of the voice signal. As a result, the voice-to-speech conversion system 100 can discriminate whether the voice that is the basis of the voice signal is a bone conduction voice or an air conduction voice, and recognizes the voice according to the type of the connected microphone. Can be converted to text.

また、サーバ3は、端末装置2から音声信号を受信した際に降下する電圧値(つまり、電圧降下値)に基づいて、音声信号が骨導音声あるいは気導音声のいずれかを判別する。これにより、音声テキスト変換システム100は、音声信号の基となる音声が骨導音声あるいは気導音声のいずれかを判別可能であり、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。 Further, the server 3 determines whether the voice signal is the bone conduction voice or the air conduction voice based on the voltage value (that is, the voltage drop value) that drops when the voice signal is received from the terminal device 2. As a result, the voice-to-speech conversion system 100 can discriminate whether the voice that is the basis of the voice signal is a bone conduction voice or an air conduction voice, and recognizes the voice according to the type of the connected microphone. Can be converted to text.

また、サーバ3は、受音器1により収音された音声が骨導音声の場合、音声信号に前記音声が骨導音声であることを示す識別子を付与する。これにより、音声テキスト変換システム100は、音声信号の基となる音声が骨導音声であることを、より明確にしてその後の処理を実行できる。 Further, when the voice picked up by the sound receiver 1 is a bone conduction voice, the server 3 assigns an identifier indicating that the voice is a bone conduction voice to the voice signal. As a result, the voice-to-speech conversion system 100 can further clarify that the voice that is the basis of the voice signal is the bone conduction voice and execute the subsequent processing.

また、サーバ3は、識別子が付与されているか否かに基づいて、音声が骨導音声または気導音声であるかを判別する。これにより、音声テキスト変換システム100は、音声信号の基となる音声が骨導音声であることをより確実に判別できる。また、音声テキスト変換システム100は、デジタル音声信号の基となる音声が気導音声であるにも関わらず、降下した電圧値が大きくなってしまった場合に骨導音声と誤判別する可能性を低くすることができる。 Further, the server 3 determines whether the voice is a bone conduction voice or an air conduction voice based on whether or not an identifier is assigned. As a result, the voice-to-speech conversion system 100 can more reliably determine that the voice that is the basis of the voice signal is the bone conduction voice. Further, the voice-to-text conversion system 100 may erroneously determine that the voice that is the basis of the digital voice signal is the bone-conducted voice when the dropped voltage value becomes large even though the voice is the air-conducted voice. Can be lowered.

また、識別子は、音声と異なる周波数帯域の音源である。これにより、音声テキスト変換システム100は、ユーザの音声を損なうことなく識別子を付与することができ、さらに誤判別する可能性を低くすることができる。 The identifier is a sound source having a frequency band different from that of voice. As a result, the voice-text conversion system 100 can assign an identifier without damaging the user's voice, and can further reduce the possibility of erroneous determination.

また、サーバ3は、骨導音声を気導音声に変換するための学習モデルを有し、学習モデルは、骨導マイクロホンと気導マイクロホンとから同時に収音された音声に基づいて、骨導音声と気導音声の特徴量をそれぞれ抽出する。サーバ3は、抽出された骨導音声の特徴量を気導音声の特徴量に変換する。これにより、音声テキスト変換システム100は、効率的な音声認識を実行することができるとともに、気導音声の特徴量に変換する際に骨導音声特有の雑音を除去することができる。 Further, the server 3 has a learning model for converting the bone conduction voice into the air conduction voice, and the learning model is based on the voice picked up from the bone conduction microphone and the air conduction microphone at the same time. And the feature amount of the air conduction voice is extracted respectively. The server 3 converts the feature amount of the extracted bone conduction voice into the feature amount of the air conduction voice. As a result, the voice-text conversion system 100 can perform efficient voice recognition and can remove noise peculiar to bone-conducted voice when converting to a feature amount of air-conducted voice.

また、サーバ3は、気導音声をデータベースとする音響モデルを用いて音声認識する。これにより、音声テキスト変換システム100は、効率的な音声認識を実行することができる。 Further, the server 3 recognizes the voice by using an acoustic model using the air conduction voice as a database. As a result, the voice-text conversion system 100 can perform efficient voice recognition.

また、サーバ3は、受音器1により収音された音声が骨導音声の場合に、骨導音声に基づいて変換された気導音声を第1のテキスト情報に変換する第1の音声認識処理と、骨導音声を第2のテキスト情報に変換する第2の音声認識処理とを実行する。サーバ3は、第1のテキスト情報および第2のテキスト情報のそれぞれにおける信頼度を判定して比較し、信頼度が高い方のテキスト情報を出力する。これにより、音声テキスト変換システム100は、受音器1によって収音された音声をより正確にテキスト情報に変換できる。 Further, the server 3 is a first voice recognition that converts the air-conducted voice converted based on the bone-conducted voice into the first text information when the voice picked up by the sound receiver 1 is the bone-conducted voice. The process and the second speech recognition process of converting the bone conduction voice into the second text information are executed. The server 3 determines and compares the reliability of each of the first text information and the second text information, and outputs the text information having the higher reliability. As a result, the voice-text conversion system 100 can more accurately convert the voice picked up by the sound receiver 1 into text information.

実施の形態1の変形例に係る音声テキスト変換装置100Aは、音声を収音する受音器1との間で通信可能な音声テキスト変換装置100Aであって、受音器により収音された音声が、ユーザの声帯の振動に基づく骨導音声あるいは空気を介したユーザの鼓膜の振動に基づく気導音声のいずれかを判別する音声判別部と、骨導音声を前記気導音声に変換する音声変換部と、気導音声をテキスト情報に変換する音声認識部と、変換された前記テキスト情報を出力する出力部と、を備える。 The voice text conversion device 100A according to the modification of the first embodiment is a voice text conversion device 100A capable of communicating with a sound receiver 1 that collects voice, and is a voice picked up by the sound receiver. Is a voice discriminator that determines either a bone conduction voice based on the vibration of the user's voice band or an air conduction voice based on the vibration of the user's tympanic membrane via air, and a voice that converts the bone conduction voice into the air conduction voice. It includes a conversion unit, a voice recognition unit that converts air conduction voice into text information, and an output unit that outputs the converted text information.

これにより、実施の形態1の変形例に係る音声テキスト変換装置100Aは、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる。 As a result, the voice text conversion device 100A according to the modified example of the first embodiment can recognize the voice and convert the text according to the type of the connected microphone.

以上、添付図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。 Although various embodiments have been described above with reference to the accompanying drawings, the present disclosure is not limited to such examples. It is clear that a person skilled in the art can come up with various modification examples, modification examples, replacement examples, addition examples, deletion examples, and equal examples within the scope of claims. It is understood that it belongs to the technical scope of the present disclosure. In addition, each component in the various embodiments described above may be arbitrarily combined as long as the gist of the invention is not deviated.

本開示は、音声テキスト変換システムおよび音声テキスト変換装置の提示において、接続されたマイクロホンの種類に応じて、音声を音声認識し、テキスト変換できる音声テキスト変換システムおよび音声テキスト変換装置の提示の提示として有用である。 The present disclosure presents a speech-to-speech conversion system and a speech-text converter that can recognize speech and perform text conversion according to the type of connected microphone in the presentation of the speech-to-speech conversion system and the speech-to-speech converter. It is useful.

1 受音器
11 マイク接続端子
2 端末装置
20,30 通信部
21,31 プロセッサ
22,32 メモリ
23 A/D変換部
3 サーバ
33 音声判別部
34 音声変換部
35 音声認識部
36 出力部
37 記憶部
100 音声テキスト変換システム
100A 音声テキスト変換装置
NW1 ネットワーク
MC1 骨導マイクロホン
MC2 気導マイクロホン
1 Sound receiver 11 Microphone connection terminal 2 Terminal device 20, 30 Communication unit 21, 31 Processor 22, 32 Memory 23 A / D conversion unit 3 Server 33 Voice discrimination unit 34 Voice conversion unit 35 Voice recognition unit 36 Output unit 37 Storage unit 100 Voice-to-text conversion system 100A Voice-to-text conversion device NW1 Network MC1 Bone conduction microphone MC2 Air conduction microphone

Claims (12)

音声を収音する受音器が接続された端末装置とサーバとの間で通信可能な音声テキスト変換システムであって、
前記端末装置は、
前記受音器により収音された前記音声の音声信号を前記サーバに送信し、
前記サーバは、
前記端末装置から受信された前記音声信号に基づいて、前記音声がユーザの声帯の振動に基づく骨導音声あるいは空気を介した前記ユーザの鼓膜の振動に基づく気導音声のいずれかを判別し、
前記音声が前記骨導音声の場合、
前記骨導音声を前記気導音声に変換し、
前記気導音声をテキスト情報に変換し、
変換された前記テキスト情報を出力する、
音声テキスト変換システム。
It is a voice-text conversion system that can communicate between a terminal device and a server to which a sound receiver that collects voice is connected.
The terminal device is
The voice signal of the voice picked up by the sound receiver is transmitted to the server.
The server
Based on the voice signal received from the terminal device, it is determined whether the voice is a bone conduction voice based on the vibration of the user's vocal cords or an air conduction voice based on the vibration of the eardrum of the user via air.
When the voice is the bone conduction voice,
The bone conduction voice is converted into the air conduction voice,
Convert the air conduction voice into text information and
Output the converted text information,
Speech-to-text conversion system.
前記音声が前記気導音声の場合、前記気導音声をテキスト情報に変換し、変換された前記テキスト情報を出力する、
請求項1に記載の音声テキスト変換システム。
When the voice is the air conduction voice, the air conduction voice is converted into text information, and the converted text information is output.
The voice-to-text conversion system according to claim 1.
前記受音器は、前記骨導音声を取得する骨導マイクロホンまたは前記気導音声を取得する気導マイクロホンのいずれか一方を備える、
請求項1または2に記載の音声テキスト変換システム。
The sound receiver comprises either a bone conduction microphone that acquires the bone conduction sound or an air conduction microphone that acquires the air conduction sound.
The voice-to-text conversion system according to claim 1 or 2.
前記サーバは、前記音声信号のスペクトル特性のうち高周波数成分と低周波数成分との比率に基づいて、前記音声信号が前記骨導音声あるいは前記気導音声のいずれかを判別する、
請求項1または2に記載の音声テキスト変換システム。
The server determines whether the voice signal is the bone conduction voice or the air conduction voice based on the ratio of the high frequency component and the low frequency component in the spectral characteristics of the voice signal.
The voice-to-text conversion system according to claim 1 or 2.
前記サーバは、前記端末装置から前記音声信号を受信した際に、前記受音器における電圧降下値に基づいて、前記音声信号が前記骨導音声あるいは前記気導音声のいずれかを判別する、
請求項1または2に記載の音声テキスト変換システム。
When the server receives the voice signal from the terminal device, the server determines whether the voice signal is the bone conduction voice or the air conduction voice based on the voltage drop value in the sound receiver.
The voice-to-text conversion system according to claim 1 or 2.
前記サーバは、前記受音器により収音された前記音声が前記骨導音声の場合、前記音声が前記骨導音声であることを示す識別子を前記音声信号に付与する、
請求項4または5に記載の音声テキスト変換システム。
When the voice picked up by the sound receiver is the bone conduction voice, the server assigns an identifier indicating that the voice is the bone conduction voice to the voice signal.
The voice-to-text conversion system according to claim 4 or 5.
前記サーバは、前記識別子の有無に基づいて、前記音声が前記骨導音声または前記気導音声であるかを判別する、
請求項6に記載の音声テキスト変換システム。
The server determines whether the voice is the bone conduction voice or the air conduction voice based on the presence or absence of the identifier.
The voice-to-text conversion system according to claim 6.
前記識別子は、前記音声と異なる周波数帯域の音源の音声信号である、
請求項6に記載の音声テキスト変換システム。
The identifier is an audio signal of a sound source having a frequency band different from that of the audio.
The voice-to-text conversion system according to claim 6.
前記サーバは、前記骨導音声を前記気導音声に変換するための学習モデルを有し、
前記学習モデルは、前記骨導マイクロホンと前記気導マイクロホンとから同時に収音された前記音声に基づいて、前記骨導音声および前記気導音声のそれぞれの特徴量を抽出し、抽出された前記骨導音声の特徴量を前記気導音声の特徴量に変換する、
請求項3に記載の音声テキスト変換システム。
The server has a learning model for converting the bone conduction voice into the air conduction voice.
The learning model extracts the feature amounts of the bone conduction voice and the air conduction voice based on the voice picked up from the bone conduction microphone and the air conduction microphone at the same time, and the extracted bone. Converting the feature amount of the guide sound into the feature amount of the air guide voice,
The voice-text conversion system according to claim 3.
前記サーバは、前記気導音声をデータベースとする音響モデルを用いて音声認識する、
請求項1または2に記載の音声テキスト変換システム。
The server recognizes voice using an acoustic model using the air conduction voice as a database.
The voice-to-text conversion system according to claim 1 or 2.
前記サーバは、
前記受音器により収音された前記音声が前記骨導音声の場合に、前記骨導音声に基づいて変換された前記気導音声を第1のテキスト情報に変換する第1の音声認識処理と、前記骨導音声を第2のテキスト情報に変換する第2の音声認識処理とを実行し、
前記第1のテキスト情報および前記第2のテキスト情報のそれぞれにおける信頼度を判定して比較し、前記信頼度が高い方のテキスト情報を出力する、
請求項1または2に記載の音声テキスト変換システム。
The server
When the voice picked up by the sound receiver is the bone conduction voice, the first voice recognition process for converting the air conduction voice converted based on the bone conduction voice into the first text information. , A second voice recognition process that converts the bone conduction voice into a second text information is executed.
The reliability of each of the first text information and the second text information is determined and compared, and the text information having the higher reliability is output.
The voice-to-text conversion system according to claim 1 or 2.
音声を収音する受音器との間で通信可能な音声テキスト変換装置であって、
前記受音器により収音された前記音声が、ユーザの声帯の振動に基づく骨導音声あるいは空気を介した前記ユーザの鼓膜の振動に基づく気導音声のいずれかを判別する音声判別部と、
前記骨導音声を前記気導音声に変換する音声変換部と、
前記気導音声をテキスト情報に変換する音声認識部と、
変換された前記テキスト情報を出力する出力部と、を備える、
音声テキスト変換装置。
A voice-to-text converter that can communicate with a sound receiver that picks up sound.
A voice discrimination unit that determines whether the sound picked up by the sound receiver is a bone conduction sound based on the vibration of the user's vocal cords or an air conduction sound based on the vibration of the user's eardrum via air.
A voice conversion unit that converts the bone conduction voice into the air conduction voice,
A voice recognition unit that converts the air-conducted voice into text information,
An output unit that outputs the converted text information is provided.
Speech-to-text converter.
JP2019103763A 2019-06-03 2019-06-03 Speech-to-text conversion system and speech-to-text conversion device Active JP7373739B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019103763A JP7373739B2 (en) 2019-06-03 2019-06-03 Speech-to-text conversion system and speech-to-text conversion device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019103763A JP7373739B2 (en) 2019-06-03 2019-06-03 Speech-to-text conversion system and speech-to-text conversion device

Publications (2)

Publication Number Publication Date
JP2020197629A true JP2020197629A (en) 2020-12-10
JP7373739B2 JP7373739B2 (en) 2023-11-06

Family

ID=73649059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019103763A Active JP7373739B2 (en) 2019-06-03 2019-06-03 Speech-to-text conversion system and speech-to-text conversion device

Country Status (1)

Country Link
JP (1) JP7373739B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102366057B1 (en) * 2021-06-07 2022-02-23 (주)한스타일엔지니어링 Management Method of Shooting Information in Buildings, and User's Terminal Being Installed with Program for Executing the Method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250577A (en) * 1999-02-24 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> Voice recognition device and learning method and learning device to be used in the same device and recording medium on which the same method is programmed and recorded
JP2002258729A (en) * 2000-12-27 2002-09-11 Hiroshi Ono Foreign language learning system, information processing terminal for the same and server
JP2004279768A (en) * 2003-03-17 2004-10-07 Mitsubishi Heavy Ind Ltd Device and method for estimating air-conducted sound
JP2014191238A (en) * 2013-03-27 2014-10-06 Brother Ind Ltd Voice recognition device and speech recognition program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250577A (en) * 1999-02-24 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> Voice recognition device and learning method and learning device to be used in the same device and recording medium on which the same method is programmed and recorded
JP2002258729A (en) * 2000-12-27 2002-09-11 Hiroshi Ono Foreign language learning system, information processing terminal for the same and server
JP2004279768A (en) * 2003-03-17 2004-10-07 Mitsubishi Heavy Ind Ltd Device and method for estimating air-conducted sound
JP2014191238A (en) * 2013-03-27 2014-10-06 Brother Ind Ltd Voice recognition device and speech recognition program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102366057B1 (en) * 2021-06-07 2022-02-23 (주)한스타일엔지니어링 Management Method of Shooting Information in Buildings, and User's Terminal Being Installed with Program for Executing the Method
WO2022260257A1 (en) * 2021-06-07 2022-12-15 (주)한스타일엔지니어링 Method for managing photographing information in building subject to safety diagnosis, and worker terminal having installed thereon program for executing method for managing photographing information in building subject to safety diagnosis

Also Published As

Publication number Publication date
JP7373739B2 (en) 2023-11-06

Similar Documents

Publication Publication Date Title
KR101183344B1 (en) Automatic speech recognition learning using user corrections
JP4786384B2 (en) Audio processing apparatus, audio processing method, and audio processing program
KR101394253B1 (en) Apparatus for correcting error of speech recognition
US6470315B1 (en) Enrollment and modeling method and apparatus for robust speaker dependent speech models
WO2020224217A1 (en) Speech processing method and apparatus, computer device, and storage medium
US20050244020A1 (en) Microphone and communication interface system
JP6654611B2 (en) Growth type dialogue device
US20100198577A1 (en) State mapping for cross-language speaker adaptation
US11587547B2 (en) Electronic apparatus and method for controlling thereof
JP6284462B2 (en) Speech recognition method and speech recognition apparatus
JP2008032834A (en) Speech translation apparatus and method therefor
CN110675866B (en) Method, apparatus and computer readable recording medium for improving at least one semantic unit set
JP4940414B2 (en) Audio processing method, audio processing program, and audio processing apparatus
JPWO2006083020A1 (en) Speech recognition system for generating response speech using extracted speech data
JP6599828B2 (en) Sound processing method, sound processing apparatus, and program
KR20180033875A (en) Method for translating speech signal and electronic device thereof
KR20160061071A (en) Voice recognition considering utterance variation
JP7373739B2 (en) Speech-to-text conversion system and speech-to-text conversion device
JP4883750B2 (en) Acoustic rating device and program
JP5354485B2 (en) Speech support method
JP2001195087A (en) Voice recognition system
US11043212B2 (en) Speech signal processing and evaluation
JP4798606B2 (en) Speech recognition apparatus and program
KR102457822B1 (en) apparatus and method for automatic speech interpretation
US11783813B1 (en) Methods and systems for improving word discrimination with phonologically-trained machine learning models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231012

R151 Written notification of patent or utility model registration

Ref document number: 7373739

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151