WO2013027360A1 - 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置 - Google Patents

音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置 Download PDF

Info

Publication number
WO2013027360A1
WO2013027360A1 PCT/JP2012/005073 JP2012005073W WO2013027360A1 WO 2013027360 A1 WO2013027360 A1 WO 2013027360A1 JP 2012005073 W JP2012005073 W JP 2012005073W WO 2013027360 A1 WO2013027360 A1 WO 2013027360A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition
data
voice
acoustic model
speech recognition
Prior art date
Application number
PCT/JP2012/005073
Other languages
English (en)
French (fr)
Inventor
岡本 明浩
Original Assignee
旭化成株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 旭化成株式会社 filed Critical 旭化成株式会社
Priority to JP2013529863A priority Critical patent/JP5613335B2/ja
Priority to EP12825178.2A priority patent/EP2747077A4/en
Priority to US14/126,567 priority patent/US9601107B2/en
Priority to CN201280032327.6A priority patent/CN103635962B/zh
Publication of WO2013027360A1 publication Critical patent/WO2013027360A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Definitions

  • the present invention relates to a speech recognition system for inputting commands by voice, a recognition dictionary registration system for automatically registering recognition data of a recognition dictionary used in the speech recognition system, and an acoustic model identifier series constituting the recognition data
  • the present invention relates to an acoustic model identifier sequence generation device that automatically generates
  • a terminal having a voice recognition function for inputting commands by voice has been proposed.
  • relatively large-scale hardware is required.
  • the hardware that can be installed there is a limit to the hardware that can be installed. Therefore, in a portable terminal or the like, there is a possibility that a voice recognition function having the required accuracy cannot be realized.
  • Patent Document 1 The speech recognition system proposed by Patent Document 1 is a speech recognition system composed of a server and a client. In this speech recognition system, first, primary speech recognition is performed on speech data acquired by a client (mobile terminal) using a first recognition dictionary. When primary voice recognition is impossible, the client transfers the voice data to the server.
  • the server performs secondary speech recognition of the speech data using the second recognition dictionary in which more vocabularies are stored than the first recognition dictionary.
  • the server creates recognition data for registration in the first recognition dictionary and transmits it to the client.
  • the client registers the received recognition data in the first recognition dictionary.
  • speech recognition is normally performed by extracting a certain feature amount from the acquired speech data and calculating the probability of each of a plurality of recognition data included in the recognition dictionary using the feature amount. Therefore, the recognition data included in the recognition dictionary must be data corresponding to the feature quantity to be extracted.
  • the recognition data generated by the server is stored in the client. It can be registered in the recognition dictionary, and the client can perform voice recognition using the recognition dictionary in which the recognition data is additionally registered.
  • the server and the client can use the newly added recognition data. Cannot be used. Therefore, it is necessary to take measures such as controlling the server so as to create recognition data corresponding to the feature amount used by the client.
  • the server that performs the secondary speech recognition is not under the control of the client system builder itself, the server and the client can use the same type of feature recognition as well as the voice recognition that can be used in the client system on the server side. It is difficult to generate data.
  • a speech recognition system capable of additionally registering the used recognition data in the recognition dictionary of the client side speech recognition device, a recognition dictionary registration system, and an acoustic model for automatically generating an acoustic model identifier series constituting the recognition data
  • An object is to provide an identifier sequence generation device.
  • One aspect of the present invention includes a first speech recognition device, a second speech recognition device, and an acoustic model identifier sequence generation device, wherein the first speech recognition device acquires and acquires speech.
  • a speech input unit that outputs speech data of speech, information related to a character string, and a series of identifiers of an acoustic model based on a first type feature amount corresponding to the information related to the character string, for recognition
  • the first type feature quantity is extracted from a first recognition dictionary in which data is stored and one voice data output from the voice input unit, and the first type feature quantity and the first type are extracted.
  • a first speech recognition processing unit that performs speech recognition processing of the one speech data using a recognition dictionary; and a recognition data registration unit, wherein the second speech recognition device includes information on a character string Corresponding to information about the string
  • a second recognition dictionary storing recognition data formed by combining a series of identifiers of acoustic models based on a second type of feature quantity different from the first type of feature quantity; and the one speech
  • the second type feature quantity is extracted from the data, the voice data is subjected to voice recognition processing using the second type feature quantity and the second recognition dictionary, and the one voice data is obtained.
  • a second speech recognition processing unit that transmits information related to a character string corresponding to the outside, wherein the acoustic model identifier sequence generation device extracts the first type feature amount from the one speech data And generating an acoustic model identifier sequence based on the first type of feature quantity corresponding to the one audio data, and transmitting the acoustic model identifier sequence.
  • the intelligent data registration unit includes an acoustic model identifier series based on the first type feature quantity corresponding to the one voice data transmitted by the acoustic model identifier series generation unit, and the second voice recognition process.
  • the recognition data to be stored in the first recognition dictionary is combined with the first recognition dictionary.
  • the above configuration further includes a noise data storage unit in which noise data is stored, and the acoustic model identifier sequence generation unit generates the first type from the second audio data in which the noise data is superimposed on the one audio data. And generating a series of identifiers of an acoustic model based on the first type feature quantity corresponding to the one audio data from the extracted first type feature quantity. Good.
  • the acoustic model identifier series generation unit adds the noise data to the one voice data so that a ratio between a human voice energy and a noise energy included in the second voice data becomes a preset ratio. It may be superposed.
  • the second speech recognition processing unit determines that speech recognition is not possible in the speech recognition processing for the first speech data in the first speech recognition processing unit, the second speech recognition processing unit A speech recognition process may be performed on the one speech data determined to be unrecognizable.
  • the second speech recognition processing unit outputs a plurality of candidates for information relating to a character string corresponding to the one speech data
  • the first speech recognition device outputs the one that is output by the second speech recognition processing unit.
  • a selection unit that selects one candidate from a plurality of candidates for information related to the character string corresponding to the voice data
  • the recognition data registration unit transmits the one of the acoustic model identifier sequence generation unit
  • recognition information to be stored in the first recognition dictionary formed by a combination of the information and the recognition data may be registered in the first recognition dictionary.
  • the acoustic model identifier series generation device may be mounted in a housing different from the first speech recognition device.
  • the acoustic model identifier series generation device may be mounted on a server device that can communicate with the first speech recognition device.
  • the acoustic model identifier series generation device may be mounted in the same casing as the first speech recognition device.
  • the first speech recognition processing unit may be mounted on a terminal device, and the second speech recognition processing unit may be mounted on a server device that can communicate with the terminal device.
  • Another aspect of the present invention includes a first speech recognition device and an acoustic model identifier series generation device, wherein the first speech recognition device includes information relating to a character string and first information corresponding to the character string.
  • a first recognition dictionary that stores recognition data formed by combining a series of identifiers of acoustic models based on features of different types, and voice input that acquires voice and outputs voice data of the acquired voice
  • the first type of feature data is extracted from the one type of voice data, and the first type of feature value and the first recognition dictionary are used.
  • a first voice recognition processing unit that performs voice recognition processing of the one voice data; and a recognition data registration unit, wherein the acoustic model identifier sequence generation device generates the first voice data from the first voice data.
  • An acoustic model identifier sequence for generating an acoustic model identifier series based on the first type feature quantity corresponding to the first audio data from a first type feature quantity and transmitting the acoustic model identifier series includes information relating to a character string corresponding to the one speech data output from the second speech recognition device; Recognition data to be stored in the first recognition dictionary formed by combining a sequence of identifiers of an acoustic model based on the first type of feature amount transmitted by the model identifier sequence generation device is the first recognition dictionary.
  • the second speech recognition device is based on information on the character string and a second type feature amount corresponding to the information on the character string and different from the first type feature amount.
  • Acoustic model A second recognition dictionary in which data for recognition formed by combining a sequence of identifiers of the data is stored, and the second type feature quantity is extracted from the one voice data, and the second type A second speech recognition processing unit that performs speech recognition processing using the feature amount and the second recognition dictionary, and transmits information on a character string corresponding to the one speech data to the outside. This is a recognition dictionary registration system.
  • an acoustic model based on a first type feature quantity corresponding to the voice data is extracted from voice data output from a voice input unit that acquires voice.
  • An acoustic model identifier sequence generation device including an acoustic model identifier sequence generation unit that generates an identifier sequence of the acoustic model and transmits the identifier sequence of the acoustic model, wherein the acoustic model identifier sequence generation unit performs first speech recognition
  • a sequence of identifiers of the acoustic model is transmitted to a recognition data registration unit included in the device, and the first speech recognition device is characterized by the first type corresponding to the information related to the character string and the information related to the character string.
  • a first recognition dictionary storing recognition data formed by combining a series of identifiers of an acoustic model based on a quantity; and extracting the first type feature quantity from the speech data;
  • a first speech recognition processing unit that performs speech recognition processing of the speech data using the type of feature quantity and the first recognition dictionary, and the recognition data registration unit,
  • the data registration unit outputs information from the second speech recognition device regarding the character string corresponding to the speech data, and the first type of the first type corresponding to the speech data transmitted by the acoustic model identifier sequence generation device.
  • the second speech recognition apparatus is configured to register, in the first recognition dictionary, recognition data for storing in the first recognition dictionary, which is a combination of an identifier of an acoustic model based on a feature quantity.
  • An acoustic model identifier sequence generation device comprising: a second speech recognition processing unit that performs processing and transmits information on a character string corresponding to the speech data to the outside.
  • recognition data using a speech recognition result obtained by performing speech recognition using a speech recognition device not under the control of the system builder itself is automatically stored in the recognition dictionary of the client-side speech recognition device.
  • a speech recognition system a recognition dictionary registration system, and an acoustic model identifier sequence generation device that automatically generates an acoustic model identifier sequence that constitutes the recognition data.
  • FIG. 1 is a schematic configuration diagram illustrating an example of a speech recognition system 100 according to an embodiment of the present invention.
  • the speech recognition system 100 constitutes a speech recognition system including a recognition dictionary registration system 110 and a second server device (second speech recognition device) 60.
  • the speech recognition system 100 includes a user terminal 50 (first speech recognition device), a first server device (acoustic model identifier sequence generation device) 70, and a second server device (second speech recognition device) 60.
  • the user terminal 50 is configured to be communicable between the first server device 70 and the second server device 60 by wire or wireless.
  • the recognition dictionary registration system 110 is configured by removing the second server device (second speech recognition device) 60 from the speech recognition system 100, and includes a user terminal (first speech recognition device) 50 and a first server. And an apparatus (acoustic model identifier series generation apparatus) 70.
  • the user terminal 50 includes a voice input unit 2, a first voice recognition unit 3, an operation control unit 5, a temporary storage unit 6, a recognition data registration unit 7, a display control unit 8, and a display device 9 and an operation input unit 10.
  • the voice input unit 2 is composed of a sound collecting device such as a microphone.
  • the voice input unit 2 converts the uttered voice into an analog electric signal corresponding to the voice, converts the electric signal into a digital signal by an A / D converter (not shown), and converts the electric signal as voice data to the operation control unit 5. Output.
  • the audio data is not particularly limited as long as it is data representing sound.
  • the first speech recognition unit 3 includes a first speech recognition processing unit 3a and a first recognition dictionary 3b.
  • the first voice recognition processing unit 3a inputs voice data from the voice input unit 2 via the operation control unit 5, and performs voice recognition on the voice data.
  • the first speech recognition processing unit 3a extracts time-series data of feature amounts (first type feature amounts) for speech recognition from speech data composed of digital signals. Furthermore, the first speech recognition processing unit 3a uses an acoustic model identifier series and an acoustic model (a data group in which a feature amount is defined for each identifier) of each piece of recognition data stored in the first recognition dictionary 3b. Then, the most likely recognition data is selected by analyzing the time-series data of the feature amount by a Viterbi algorithm. Then, the character string constituting the selected recognition data is acquired as a character string that becomes the recognition result of the input voice data.
  • the first speech recognition processing unit 3a can acquire the corresponding character string from the first recognition dictionary 3b as a result of the speech recognition on the speech data, the first speech recognition processing unit 3a recognizes that the speech recognition is successful.
  • the notification is output to the operation control unit 5, and the character string acquired as a result of the speech recognition is output to the display control unit 8 together with the recognition success notification.
  • a recognition failure notification indicating that voice recognition has failed cannot be output to the operation control unit 5 and the display control unit 8. To do.
  • a character string and an acoustic model identifier series that is a series of acoustic model identifiers corresponding to the character string are associated with each other and stored as recognition data.
  • Registration of recognition data in the first recognition dictionary 3b is performed in advance by the following procedure. That is, when the user utters toward the voice input unit 2 according to the character string to be registered, voice data corresponding to the character string to be registered is acquired. Voice recognition processing is performed on the voice data using a Viterbi algorithm to which a Hidden Markov Model is applied.
  • the acoustic models of all the phonetic symbols (for example, the Japanese syllabary) that are held in advance are arranged in parallel, and from the input speech data using the recognition dictionary that evaluates it in an infinite loop until the end of the utterance.
  • An acoustic model sequence (sequence of identifiers for each acoustic model) corresponding to the extracted time-series data of feature quantities is sequentially obtained, and this is used as an acoustic model identifier sequence corresponding to a character string to be registered.
  • an acoustic model sequence of “a”, “Ri”, “Ga”, and “To” is acquired from voice data uttered by the user according to the characters “Thanks”, and the acquired acoustic model sequence is converted into a corresponding acoustic model identifier sequence.
  • the identifier corresponding to the acoustic model “a” is “0-1”
  • the identifier corresponding to the acoustic model “Ri” is “13-9”
  • the acoustic model corresponding to “Ga” is supported.
  • the acoustic model corresponding to the acoustic model sequence “a” “Ri” “Ga” “To” ” The identifier series is ““ 0-1 ”,“ 13-9 ”,“ 7-1 ”,“ 20-15 ””.
  • the acoustic model identifier series and the output character string “Thanks” input by the operation input unit 10 are associated with each other and registered as recognition data in the first recognition dictionary 3b. Then, the first speech recognition processing unit 3a extracts time-series data of feature amounts (first type feature amounts) from the input speech data, and performs speech recognition processing using a Viterbi algorithm to which a Hidden Markov Model is applied. The character string corresponding to the time-series data of the feature amount is obtained from the first recognition dictionary 3b.
  • the first speech recognition processing unit 3a correlates how much the time-series feature amount time-series data extracted from the speech data and the recognition data registered in the first recognition dictionary 3b. Is evaluated by the likelihood (likelihood) by the Viterbi algorithm, and the character string corresponding to the speech data is obtained from the recognition data whose likelihood is equal to or greater than the threshold value.
  • a threshold value is not set and the one with the highest likelihood is always selected as the recognition processing result, the utterance has nothing to do with the vocabulary registered in the recognition dictionary. Also, the one with the highest likelihood included in the recognition dictionary is output. Therefore, a configuration is provided in which a threshold value is provided, and a recognition result is output that the likelihood is equal to or greater than the threshold value and only a certain degree of correlation is obtained as a recognition processing result, and that there is no correlation when there is no correlation. Yes. Note that it is not always necessary to set a threshold value, and there is no correlation even if the method is compared with the likelihood using dedicated recognition data (Garbage Model) for absorbing utterances that are completely unrelated. The recognition result can be output.
  • dedicated recognition data Garbage Model
  • the operation control unit 5 receives voice data from the voice input unit 2, and in accordance with the voice recognition result in the first voice recognition unit 3 for the voice data, the second server device (second voice recognition device). Operation control processing for executing the speech recognition processing at 60 is performed. In the second server device 60, independent voice recognition processing is executed independently of the voice recognition processing in the first voice recognition unit 3, and a character string corresponding to the input voice data is voice-recognized. Output as a result.
  • the operation control unit 5 first determines whether or not audio data is input from the audio input unit 2 in step S1, and when the audio data is input, The audio data is stored in the temporary storage unit 6 (step S2).
  • the first voice recognition unit 3 is instructed to execute voice recognition, and the voice data input from the voice input unit 2 is output to the first voice recognition unit 3 (step S3).
  • step S4 the operation control unit 5 proceeds from step S4 to step S5, and reads and reads the voice data stored in the temporary storage unit 6.
  • the voice data is output to the first server device 70 and the second server device 60. That is, the second server device 60 is instructed to perform voice recognition on the same voice data as the voice data that has failed in the first voice recognition unit 3.
  • the recognition data registration unit 7 receives the acoustic model identifier series created by the first server device 70, receives the character string obtained as a result of speech recognition by the second server device 60, and combines them. Recognition data is generated and registered in the first recognition dictionary 3b.
  • the display control unit 8 performs a display control process for outputting the speech recognition result in the first speech recognition unit 3 or the second server device 60 to the display device 9. Specifically, as shown in FIG. 3, when a recognition result is input from the first speech recognition unit 3 and a recognition success notification is input as the recognition result, the process proceeds from step S11 to step S12, together with the recognition result. The character string of the speech recognition result input from the first speech recognition unit 3 is output to the display device 9.
  • step S13 when the recognition failure notification is received as the recognition result from the first voice recognition unit 3, the process proceeds to step S13, and the voice recognition result in the second server device 60 is input from the second server device 60. This is output to the display device 9 (step S14).
  • step S15 when a plurality of candidates are set as the speech recognition result in the second server device 60, the process proceeds to step S16, and the operation input unit 10 (of the plurality of candidates displayed on the display device 9).
  • the candidate selected by the selection unit is read, and this is output to the recognition data registration unit 7, and the process returns to step S11.
  • canceling is instructed by the operation input unit 10, the process directly returns to step S11.
  • step S15 when a plurality of candidates are not set as the speech recognition result in the second server device 60 in step S15, that is, when only one character string is input as the speech recognition result in the second server device 60, step S17. Migrate to Then, the user terminal 50 receives the voice recognition result of the second server device 60, outputs the received voice recognition result to the recognition data registration unit 7, and returns to step S11.
  • the second server device 60 includes a second speech recognition processing unit 14 a and a second recognition dictionary 14 b.
  • the second voice recognition processing unit 14a receives the voice data collected by the voice input unit 2 from the operation control unit 5 of the user terminal 50, and the recognition data of the second recognition dictionary 14b is input to the voice data. Voice recognition is performed using.
  • the second speech recognition processing unit 14a of the second server device 60 selects one candidate speech recognition result based on the degree (likelihood) that the input speech data and the recognition data are considered to be correlated. Multiple output. Then, the second speech recognition processing unit 14 a outputs one or more recognition result candidates obtained as a result of the speech recognition processing to the user terminal 50.
  • a character string and an acoustic model identifier series corresponding to the character string are associated with each other and stored as recognition data.
  • the correspondence between the acoustic model (the type and number of phonetic symbols of the acoustic model, the type and number of feature values, and the analysis method) and the identifier is different from that of the first recognition dictionary 3b of the first speech recognition unit 3. Good.
  • the second server device 60 does not necessarily have “ The identifier corresponding to the acoustic model “a” does not need to be “0-1”, and the unit of the acoustic model does not need to be a monophone.
  • the processing method in the second speech recognition processing unit 14a may be different from the processing method in the first speech recognition processing unit 3a. That is, the first speech recognition processing unit 3a extracts time-series data of feature amounts (first type feature amounts) for speech recognition from the speech data, but the second speech recognition processing unit 14a There is no need to extract the first type of feature quantity from the audio data, and a second type of feature quantity (time series data of the feature quantity) different from the first type of feature quantity is extracted and is used as the first type of feature quantity. Processing may be performed using an analysis technique different from the Viterbi algorithm used in the voice recognition processing unit 3a.
  • the second server device 60 only needs to recognize the acquired voice data and output a character string as a result of the recognition to the user terminal 50 that is the voice data transmission source. Absent.
  • the first server device (acoustic model identifier sequence generation device) 70 includes an acoustic model identifier sequence generation unit 27 and a noise data storage unit 27a.
  • the acoustic model identifier sequence generation unit 27 generates an acoustic model identifier sequence for registering the speech data in the first recognition dictionary 3 b of the first speech recognition unit 3 when speech data is input from the user terminal 50. . Specifically, when voice data is input from the user terminal 50, noise data is superimposed on the input voice data.
  • the noise data superimposing process is a process for improving the noise resistance, and the noise data stored in the noise data storage unit 27a in advance is superimposed on the input audio data to generate the noise superimposed audio data. Generate. At this time, the SN ratio of the input voice data is determined, and the noise data is superimposed on the voice data so that the SN ratio of the noise superimposed voice data becomes a preset SN ratio. Next, time series data of the same feature quantity as the feature quantity (first type feature quantity) extracted by the first speech recognition processing unit 3a is obtained for the noise superimposed voice data, and the first A sequence of identifiers of acoustic models acquired using an acoustic model of the same type as the acoustic model stored in the speech recognition processing unit 3a.
  • the acoustic models of all phonetic symbols (for example, the Japanese syllabary) that are stored in advance are arranged in parallel by the voice recognition processing using the Viterbi algorithm applying the Hidden Markov Model, and evaluated in an infinite loop until the end of the utterance
  • the acoustic model corresponding to the character string to be registered is obtained by obtaining an acoustic model sequence (sequence of identifiers of each acoustic model) corresponding to the time-series data of the feature amount extracted from the noise superimposed speech data using the recognition dictionary It is an identifier series.
  • the generated acoustic model identifier series is output to the user terminal 50 that is the transmission source of the audio data.
  • the operation of the above embodiment will be described.
  • the user utters “a Ri Ga To” corresponding to the character string “Thanks” toward the voice input unit 2
  • the uttered voice is collected by the voice input unit 2, subjected to predetermined processing, and is subjected to a digital signal. Is converted into audio data.
  • This voice data is input to the first voice recognition unit 3 via the operation control unit 5 (step S3 in FIG. 2), where voice recognition is performed.
  • the first recognition dictionary 3b of the first speech recognition unit 3 has recognition data consisting of a series of identifiers of acoustic models corresponding to the character strings “Thanks” and “a Ri Ga To”, speech recognition is performed. As a result, the character string “Thanks” is output to the display control unit 8 and displayed on the display device 9. On the other hand, when the first recognition dictionary 3b of the first speech recognition unit 3 does not have recognition data consisting of a series of identifiers of acoustic models corresponding to the character strings “Thanks” and “a Ri Ga To”. The first voice recognition unit 3 outputs a recognition failure notification to the operation control unit 5 as no corresponding data.
  • the operation control unit 5 reads out the voice data “a Ri Ga To” stored in the temporary storage 6 when the voice data is input, and outputs the voice data to the second server device 60.
  • the data is output to the first server device 70 (step S5 in FIG. 2).
  • voice recognition processing is performed on the voice data, and a voice recognition result (for example, a character string “Thanks” corresponding to the voice data of “a Ri Ga To”) is obtained.
  • the audio data is transmitted to the user terminal 50 that is the transmission source.
  • the display control unit 8 of the user terminal 50 outputs the input voice recognition result to the display device 9.
  • the user performs an operation of selecting any one of the candidates on the operation input unit 10.
  • This selection information is output to the recognition data registration unit 7 via the display control unit 8.
  • the recognition data registration unit 7 When there is a single candidate as a recognition result, it is automatically output from the display control unit 8 to the recognition data registration unit 7.
  • the first server device 70 when voice data is input, noise data superimposition processing is performed on the voice data of “a Ri Ga To”, and the feature amount is obtained from the noise superimposed voice data obtained as a result. Time series data is acquired, and an acoustic model identifier series acquired using the same kind of acoustic model as the first recognition processing unit 3a is generated.
  • the recognition data registration unit 7 of the user terminal 50 includes the acoustic model identifier series corresponding to the “a Ri Ga To” speech data input from the first server device 70 and the speech recognition result input from the display control unit 8. Is associated with the character string “Thanks” and is generated as registration recognition data, and the generated recognition data is registered in the first recognition dictionary 3 b of the first speech recognition unit 3.
  • the recognition data corresponding to “Thanks” is registered in the first recognition dictionary 3b. Therefore, the speech recognition result can be obtained by performing speech recognition by the first speech recognition unit 3. Therefore, even if the character string is not registered in the first recognition dictionary 3b, the first recognition dictionary 3b is used for the character string obtained by using the second server device 60 once to obtain the speech recognition result. From the next time, the speech recognition result can be obtained by speech recognition by the first speech recognition unit 3. At this time, since the recognition data is automatically registered in the first recognition dictionary 3b, the user registers a new vocabulary in the first recognition dictionary 3b simply by performing a voice recognition operation. be able to.
  • the second server device 60 may perform the speech recognition process by any method, that is, the second server device 60 may not be under the control of the system builder itself.
  • the speech recognition device that stores vocabulary not in the user terminal 50 as the second server device 60
  • the second server device 60 need not be a single server device, and a plurality of server devices may be used in parallel. By using a plurality of server devices for the second server device 60, more options can be displayed on the display control unit 8.
  • the recognition data registered in the first recognition dictionary 3b is composed of recognition data corresponding to a character string once recognized by the user in addition to the recognition data registered in advance. Accordingly, recognition data required by the user is additionally stored in the first recognition dictionary 3b, that is, the number of registered vocabularies and the contents thereof can be made contents suitable for the user. As a result, the recognition rate can be improved.
  • the recognition data newly registered in the first recognition dictionary 3b uses an acoustic model identifier sequence generated based on the user's voice. Therefore, the recognition rate can be improved by obtaining recognition data reflecting the user's uttered voice, as compared with a method using recognition data registered in advance.
  • the acoustic model identifier sequence generation device (first server device) 70 may be mounted in the same casing as the first speech recognition device (user terminal) 50, and the first speech recognition device (user terminal). ) May be mounted on a server device capable of communicating with 50.
  • the acoustic model identifier sequence generation device (first server device) 70 By mounting the acoustic model identifier sequence generation device (first server device) 70 on a server device capable of communicating with the first speech recognition device (user terminal) 50, the first speech recognition device (user terminal) 50 is provided.
  • the user terminal 50 In the case of a user terminal, it is possible to easily improve the accuracy of the voice recognition function of the user terminal without significantly changing the user terminal.
  • the user terminal 50 is a portable terminal such as a mobile phone
  • there is a limit to the hardware that can be installed but communication is performed with the second server device 60 only when necessary, and voice is transmitted.
  • the usability By obtaining the recognition result and registering the voice recognition result in the recognition dictionary 3b of the terminal itself, the usability can be further improved.
  • the speech recognition in the 2nd server apparatus 60 is performed when the speech recognition in the 1st speech recognition part 3 is impossible was demonstrated, it is not restricted to this.
  • the first voice recognition unit 3 and the second server device 60 may simultaneously start voice recognition on the input voice data. By adopting such a configuration, it is possible to solve the problem that the start of the processing of the second server device 60 is delayed by the time of the speech recognition processing time in the first speech recognition unit 3.
  • the noise data storage unit 27a is mounted on the server device 70 .
  • the present invention is not limited to this.
  • the noise data storage unit 27a may be on the user terminal, that is, the client side. It may be mounted in the device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

 音声データに対して第1の音声認識部(3)で音声認識処理を行った結果、音声認識不可と判定されるときには、第1の音声認識部(3)に入力した音声データと同一の音声データを第2のサーバ装置(60)および第1のサーバ装置(70)に送信する。前記音声データに対する第2のサーバ装置(60)での音声認識結果の文字列と、前記音声データに基づき第1のサーバ装置(70)の音響モデル識別子系列生成部(27)で生成された音響モデルの識別子の系列とからなる認識用データを生成し、これを第1の音声認識部(3)の第1の認識辞書(3b)に登録する。

Description

音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
 本発明は、音声によりコマンド入力などを行う音声認識システム、当該音声認識システムで用いる認識辞書の認識用データを自動で追加登録する認識辞書登録システム、及び当該認識用データを構成する音響モデル識別子系列を自動で生成する音響モデル識別子系列生成装置に関する。
 従来、音声によりコマンド入力を行う音声認識機能を備えた端末などが提案されている。
 このような端末において音声認識機能の精度向上を図るためには、比較的大規模なハードウェアを必要とする。その一方で、携帯型端末などの場合には、搭載できるハードウェアには制限がある。そのため、携帯型端末などにおいては、必要とする精度を有する音声認識機能を実現することができない可能性がある。
 これを回避するために、以下の音声認識システムが特許文献1により提案されている。特許文献1により提案されている音声認識システムは、サーバとクライアントから構成される音声認識システムである。
 この音声認識システムでは、まず、クライアント(携帯端末)が取得した音声データに対し、第1の認識辞書を用いて1次音声認識を行う。1次音声認識が不可能な場合に、クライアントはその音声データをサーバに転送する。
 次に、サーバは第1の認識辞書よりも多くの語彙が記憶された第2の認識辞書を用いて音声データの2次音声認識を行う。これと共に、サーバでは、第1の認識辞書に登録するための認識用データを作成し、クライアントに送信する。クライアントは受信した認識用データを第1の認識辞書に登録する。
 上記音声認識システムを用いることによって、必要とする精度を有する音声認識機能を実現することが出来る。また、使用頻度が高い認識用データのみをハードウェアに追加することが出来るため、携帯端末等のハードウェアに制限がある装置であっても認識精度の高い認識辞書を作成することができる。
特開2004-12653号公報
 ところで、音声認識は、通常、取得した音声データからある特徴量を抽出し、その特徴量を用いて認識辞書に含まれる複数の認識用データのそれぞれの確からしさを計算することで行われる。そのため、認識辞書に含まれる認識用データは抽出する特徴量に対応したデータでなければならない。
 特許文献1により提案されている音声認識システムは、サーバにおける認識用データとクライアントにおける認識用データとで使用する特徴量の種類が一致していることから、サーバが生成した認識用データをクライアントの認識辞書に登録することができ、クライアントでは認識用データが追加登録された認識辞書を利用して音声認識を行うことができる。
 しかしながら、サーバとクライアントとで使用する特徴量の種類が異なる場合には、仮に、サーバが作成した認識用データをクライアントの認識辞書に登録したとしても、クライアントでは、新たに追加された認識用データを利用することができない。
 そのため、クライアントの使用する特徴量に対応した認識用データを作成するように、サーバを制御するなどの対処を行う必要がある。しかしながら、2次音声認識を行うサーバがクライアントのシステム構築者自らの管理下にない場合、サーバとクライアントの特徴量の種類を合致させることはもちろん、サーバ側にクライアントのシステムで利用可能な音声認識データを生成させることは困難である。
 そこで、この発明は、上記従来の未解決の問題に着目してなされたものであり、システム構築者自らの制御下にない音声認識装置を用いて音声認識を行う場合でも、その音声認識結果を利用した認識用データをクライアント側の音声認識装置の認識辞書に追加登録することの可能な音声認識システム、認識辞書登録システム及び当該認識用データを構成する音響モデル識別子系列を自動で生成する音響モデル識別子系列生成装置を提供することを目的としている。
 本発明の一態様は、第1の音声認識装置と、第2の音声認識装置と、音響モデル識別子系列生成装置と、を備え、前記第1の音声認識装置は、音声を取得し、取得した音声の音声データを出力する音声入力部と、文字列に関する情報と、当該文字列に関する情報に対応する第1の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第1の認識辞書と、前記音声入力部から出力される一の音声データから前記第1の種類の特徴量を抽出し、該第1の種類の特徴量と前記第1の認識辞書とを用いて前記一の音声データの音声認識処理を行う第1の音声認識処理部と、認識用データ登録部と、を有し、前記第2の音声認識装置は、文字列に関する情報と、当該文字列に関する情報に対応し且つ前記第1の種類の特徴量とは異なる第2の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第2の認識辞書と、前記一の音声データから前記第2の種類の特徴量を抽出し、該第2の種類の特徴量と前記第2の認識辞書とを用いて前記一の音声データの音声認識処理を行い、該一の音声データに対応する文字列に関する情報を外部に送信する第2の音声認識処理部と、を有し、前記音響モデル識別子系列生成装置は、前記一の音声データから前記第1の種類の特徴量を抽出し、該一の音声データに対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列を生成し、該音響モデルの識別子の系列を送信する音響モデル識別子系列生成部を有しており、前記第1の音声認識装置の前記認識用データ登録部は、前記音響モデル識別子系列生成部が送信する前記一の音声データに対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列と、前記第2の音声認識処理部が送信する前記一の音声データに対応する前記文字列に関する情報と、を受信し、受信した前記第1の種類の特徴量に基づく音響モデルの識別子の系列と、前記文字列に関する情報と、が組み合わされてなる前記第1の認識辞書に格納するための認識用データを前記第1の認識辞書に登録することを特徴する音声認識システムである。
 上記構成において、ノイズデータが格納されたノイズデータ記憶部をさらに備え、前記音響モデル識別子系列生成部は、前記一の音声データに前記ノイズデータを重畳した第2の音声データから前記第1の種類の特徴量を抽出し、抽出した前記第1の種類の特徴量から、前記一の音声データに対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列を生成するものであってよい。
 前記音響モデル識別子系列生成部は、前記第2の音声データに含まれる人の声のエネルギとノイズのエネルギとの比が予め設定した比率になるように、前記一の音声データに前記ノイズデータを重畳するものであってよい。
 前記第2の音声認識処理部は、前記第1の音声認識処理部での前記一の音声データに対する音声認識処理において音声認識不可と判定されるときに、前記第1の音声認識処理部で音声認識不可と判定された前記一の音声データに対する音声認識処理を行うものであってよい。
 前記第2の音声認識処理部は、前記一の音声データに対応する文字列に関する情報を複数候補出力し、前記第1の音声認識装置は、前記第2の音声認識処理部が出力する前記一の音声データに対応する文字列に関する情報の複数の候補の中から一の候補を選択する選択部を有し、前記認識用データ登録部は、前記音響モデル識別子系列生成部が送信する前記一の音声データに対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列と、前記選択部が選択した前記第2の音声認識部が送信する前記一の音声データに対応する前記文字列に関する情報と、が組み合わされてなる前記第1の認識辞書に格納するための認識用データを生成し、当該認識用データを、前記第1の認識辞書に登録するものであってよい。
 前記音響モデル識別子系列生成装置は前記第1の音声認識装置とは異なる筐体に搭載されていてよい。
 前記音響モデル識別子系列生成装置は前記第1の音声認識装置と通信可能なサーバ装置に搭載されていてよい。
 前記音響モデル識別子系列生成装置は前記第1の音声認識装置と同じ筐体に搭載されていてよい。
 前記第1の音声認識処理部は端末装置に搭載され、前記第2の音声認識処理部は、前記端末装置と通信可能なサーバ装置に搭載されていてよい。
 本発明の他の態様は、第1の音声認識装置と音響モデル識別子系列生成装置とを備え、前記第1の音声認識装置は、文字列に関する情報と、当該文字列に関する情報に対応する第1の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第1の認識辞書と、音声を取得し、取得した音声の音声データを出力する音声入力部から出力される一の音声データを取得し、該一の音声データから前記第1の種類の特徴量を抽出し、該第1の種類の特徴量と前記第1の認識辞書とを用いて前記一の音声データの音声認識処理を行う第1の音声認識処理部と、認識用データ登録部と、を有し、前記音響モデル識別子系列生成装置は、前記一の音声データから前記第1の種類の特徴量を抽出し、抽出した前記第1の種類の特徴量から前記一の音声データに対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列を生成し、該音響モデルの識別子の系列を送信する音響モデル識別子系列生成部を有しており、前記第1の音声認識装置の前記認識用データ登録部は、第2の音声認識装置から出力される前記一の音声データに対応する文字列に関する情報と、前記音響モデル識別子系列生成装置が送信する前記第1の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる前記第1の認識辞書に格納するための認識用データを前記第1の認識辞書に登録し、前記第2の音声認識装置は、文字列に関する情報と、当該文字列に関する情報に対応し且つ前記第1の種類の特徴量とは異なる第2の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第2の認識辞書と、前記一の音声データから前記第2の種類の特徴量を抽出し、該第2の種類の特徴量と前記第2の認識辞書とを用いて音声認識処理を行い、前記一の音声データに対応する文字列に関する情報を外部に送信する第2の音声認識処理部と、を有することを特徴とする認識辞書登録システムである。
 本発明の他の態様は、音声を取得する音声入力部から出力される音声データから第1の種類の特徴量を抽出し、当該音声データに対応する第1の種類の特徴量に基づく音響モデルの識別子の系列を生成し、該音響モデルの識別子の系列を送信する音響モデル識別子系列生成部を備える音響モデル識別子系列生成装置であって、前記音響モデル識別子系列生成部が、第1の音声認識装置が有する認識用データ登録部に前記音響モデルの識別子の系列を送信し、前記第1の音声認識装置は、文字列に関する情報と、当該文字列に関する情報に対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第1の認識辞書と、当該音声データから前記第1の種類の特徴量を抽出し、該第1の種類の特徴量と前記第1の認識辞書とを用いて当該音声データの音声認識処理を行う第1の音声認識処理部と、前記認識用データ登録部と、を備えており、前記認識用データ登録部が、第2の音声認識装置から出力される、前記音声データに対応する文字列に関する情報と、前記音響モデル識別子系列生成装置が送信する前記音声データに対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる、前記第1の認識辞書に格納するための認識用データを前記第1の認識辞書に登録し、前記第2の音声認識装置は、文字列に関する情報と、当該文字列に関する情報に対応し且つ前記第1の種類の特徴量とは異なる第2の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第2の認識辞書と、前記音声データから前記第2の種類の特徴量を抽出し、該第2の種類の特徴量と前記第2の認識辞書とを用いて音声認識処理を行い、前記音声データに対応する文字列に関する情報を外部に送信する第2の音声認識処理部と、を備えていることを特徴とする音響モデル識別子系列生成装置である。
 本発明によれば、システム構築者自らの制御下にない音声認識装置を用いて音声認識を行うことにより得た音声認識結果を利用した認識用データをクライアント側の音声認識装置の認識辞書に自動で追加登録することが可能な、音声認識システム、認識辞書登録システム及び当該認識用データを構成する音響モデル識別子系列を自動で生成する音響モデル識別子系列生成装置を提供することができる。
本発明における音声認識システムの一例を示す概略構成図である。 動作制御処理の処理手順の一例を示すフローチャートである。 表示制御処理の処理手順の一例を示すフローチャートである。
 以下、図面を参照して本発明の実施の形態を説明する。
 図1は、本発明の一実施形態を示す、音声認識システム100の一例を示す概略構成図である。なお、この音声認識システム100は、認識辞書登録システム110および第2のサーバ装置(第2の音声認識装置)60を備えた音声認識システムを構成している。
 この音声認識システム100は、ユーザ端末50(第1の音声認識装置)と、第1のサーバ装置(音響モデル識別子系列生成装置)70と、第2のサーバ装置(第2の音声認識装置)60とを含んで構成され、ユーザ端末50は、第1のサーバ装置70と第2のサーバ装置60それぞれとの間で、有線または無線により通信可能に構成されている。
 認識辞書登録システム110は、音声認識システム100から第2のサーバ装置(第2の音声認識装置)60を除いた構成であり、ユーザ端末(第1の音声認識装置)50と、第1のサーバ装置(音響モデル識別子系列生成装置)70とから構成される。
 ユーザ端末50は、音声入力部2と、第1の音声認識部3と、動作制御部5と、一時保存用記憶部6と、認識用データ登録部7と、表示制御部8と、表示装置9と、操作入力部10とを備えている。
 音声入力部2はマイクロフォンなどの集音装置で構成される。この音声入力部2は、発声音声をその音声に対応するアナログの電気信号に変換し、この電気信号を図示しないA/D変換器でデジタル信号に変換しこれを音声データとして動作制御部5に出力する。なお、音声データは音を表すデータであれば特に限定は無い。
 第1の音声認識部3は、第1の音声認識処理部3aと第1の認識辞書3bとを含んで構成される。
 第1の音声認識処理部3aは、動作制御部5を介して音声入力部2から音声データを入力し、この音声データに対して音声認識を行う。第1の音声認識処理部3aは、デジタル信号からなる音声データから音声認識のための特徴量(第1の種類の特徴量)の時系列データを抽出する。さらに、第1の音声認識処理部3aは、第1の認識辞書3bに記憶された認識用データそれぞれの音響モデル識別子系列と音響モデル(識別子毎に特徴量が定義されたデータ群)とを用いて、ビタビアルゴリズム(Viterbi algorithm)によって前記特徴量の時系列データを解析して最も尤もらしい認識用データを選び出す。そして、その選び出された認識用データを構成する文字列を、入力された音声データの認識結果となる文字列として獲得する。
 第1の音声認識処理部3aは、音声データに対する音声認識の結果、第1の認識辞書3bから対応する文字列を獲得することができた場合には、音声認識が成功したことを表す認識成功通知を動作制御部5に出力し、さらに表示制御部8に、認識成功通知とともに音声認識の結果獲得した文字列を出力する。逆に、第1の認識辞書3bから対応する文字列を獲得することができなかった場合には、音声認識ができなかったことを表す認識不可通知を動作制御部5および表示制御部8に出力する。
 ここで、第1の認識辞書3bには、文字列と、これに対応する音響モデルの識別子の系列である音響モデル識別子系列とが対応付けられて認識用データとして格納されている。
 第1の認識辞書3bへの認識用データの登録は、以下のような手順で予め行われている。すなわち、登録したい文字列に応じて、音声入力部2に向かってユーザが発声することにより、登録したい文字列に対応する音声データを獲得する。この音声データに対し、Hidden Markov Model を応用したビタビアルゴリズムによる音声認識処理を行う。これにより、予め保持している、全発音記号(たとえば五十音)それぞれの音響モデルが並列に配され、発話終了までそれを無限ループで評価させる認識辞書を用いて、入力された音声データから抽出された特徴量の時系列データに対応する音響モデル列(音響モデルそれぞれの識別子の系列)を順次求め、これを以って登録したい文字列に対応する音響モデル識別子系列とする。
 例えば、「Thanks」という文字に応じてユーザが発声した音声データから「a」「Ri」「Ga」「To」という音響モデル列を獲得し、獲得した音響モデル列を、対応する音響モデル識別子系列に変換する。例えば、本実施例では、「a」の音響モデルに対応する識別子を「0-1」、「Ri」の音響モデルに対応する識別子を「13-9」、「Ga」の音響モデルに対応する識別子を「7-1」、「To」の音響モデルに対応する識別子を「20-15」とすると、“「a」「Ri」「Ga」「To」”という音響モデル列に対応する音響モデル識別子系列は、“「0-1」「13-9」「7-1」「20-15」”となる。
 この音響モデル識別子系列と操作入力部10で入力した出力用文字列「Thanks」とを対応づけ、これを認識用データとして第1の認識辞書3bに登録する。
 そして、第1の音声認識処理部3aでは、入力された音声データから特徴量(第1の種類の特徴量)の時系列データを抽出し、Hidden Markov Modelを応用したビタビアルゴリズムによる音声認識処理により、この特徴量の時系列データに対応する文字列を第1の認識辞書3bから獲得する。
 このとき、第1の音声認識処理部3aは、音声データから抽出された時系列の特徴量の時系列データと第1の認識辞書3bに登録されている認識用データとの間にどれだけ相関があるかをビタビアルゴリズムによる尤もらしさ(尤度)で評価し、その尤度がしきい値以上となる認識用データから、音声データに対応する文字列を獲得する。
 ここで、しきい値を設けず単純に一番尤度の高いものを常に認識処理結果として選択してしまうと、認識辞書に登録済みの語彙とは全く関係のない発話をした場合であっても、認識辞書に含まれる何れか尤度の一番高いものが出力されることになる。したがって、しきい値を設け、尤度がしきい値以上であり、ある程度の相関のあるもののみを認識処理結果とし、相関のないものは、相関するものはないという認識結果を出力する構成としている。なお、必ずしもしきい値を設定する必要はなく、全く関係のない発話を吸収するための専用の認識用データ(Garbage Model)を用いてその尤度と比較する方法でも、相関するものはないという認識結果を出力することができる。
 動作制御部5は、音声入力部2から音声データを入力し、この音声データに対する第1の音声認識部3での音声認識結果に応じて、第2のサーバ装置(第2の音声認識装置)60での音声認識処理を実行させる動作制御処理を行う。なお、この第2のサーバ装置60では、第1の音声認識部3での音声認識処理とは無関係に独自の音声認識処理を実行して、入力された音声データに対応する文字列を音声認識結果として出力する。
 動作制御部5は、具体的には、図2のフローチャートに示すように、まず、ステップS1で、音声入力部2から音声データを入力したか否かを判断し、音声データを入力したとき、当該音声データを一時保存用記憶部6に格納する(ステップS2)。また、第1の音声認識部3に対して音声認識の実行を指示するとともに、音声入力部2から入力した音声データを第1の音声認識部3に出力する(ステップS3)。
 動作制御部5は、第1の音声認識部3から音声認識結果として認識不可通知を入力したときには、ステップS4からステップS5に移行し、一時保存用記憶部6に格納した音声データを読み出し、読み出した音声データを第1のサーバ装置70および第2のサーバ装置60に出力する。つまり、第1の音声認識部3で音声認識に失敗した音声データと同一の音声データについて、第2のサーバ装置60に対して音声認識の実行を指示する。
 一方、ステップS4で、第1の音声認識部3から音声認識結果として認識成功通知を入力したときには、第2のサーバ装置60での音声認識を行う必要はないため、そのままステップS1に戻る。
 認識用データ登録部7は、第1のサーバ装置70が作成する音響モデル識別子系列を受信するとともに、第2のサーバ装置60での音声認識の結果得られた文字列を受信し、これら組み合わせて認識用データを生成しこれを第1の認識辞書3bに登録する。
 表示制御部8は、第1の音声認識部3または第2のサーバ装置60での音声認識結果を表示装置9に出力する表示制御処理を行う。
 具体的には、図3に示すように、第1の音声認識部3から認識結果を入力し、その認識結果として認識成功通知を入力したときには、ステップS11からステップS12に移行し、認識結果とともに第1の音声認識部3から入力した音声認識結果の文字列を表示装置9に出力する。
 一方、第1の音声認識部3から、認識結果として認識不可通知を受信したときには、ステップS13に移行し、第2のサーバ装置60での音声認識結果を第2のサーバ装置60から入力し、これを表示装置9に出力する(ステップS14)。
 次いで、ステップS15に移行し、第2のサーバ装置60での音声認識結果として複数候補が設定されているときにはステップS16に移行し、表示装置9に表示された複数候補のうち操作入力部10(選択部)で選択された候補を読み込み、これを認識用データ登録部7宛に出力し、ステップS11に戻る。また、操作入力部10で、キャンセルが指示されたときにはそのままステップS11に戻る。
 一方、ステップS15で、第2のサーバ装置60での音声認識結果として複数候補が設定されていないとき、すなわち第2のサーバ装置60での音声認識結果として1つの文字列のみ入力したときにはステップS17に移行する。そして、ユーザ端末50は第2のサーバ装置60の音声認識結果を受信し、受信した音声認識結果を認識用データ登録部7宛に出力し、ステップS11に戻る。
 図1に戻って、第2のサーバ装置60は、第2の音声認識処理部14aと第2の認識辞書14bとを備える。
 第2の音声認識処理部14aは、ユーザ端末50の動作制御部5から、音声入力部2で集音した音声データを入力し、当該音声データに対して第2の認識辞書14bの認識用データを用いて音声認識を行う。この第2のサーバ装置60の第2の音声認識処理部14aは、入力した音声データと認識用データとについて、相関すると思われる度合い(尤度)に基づいて音声認識結果の候補を1つ乃至複数出力する。
 そして、第2の音声認識処理部14aは、音声認識処理の結果得た1つ乃至複数の認識結果候補をユーザ端末50に出力する。
 第2の認識辞書14bには、文字列と、これに対応する音響モデル識別子系列とが対応付けられて認識用データとして格納されている。ただし、音響モデル(音響モデルの発音記号の種類や数、特徴量の種類や数や分析手法)や識別子との対応は第1の音声認識部3の第1の認識辞書3bと異なっていてもよい。
 即ち、第1の音声認識部3において、「a」の音響モデルに対応する識別子が「0-1」であるとすると、第2のサーバ装置(第2の音声認識装置)60では、必ずしも「a」の音響モデルに対応する識別子が「0-1」である必要はないし、音響モデルの単位をモノフォンとする必要もない。
 この他にも、第2の音声認識処理部14aにおける処理方法は第1の音声認識処理部3aの処理方法と異なっていてもよい。即ち、第1の音声認識処理部3aは、音声データから音声認識のための特徴量(第1の種類の特徴量)の時系列データを抽出するが、第2の音声認識処理部14aは、音声データから第1の種類の特徴量を抽出する必要はなく、第1の種類の特徴量とは異なる第2の種類の特徴量(特徴量の時系列データ)を抽出し、それを第1の音声認識処理部3aで用いたビタビアルゴリズムとは異なる解析手法を用いて処理してもよい。
 このように、第2のサーバ装置60は取得した音声データを音声認識し、その認識結果である文字列を音声データの送信元のユーザ端末50に出力しさえすればよく、その処理方法は問わない。
 第1のサーバ装置(音響モデル識別子系列生成装置)70は、音響モデル識別子系列生成部27とノイズデータ記憶部27aとを備える。
 音響モデル識別子系列生成部27は、ユーザ端末50から音声データを入力すると、音声データを第1の音声認識部3の第1の認識辞書3bに登録するための、音響モデル識別子系列の生成を行う。
 具体的には、ユーザ端末50から音声データを入力すると、入力した音声データに対してノイズデータの重畳処理を行う。
 このノイズデータの重畳処理は、耐ノイズ性を向上させるための処理であって、予めノイズデータ記憶部27aに記憶させておいたノイズデータを、入力した音声データに重畳させてノイズ重畳音声データを生成する。このとき、入力した音声データのSN比を判定し、ノイズ重畳音声データのSN比が予め設定したSN比となるように音声データにノイズデータを重畳する。
 次いで、ノイズ重畳音声データに対して、前記第1の音声認識処理部3aで抽出した特徴量(第1の種類の特徴量)と同種の特徴量の時系列データを獲得し、さらに、第1の音声認識処理部3aが記憶する音響モデルと同種の音響モデルを用いて獲得した音響モデルの識別子の系列を出力する。
 すなわち、Hidden Markov Model を応用したビタビアルゴリズムによる音声認識処理により、予め保持している、全発音記号(たとえば五十音)それぞれの音響モデルが並列に配され、発話終了までそれを無限ループで評価させる認識辞書を用いて、ノイズ重畳音声データから抽出された特徴量の時系列データに対応する音響モデル列(音響モデルそれぞれの識別子の系列)を求め、これをもって登録したい文字列に対応する音響モデル識別子系列とする。
 次いで、生成した音響モデル識別子系列を、音声データの送信元のユーザ端末50に出力する。
 次に、上記実施の形態の動作を説明する。
 ユーザが音声入力部2に向かって例えば文字列「Thanks」に対応する「a Ri Ga To」を発声すると、発声音声は、音声入力部2で集音され、所定の処理が行われてデジタル信号からなる音声データに変換される。この音声データは、動作制御部5を介して第1の音声認識部3に入力され(図2ステップS3)、ここで音声認識が行われる。
 第1の音声認識部3の第1の認識辞書3bに文字列「Thanks」と「a Ri Ga To」に対応する音響モデルの識別子の系列からなる認識用データが登録されていれば、音声認識結果として文字列「Thanks」が表示制御部8に出力され、これが表示装置9に表示される。
 一方、第1の音声認識部3の第1の認識辞書3bに文字列「Thanks」と「a Ri Ga To」に対応する音響モデルの識別子の系列からなる認識用データが登録されていない場合には、第1の音声認識部3では、該当データなしとして認識不可通知を動作制御部5に出力する。
 このため、動作制御部5では、音声データ入力時に、一時保存用記憶部6に記憶しておいた「a Ri Ga To」の音声データを読み出し、これを第2のサーバ装置60に出力するとともに第1のサーバ装置70に出力する(図2ステップS5)。
 第2のサーバ装置60では、音声データを入力すると、この音声データに対し音声認識処理を行い、その音声認識結果(たとえば「a Ri Ga To」の音声データに対応する文字列「Thanks」)を、音声データの送信元のユーザ端末50に出力する。ユーザ端末50の表示制御部8では、入力した音声認識結果を表示装置9に出力する。
 このとき音声認識結果として複数の候補がある場合には、ユーザは操作入力部10においていずれかの候補を選択する操作を行う。この選択情報は表示制御部8を介して認識用データ登録部7に出力される。認識結果として候補が単一の場合は表示制御部8から自動的に認識用データ登録部7に出力される。
 一方、第1のサーバ装置70では、音声データを入力すると、この「a Ri Ga To」の音声データに対して、ノイズデータ重畳処理を行い、その結果得たノイズ重畳音声データから、特徴量の時系列データを獲得し、第1の認識処理部3aと同種の音響モデルを用いて獲得した音響モデル識別子系列を生成する。
 そして、この音響モデル識別子系列を、音声データの送信元のユーザ端末50に出力する。
 ユーザ端末50の認識用データ登録部7は、第1のサーバ装置70から入力した「a Ri Ga To」の音声データに対応する音響モデル識別子系列と、表示制御部8から入力した音声認識結果としての文字列「Thanks」とを対応づけこれを登録用の認識用データとして生成し、生成した認識用データを第1の音声認識部3の第1の認識辞書3bに登録する。
 したがって、次に、「a Ri Ga To」と発声した音声データが音声入力部2を介して入力されたときには、第1の認識辞書3bには、「Thanks」に対応する認識用データが登録されているため、第1の音声認識部3で音声認識を行うことにより、音声認識結果を得ることができる。
 そのため、第1の認識辞書3bに登録されていない文字列であっても、一度、第2のサーバ装置60を利用することにより音声認識結果を得た文字列については、第1の認識辞書3bに自動的に登録されるため、次回からは第1の音声認識部3での音声認識により音声認識結果を得ることができる。また、このとき、第1の認識辞書3bには、自動的に認識用データが登録されるため、ユーザは、音声認識操作を行うだけで、第1の認識辞書3bに新たな語彙を登録することができる。
 また、この時、第2のサーバ装置60はどのような方法で音声認識処理を行ってもよく、つまり、第2のサーバ装置60がシステム構築者自らの制御下になくてもよい。
 第2のサーバ装置60として、ユーザ端末50にはない語彙を蓄えた音声認識装置を用いることで、ユーザの1つの発声に対してより多くの選択肢を表示制御部8に表示させることが可能となり、使い勝手を向上させることができる。第2のサーバ装置60は、1台のサーバ装置である必要はなく、複数のサーバ装置を並列に用いてもよい。第2のサーバ装置60に複数のサーバ装置を用いることで、より多くの選択肢を表示制御部8に表示させることが可能となる。
 また、第1の認識辞書3bに登録される認識用データは、予め登録されている認識用データに加え、ユーザが一度音声認識を行った文字列に対応する認識用データで構成される。したがって、第1の認識辞書3bにはユーザが必要とする認識用データが追加格納されることになり、すなわち、登録語彙数およびその内容をユーザに適した内容にすることができる。その結果認識率を向上させることができる。
 また、第1の認識辞書3bに新たに登録される認識用データは、ユーザの発声音声をもとに生成した音響モデル識別子系列を用いている。したがって、あらかじめ登録しておいた認識用データを用いる方式に比較して、ユーザの発声音声を反映した認識用データを得ることで認識率を向上させることができる。
 なお、音響モデル識別子系列生成装置(第1のサーバ装置)70は、第1の音声認識装置(ユーザ端末)50と同じ筐体に搭載されていてもよく、第1の音声認識装置(ユーザ端末)50と通信可能なサーバ装置に搭載されていてもよい。
 音響モデル識別子系列生成装置(第1のサーバ装置)70を第1の音声認識装置(ユーザ端末)50と通信可能なサーバ装置に搭載することで、第1の音声認識装置(ユーザ端末)50がユーザ端末である場合に、ユーザ端末の大幅な変更を伴うことなく、容易に、ユーザ端末の音声認識機能の精度を向上させることができる。
 特に、ユーザ端末50が、携帯電話などの携帯型端末の場合には、搭載できるハードウェアに制限があるが、第2のサーバ装置60との間で、必要なときにのみ通信を行って音声認識結果を獲得するとともに、その音声認識結果を自端末の認識辞書3bに登録する構成とすることによって、より使い勝手を向上させることができる。
 また、上記実施の形態においては、第1の音声認識部3での音声認識が不可であるときに第2のサーバ装置60での音声認識を行う場合について説明したが、これに限るものではなく、入力された音声データに対し、第1の音声認識部3および第2のサーバ装置60の両方同時に音声認識を開始する構成としてもよい。
 このような構成とすることによって、第1の音声認識部3での音声認識の処理時間の分だけ第2のサーバ装置60の処理の開始が遅れる不具合を解消することができる。
 また、上記実施の形態においては、ノイズ重畳した音声データから生成した音響モデル識別子系列のみを登録する場合を説明したが、ノイズ重畳しない音声データから生成した音響モデル識別子系列を並列に登録してもよいし、SN比を複数設定してそれぞれの音響モデル識別子系列を並列に登録してもよい。そのSN比はユーザ端末50の動作環境における平均を取ってもよいし最大値を取ってもよい。ユーザの保有する自動車の遮音性能やエンジンノイズによってSN比やノイズの音質を予め設定する方法も考えられる。
 また、ノイズデータ記憶部27aをサーバ装置70に搭載した場合について説明したが、これに限るものではなく、例えば、ノイズデータ記憶部27aはユーザ端末、即ちクライアント側にあってもよく、別のサーバ装置内に搭載されていてもよい。
2 音声入力部
3 第1の音声認識部
3a 第1の音声認識処理部
3b 第1の認識辞書
5 動作制御部
6 一時保存用記憶部
7 認識用データ登録部
8 表示制御部
9 表示装置
10 操作入力部
14 第2の音声認識部
14a 第2の音声認識処理部
14b 第2の認識辞書
27 音響モデル識別子系列生成部
27a ノイズデータ記憶部
50 ユーザ端末(第1の音声認識装置)
60 第2のサーバ装置(第2の音声認識装置)
70 第1のサーバ装置(音響モデル識別子系列生成装置)
100 音声認識システム
110 認識辞書登録システム

Claims (11)

  1.  第1の音声認識装置と、第2の音声認識装置と、音響モデル識別子系列生成装置と、を備え、
     前記第1の音声認識装置は、
     音声を取得し、取得した音声の音声データを出力する音声入力部と、
     文字列に関する情報と、当該文字列に関する情報に対応する第1の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第1の認識辞書と、
     前記音声入力部から出力される一の音声データから前記第1の種類の特徴量を抽出し、該第1の種類の特徴量と前記第1の認識辞書とを用いて前記一の音声データの音声認識処理を行う第1の音声認識処理部と、
     認識用データ登録部と、を有し、
     前記第2の音声認識装置は、
     文字列に関する情報と、当該文字列に関する情報に対応し且つ前記第1の種類の特徴量とは異なる第2の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第2の認識辞書と、
     前記一の音声データから前記第2の種類の特徴量を抽出し、該第2の種類の特徴量と前記第2の認識辞書とを用いて前記一の音声データの音声認識処理を行い、該一の音声データに対応する文字列に関する情報を外部に送信する第2の音声認識処理部と、を有し、
     前記音響モデル識別子系列生成装置は、
     前記一の音声データから前記第1の種類の特徴量を抽出し、該一の音声データに対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列を生成し、該音響モデルの識別子の系列を送信する音響モデル識別子系列生成部を有しており、
     前記第1の音声認識装置の前記認識用データ登録部は、前記音響モデル識別子系列生成部が送信する前記一の音声データに対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列と、前記第2の音声認識処理部が送信する前記一の音声データに対応する前記文字列に関する情報と、を受信し、
     受信した前記第1の種類の特徴量に基づく音響モデルの識別子の系列と、前記文字列に関する情報と、が組み合わされてなる前記第1の認識辞書に格納するための認識用データを前記第1の認識辞書に登録することを特徴する音声認識システム。
  2.  ノイズデータが格納されたノイズデータ記憶部をさらに備え、
     前記音響モデル識別子系列生成部は、
     前記一の音声データに前記ノイズデータを重畳した第2の音声データから前記第1の種類の特徴量を抽出し、抽出した前記第1の種類の特徴量から、前記一の音声データに対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列を生成することを特徴とする請求項1に記載の音声認識システム。
  3.  前記音響モデル識別子系列生成部は、
     前記第2の音声データに含まれる人の声のエネルギとノイズのエネルギとの比が予め設定した比率になるように、前記一の音声データに前記ノイズデータを重畳することを特徴とする請求項2に記載の音声認識システム。
  4.  前記第2の音声認識処理部は、前記第1の音声認識処理部での前記一の音声データに対する音声認識処理において音声認識不可と判定されるときに、前記第1の音声認識処理部で音声認識不可と判定された前記一の音声データに対する音声認識処理を行うことを特徴とする請求項1から3のいずれかに記載の音声認識システム。
  5.  前記第2の音声認識処理部は、前記一の音声データに対応する文字列に関する情報を複数候補出力し、
     前記第1の音声認識装置は、前記第2の音声認識処理部が出力する前記一の音声データに対応する文字列に関する情報の複数の候補の中から一の候補を選択する選択部を有し、
     前記認識用データ登録部は、前記音響モデル識別子系列生成部が送信する前記一の音声データに対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列と、前記選択部が選択した前記第2の音声認識部が送信する前記一の音声データに対応する前記文字列に関する情報と、が組み合わされてなる前記第1の認識辞書に格納するための認識用データを生成し、当該認識用データを、前記第1の認識辞書に登録することを特徴とする請求項1から4のいずれかに記載の音声認識システム。
  6.  前記音響モデル識別子系列生成装置は前記第1の音声認識装置とは異なる筐体に搭載されることを特徴とする請求項1から5のいずれかに記載の音声認識システム。
  7.  前記音響モデル識別子系列生成装置は前記第1の音声認識装置と通信可能なサーバ装置に搭載されることを特徴とする請求項6に記載の音声認識システム。
  8.  前記音響モデル識別子系列生成装置は前記第1の音声認識装置と同じ筐体に搭載されていることを特徴とする請求項1から5のいずれかに記載の音声認識システム。
  9.  前記第1の音声認識処理部は端末装置に搭載され、前記第2の音声認識処理部は、前記端末装置と通信可能なサーバ装置に搭載されることを特徴とする請求項1から請求項8のいずれかに記載の音声認識システム。
  10.  第1の音声認識装置と音響モデル識別子系列生成装置とを備え、
     前記第1の音声認識装置は、
     文字列に関する情報と、当該文字列に関する情報に対応する第1の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第1の認識辞書と、
     音声を取得し、取得した音声の音声データを出力する音声入力部から出力される一の音声データを取得し、該一の音声データから前記第1の種類の特徴量を抽出し、該第1の種類の特徴量と前記第1の認識辞書とを用いて前記一の音声データの音声認識処理を行う第1の音声認識処理部と、
     認識用データ登録部と、
    を有し、
     前記音響モデル識別子系列生成装置は、
     前記一の音声データから前記第1の種類の特徴量を抽出し、抽出した前記第1の種類の特徴量から前記一の音声データに対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列を生成し、該音響モデルの識別子の系列を送信する音響モデル識別子系列生成部を有しており、
     前記第1の音声認識装置の前記認識用データ登録部は、
     第2の音声認識装置から出力される前記一の音声データに対応する文字列に関する情報と、前記音響モデル識別子系列生成装置が送信する前記第1の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる前記第1の認識辞書に格納するための認識用データを、前記第1の認識辞書に登録し、
     前記第2の音声認識装置は、
     文字列に関する情報と、当該文字列に関する情報に対応し且つ前記第1の種類の特徴量とは異なる第2の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第2の認識辞書と、
     前記一の音声データから前記第2の種類の特徴量を抽出し、該第2の種類の特徴量と前記第2の認識辞書とを用いて音声認識処理を行い、前記一の音声データに対応する文字列に関する情報を外部に送信する第2の音声認識処理部と、を有することを特徴とする認識辞書登録システム。
  11.  音声を取得する音声入力部から出力される音声データから第1の種類の特徴量を抽出し、当該音声データに対応する第1の種類の特徴量に基づく音響モデルの識別子の系列を生成し、該音響モデルの識別子の系列を送信する音響モデル識別子系列生成部を備える音響モデル識別子系列生成装置であって、
     前記音響モデル識別子系列生成部が、
     第1の音声認識装置が有する認識用データ登録部に前記音響モデルの識別子の系列を送信し、
     前記第1の音声認識装置は、
     文字列に関する情報と、当該文字列に関する情報に対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第1の認識辞書と、
     当該音声データから前記第1の種類の特徴量を抽出し、該第1の種類の特徴量と前記第1の認識辞書とを用いて当該音声データの音声認識処理を行う第1の音声認識処理部と、
     前記認識用データ登録部と、を備えており、
     前記認識用データ登録部が、
     第2の音声認識装置から出力される、前記音声データに対応する文字列に関する情報と、前記音響モデル識別子系列生成装置が送信する前記音声データに対応する前記第1の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる、前記第1の認識辞書に格納するための認識用データを、前記第1の認識辞書に登録し、
     前記第2の音声認識装置は、
     文字列に関する情報と、当該文字列に関する情報に対応し且つ前記第1の種類の特徴量とは異なる第2の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第2の認識辞書と、
     前記音声データから前記第2の種類の特徴量を抽出し、該第2の種類の特徴量と前記第2の認識辞書とを用いて音声認識処理を行い、前記音声データに対応する文字列に関する情報を外部に送信する第2の音声認識処理部と、を備えていることを特徴とする音響モデル識別子系列生成装置。
PCT/JP2012/005073 2011-08-19 2012-08-09 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置 WO2013027360A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013529863A JP5613335B2 (ja) 2011-08-19 2012-08-09 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
EP12825178.2A EP2747077A4 (en) 2011-08-19 2012-08-09 VOICE RECOGNITION SYSTEM, RECOGNITION DICTIONARY LOGIC SYSTEM, AND AUDIO MODEL IDENTIFIER SERIES GENERATION DEVICE
US14/126,567 US9601107B2 (en) 2011-08-19 2012-08-09 Speech recognition system, recognition dictionary registration system, and acoustic model identifier series generation apparatus
CN201280032327.6A CN103635962B (zh) 2011-08-19 2012-08-09 声音识别系统、识别字典登记系统以及声学模型标识符序列生成装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011179966 2011-08-19
JP2011-179966 2011-08-19

Publications (1)

Publication Number Publication Date
WO2013027360A1 true WO2013027360A1 (ja) 2013-02-28

Family

ID=47746132

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/005073 WO2013027360A1 (ja) 2011-08-19 2012-08-09 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置

Country Status (5)

Country Link
US (1) US9601107B2 (ja)
EP (1) EP2747077A4 (ja)
JP (1) JP5613335B2 (ja)
CN (1) CN103635962B (ja)
WO (1) WO2013027360A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103474063A (zh) * 2013-08-06 2013-12-25 福建华映显示科技有限公司 语音辨识系统以及方法
JP2014182307A (ja) * 2013-03-19 2014-09-29 Sharp Corp 音声認識システム、および発話システム
US20140337022A1 (en) * 2013-02-01 2014-11-13 Tencent Technology (Shenzhen) Company Limited System and method for load balancing in a speech recognition system
JP2016177045A (ja) * 2015-03-19 2016-10-06 株式会社レイトロン 音声認識装置および音声認識プログラム
US9626964B2 (en) 2013-11-27 2017-04-18 Sharp Kabushiki Kaisha Voice recognition terminal, server, method of controlling server, voice recognition system, non-transitory storage medium storing program for controlling voice recognition terminal, and non-transitory storage medium storing program for controlling server
JP2019015838A (ja) * 2017-07-06 2019-01-31 クラリオン株式会社 音声認識システム、端末装置、及び辞書管理方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102845B1 (en) * 2013-02-25 2018-10-16 Amazon Technologies, Inc. Interpreting nonstandard terms in language processing using text-based communications
US20150371628A1 (en) * 2014-06-23 2015-12-24 Harman International Industries, Inc. User-adapted speech recognition
KR20180022021A (ko) * 2016-08-23 2018-03-06 삼성전자주식회사 음성 인식 방법 및 이를 수행하는 전자 장치
CN106601257B (zh) * 2016-12-31 2020-05-26 联想(北京)有限公司 一种声音识别方法、设备和第一电子设备
JP6910987B2 (ja) * 2018-06-07 2021-07-28 株式会社東芝 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
US11289098B2 (en) 2019-03-08 2022-03-29 Samsung Electronics Co., Ltd. Method and apparatus with speaker recognition registration
CN111754995A (zh) * 2019-03-29 2020-10-09 株式会社东芝 阈值调整装置、阈值调整方法以及记录介质
US11695809B2 (en) 2019-07-29 2023-07-04 Samsung Electronics Co., Ltd. System and method for registering device for voice assistant service

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63153596A (ja) * 1986-12-17 1988-06-25 松下電器産業株式会社 音声文章入力装置
JP2004012653A (ja) 2002-06-05 2004-01-15 Matsushita Electric Ind Co Ltd 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
WO2008007688A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Terminal téléphonique ayant une fonction de reconnaissance vocale, dispositif de support de mise à jour de dictionnaire de reconnaissance vocale, et procédé de support associé
JP2012088370A (ja) * 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1157712C (zh) * 2000-02-28 2004-07-14 索尼公司 语音识别方法和装置
US6823306B2 (en) * 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
US20070276651A1 (en) * 2006-05-23 2007-11-29 Motorola, Inc. Grammar adaptation through cooperative client and server based speech recognition
US8762143B2 (en) * 2007-05-29 2014-06-24 At&T Intellectual Property Ii, L.P. Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
CN101777347B (zh) * 2009-12-07 2011-11-30 中国科学院自动化研究所 一种模型互补的汉语重音识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63153596A (ja) * 1986-12-17 1988-06-25 松下電器産業株式会社 音声文章入力装置
JP2004012653A (ja) 2002-06-05 2004-01-15 Matsushita Electric Ind Co Ltd 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
WO2008007688A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Terminal téléphonique ayant une fonction de reconnaissance vocale, dispositif de support de mise à jour de dictionnaire de reconnaissance vocale, et procédé de support associé
JP2012088370A (ja) * 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2747077A4 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337022A1 (en) * 2013-02-01 2014-11-13 Tencent Technology (Shenzhen) Company Limited System and method for load balancing in a speech recognition system
JP2014182307A (ja) * 2013-03-19 2014-09-29 Sharp Corp 音声認識システム、および発話システム
CN103474063A (zh) * 2013-08-06 2013-12-25 福建华映显示科技有限公司 语音辨识系统以及方法
CN103474063B (zh) * 2013-08-06 2015-12-23 福建华映显示科技有限公司 语音辨识系统以及方法
US9626964B2 (en) 2013-11-27 2017-04-18 Sharp Kabushiki Kaisha Voice recognition terminal, server, method of controlling server, voice recognition system, non-transitory storage medium storing program for controlling voice recognition terminal, and non-transitory storage medium storing program for controlling server
JP2016177045A (ja) * 2015-03-19 2016-10-06 株式会社レイトロン 音声認識装置および音声認識プログラム
JP2019015838A (ja) * 2017-07-06 2019-01-31 クラリオン株式会社 音声認識システム、端末装置、及び辞書管理方法

Also Published As

Publication number Publication date
EP2747077A1 (en) 2014-06-25
JPWO2013027360A1 (ja) 2015-03-05
US9601107B2 (en) 2017-03-21
CN103635962A (zh) 2014-03-12
EP2747077A4 (en) 2015-05-20
US20140129222A1 (en) 2014-05-08
CN103635962B (zh) 2015-09-23
JP5613335B2 (ja) 2014-10-22

Similar Documents

Publication Publication Date Title
JP5613335B2 (ja) 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
US9967382B2 (en) Enabling voice control of telephone device
US8831939B2 (en) Voice data transferring device, terminal device, voice data transferring method, and voice recognition system
JP6574169B2 (ja) 多方向の復号をする音声認識
US9552815B2 (en) Speech understanding method and system
CA2756140C (en) Service oriented speech recognition for in-vehicle automated interaction
CN110047481B (zh) 用于语音识别的方法和装置
JP5471106B2 (ja) 音声翻訳システム、辞書サーバ装置、およびプログラム
WO2011148594A1 (ja) 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
WO2014049944A1 (ja) 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置
CN1223984C (zh) 基于客户机-服务器的分布式语音识别系统
KR101945190B1 (ko) 음성인식 작동 시스템 및 방법
JP2013178384A (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
US20090326940A1 (en) Automated voice-operated user support
JP2004007634A (ja) スピード音声ダイアル装置および方法
CN112823047A (zh) 用于控制网络应用程序的系统和设备
WO2019030810A1 (ja) 音声認識装置および音声認識方法
JP6680125B2 (ja) ロボットおよび音声対話方法
KR20230141251A (ko) 성도 및 여기 신호 정보를 이용한 자동 음성 인식 방법 및 장치
CN115223565A (zh) 声纹注册方法、装置、介质和电子设备
JP2003029783A (ja) 音声認識制御方式
KR20180124225A (ko) 음성인식 전화연결 시스템 및 방법
KR20050066805A (ko) 음절 음성인식기의 음성인식결과 전달 방법
JP2005049713A (ja) 単音声による文字入力システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12825178

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013529863

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14126567

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE