WO2010018796A1 - 例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法 - Google Patents

例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法 Download PDF

Info

Publication number
WO2010018796A1
WO2010018796A1 PCT/JP2009/064045 JP2009064045W WO2010018796A1 WO 2010018796 A1 WO2010018796 A1 WO 2010018796A1 JP 2009064045 W JP2009064045 W JP 2009064045W WO 2010018796 A1 WO2010018796 A1 WO 2010018796A1
Authority
WO
WIPO (PCT)
Prior art keywords
phonetic symbol
recognition
string
symbol string
vocabulary
Prior art date
Application number
PCT/JP2009/064045
Other languages
English (en)
French (fr)
Inventor
聡 小柳津
真士 山田
Original Assignee
旭化成株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 旭化成株式会社 filed Critical 旭化成株式会社
Priority to CN200980131687XA priority Critical patent/CN102119412B/zh
Priority to JP2010524722A priority patent/JPWO2010018796A1/ja
Priority to US13/057,373 priority patent/US20110131038A1/en
Publication of WO2010018796A1 publication Critical patent/WO2010018796A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Definitions

  • the present invention relates to an exception word dictionary creation device that creates an exception word dictionary used by a conversion device that converts a vocabulary text string into a phonetic symbol string, an exception word dictionary creation method and program, and the exception word dictionary.
  • the present invention relates to a speech recognition apparatus and speech recognition method for performing speech recognition.
  • speech synthesizers that convert any vocabulary or text expressed in text into speech and output it, or speech recognition devices that perform speech recognition on vocabulary or sentences to be recognized registered in the speech recognition dictionary based on text notation
  • a text phonetic symbol converter is used.
  • the process of converting the vocabulary of text notation performed by this apparatus into a phonetic symbol string is also called text phoneme conversion (text-to-phoneme) or grapheme-phoneme conversion.
  • a speech recognition device that performs speech recognition by registering the text representation of the vocabulary to be recognized in the speech recognition dictionary, it recognizes the registered name of the other party registered in the phone book of the mobile phone and supports the registered name
  • a mobile phone that makes a call to a telephone number or a hands-free call device that is used in combination with a mobile phone and reads a telephone directory of the mobile phone to make a voice dial. If the registered name of the other party registered in the phone book of the mobile phone is entered only in text not including a phonetic symbol, this registered name cannot be registered in the speech recognition dictionary. This is because a phonetic symbol string such as a phoneme notation indicating a registered name is required as information registered in the speech recognition dictionary.
  • a text phonetic symbol conversion device is used to convert the text representation of the registered name of the other party into a phonetic symbol string.
  • the registered name is registered as a recognition target vocabulary in the speech recognition dictionary based on the phonetic symbol string obtained by the text phonetic symbol conversion device, the user of the mobile phone recognizes the registered name spoken. By doing so, it is possible to make a call to the telephone number corresponding to the registered name without performing complicated button operations (see FIG. 26).
  • a speech recognition device that performs speech recognition by registering a text representation of a word to be recognized in a speech recognition dictionary
  • a portable digital music playback device that plays back music files stored in a built-in hard disk or built-in semiconductor memory
  • an in-vehicle audio device that can be used by connecting to.
  • This in-vehicle audio device has a voice recognition function, and uses a song name or artist name associated with a song file stored in a connected portable digital music playback device as a speech recognition recognition vocabulary.
  • the song name and artist name associated with the song file stored in the portable digital music playback device are entered in text notation without a phonetic symbol, so text pronunciation A symbol conversion device is required (see FIGS. 27 and 28).
  • a method based on a word dictionary and a method based on a rule as methods used in a conventional text phonetic symbol converter.
  • a word dictionary in which each text string such as a word is associated with a phonetic symbol string is configured.
  • a word dictionary is searched for an input text string such as a word that is a recognition target vocabulary, and a phonetic symbol string corresponding to the input text string is output.
  • it is necessary to increase the size of the word dictionary, which increases the memory requirement for expanding the word dictionary. It was.
  • Patent Document 1 discloses an apparatus for reducing a word dictionary size for a speech synthesis system using a text phonetic symbol conversion apparatus when a word dictionary and a rule are combined.
  • FIG. 29 is a block diagram showing processing of the word dictionary size reduction device disclosed in Patent Document 1.
  • the word dictionary size reduction device deletes words registered in the word dictionary through a process composed of two phases, and reduces the word dictionary size.
  • Examples of the rules include those composed of a prefix rule, a suffix rule, and a suffix rule.
  • phase 2 if a word in the word dictionary can be used as a root word of another word, the word is left in the word dictionary as a root. In this way, even if the root word is a candidate for deletion in phase 1, it is excluded from the deletion target.
  • the word dictionary that is finally determined to be deleted is deleted from the word dictionary, thereby generating a word dictionary with a reduced size. Since the word dictionary generated in this way is a dictionary of exceptional words for which a phonetic symbol string cannot be obtained from a rule, it may be called an “exception word dictionary”.
  • patent document 1 is a word dictionary for a speech synthesis system that is targeted for reduction of the word dictionary size, it is naturally not disclosed to reduce the word dictionary size in consideration of speech recognition performance.
  • Patent Document 1 a method for reducing the dictionary size in the process of creating an exceptional word dictionary is disclosed. However, if the memory capacity of the apparatus is limited, the speech recognition performance within the limit is limited. A method for creating an exceptional word dictionary that takes into account is not disclosed.
  • the dictionary size of the exception word dictionary created according to the method of Patent Document 1 exceeds the memory capacity limit of the device, text that does not adversely affect speech recognition performance even if it is deleted from the exception word dictionary and its pronunciation There was a problem that the symbol string could not be selected.
  • the present invention has been made in view of the above points, and it is possible to create an exceptional word dictionary capable of creating an exceptional word dictionary capable of obtaining high speech recognition performance while reducing the dictionary size of the exceptional word dictionary. It is an object to provide a device, an exception word dictionary creation method and program thereof, and a speech recognition device and speech recognition method for recognizing speech with a high recognition rate using the exception word dictionary.
  • the invention according to claim 1 is a rule for converting a vocabulary text string into a phonetic symbol string, a text string of an exception word that is not subject to conversion by the rule, and its correct phonetic symbol string.
  • An exception word dictionary creation device for creating the exception word dictionary used by the conversion device that converts a text string of a recognition target vocabulary into a phonetic symbol string based on an exception word dictionary stored in association with Text phonetic symbol conversion means for converting a text string of a recognition target vocabulary into a phonetic symbol string, a converted phonetic symbol string that is a conversion result of the text string of a recognition target vocabulary by the text phonetic symbol conversion means, and a text of the recognition target vocabulary If the correct phonetic symbol string does not match the correct phonetic symbol string, the difference between the converted phonetic symbol string and the correct phonetic symbol string affects the deterioration of speech recognition performance.
  • a recognition deterioration contribution calculating unit for calculating a recognition deterioration contribution, and a registration target from the plurality of recognition target vocabularies based on the recognition deterioration contribution for each of the plurality of recognition target words calculated by the recognition deterioration contribution calculating unit.
  • Exception word dictionary registration means for selecting a recognition target vocabulary and registering a text string of the selected registration target vocabulary and its correct phonetic symbol string in the exception word dictionary
  • the exceptional word dictionary creation device selects a recognition target vocabulary to be registered from the plurality of recognition target vocabularies based on the recognition degradation contribution degree to each of the plurality of recognition target vocabularies, and the selected registration
  • select the recognition target vocabulary that has a large degree of influence on the speech recognition performance degradation and select it as the exception word dictionary By registering, it is possible to create an exceptional word dictionary that can obtain high speech recognition performance while reducing the dictionary size of the exceptional word dictionary.
  • the invention according to claim 2 is the exception word dictionary creation device according to claim 1, further comprising exception word dictionary memory size condition storage means for storing a data limit capacity that can be stored in the exception word dictionary.
  • the word dictionary registration means performs the registration so that the amount of data stored in the exceptional word dictionary does not exceed the data limit capacity. According to the present invention, it is possible to perform registration so that the amount of data stored in the exception word dictionary does not exceed the data limit capacity stored in the memory size condition storage means. Even under the predetermined constraints, it is possible to create an exceptional word dictionary that provides high speech recognition performance.
  • the exceptional word dictionary registering unit is further configured to register a registration target based on the use frequency of each of the plurality of recognition target words.
  • the recognition target vocabulary is selected.
  • the recognition target vocabulary to be registered can be further selected based on the usage frequency in addition to the recognition deterioration contribution degree, for example, the recognition target vocabulary having a small recognition deterioration contribution degree but a high use frequency.
  • the exceptional word dictionary registration means recognizes the recognition target vocabulary having the use frequency larger than a predetermined threshold as the recognition word. Regardless of the degree of deterioration contribution, the recognition target vocabulary is selected with priority. According to the present invention, it is possible to preferentially select a recognition target vocabulary having a use frequency greater than a predetermined threshold value as a recognition target vocabulary to be registered regardless of the degree of recognition degradation contribution. Vocabulary to be recognized can be registered in the exception word dictionary in preference to other vocabularies, and it is possible to create an exception word dictionary with high speech recognition performance while reducing the dictionary size of the exception word dictionary .
  • the recognition deterioration contribution degree calculating means includes the converted phonetic symbol string, the correct phonetic symbol string, A spectral distance measure between the two is calculated as the recognition degradation contribution degree.
  • the recognition deterioration contribution calculating means is a speech recognition result based on the converted phonetic symbol string. A difference between a certain speech recognition likelihood and a speech recognition likelihood that is a recognition result of the speech based on the correct phonetic symbol string is calculated as the recognition degradation contribution.
  • the recognition deterioration contribution calculating means includes the converted phonetic symbol string, the correct phonetic symbol string, And calculating a normalized path distance obtained by normalizing the calculated path distance with the length of the correct phonetic symbol string as the recognition degradation contribution degree.
  • the recognition degradation contribution degree calculating means includes a corresponding phonetic symbol between the converted phonetic symbol string and the correct phonetic symbol string.
  • a similarity distance is calculated as the route distance in consideration of weighting based on the relationship between each other, and a normalized similarity distance obtained by normalizing the calculated similarity distance by the length of the correct phonetic symbol string is calculated as the recognition degradation contribution degree. It is characterized by that.
  • the invention according to claim 9 converts the text string of the recognition target vocabulary into a phonetic symbol string using the exception word dictionary created by the exception word dictionary creation device according to any one of claims 1 to 8.
  • a speech recognition dictionary creating means for creating a speech recognition dictionary based on the conversion result; and a speech recognition means for performing speech recognition using the speech recognition dictionary created by the speech recognition dictionary creating means.
  • a speech recognition apparatus is provided. According to the present invention, high speech recognition performance can be obtained while using an exceptional word dictionary having a small size.
  • the invention according to claim 10 is an exception in which a rule for converting a vocabulary text string to a phonetic symbol string, a text string of an exception word excluded from conversion by the rule, and its correct phonetic symbol string are stored in association with each other.
  • An exception word dictionary creation method performed by an exception word dictionary creation device for creating the exception word dictionary used by a conversion device that converts a text string of a recognition target vocabulary into a phonetic symbol string based on a word dictionary,
  • a text phonetic symbol conversion step for converting a text string of the target vocabulary into a phonetic symbol string, a converted phonetic symbol string that is a conversion result of the text string of the recognition target vocabulary in the text phonetic symbol conversion step, and a text of the recognition target vocabulary If the correct phonetic symbol string does not match the correct phonetic symbol string, the difference between the converted phonetic symbol string and the correct phonetic symbol string affects the degradation of speech recognition performance.
  • a recognition deterioration contribution degree calculating step for calculating a recognition deterioration contribution degree that is a degree of recognition, and a plurality of the recognition deterioration contribution degrees calculated for each of a plurality of recognition target words in the recognition deterioration contribution degree calculation step.
  • An exception word dictionary registration step of selecting a recognition target word from the recognition target word and registering the text string of the selected recognition target word and the correct phonetic symbol string in the exception word dictionary.
  • the invention according to claim 11 converts the text string of the recognition target vocabulary into a phonetic symbol string using the exception word dictionary created by the exception word dictionary creation method according to claim 10, and based on the conversion result
  • a speech recognition apparatus comprising: a speech recognition dictionary creating step for creating a speech recognition dictionary; and a speech recognition step for performing speech recognition using the speech recognition dictionary created in the speech recognition dictionary creating step.
  • a speech recognition method is provided.
  • the invention according to claim 12 is an exception in which a rule for converting a vocabulary text string to a phonetic symbol string, a text string of an exception word that is not subject to conversion by the rule, and its correct phonetic symbol string are stored in association with each other.
  • An exception word dictionary creation program for creating the exceptional word dictionary used by a conversion device that converts a text string of a recognition target vocabulary into a phonetic symbol string based on a word dictionary, and pronounces the text string of the recognition target vocabulary
  • a text phonetic symbol conversion means for converting to a symbol string, a converted phonetic symbol string that is a conversion result of the text string of the recognition target vocabulary by the text phonetic symbol conversion means, and a correct phonetic symbol string of the text string of the recognition target vocabulary
  • Recognition deterioration contribution that is the degree to which the difference between the converted phonetic symbol string and the correct phonetic symbol string affects the degradation of speech recognition performance
  • Recognition degradation contribution calculating means for calculating the recognition degradation, and recognition recognition target registration from the plurality of recognition target words
  • the invention according to claim 13 is an exception in which a rule for converting a vocabulary text string into a phonetic symbol string, a text string of an exception word excluded from conversion by the rule, and its correct phonetic symbol string are stored in association with each other.
  • An exception word dictionary creation device for creating the exceptional word dictionary used by a conversion device that converts a text string of a recognition target vocabulary into a phonetic symbol string based on a word dictionary, and pronounces a text string of a recognition target vocabulary
  • a text phonetic symbol converting means for converting to a symbol string, a converted phonetic symbol string that is a conversion result of the text string of the recognition target vocabulary by the text phonetic symbol conversion means, and a correct phonetic symbol string of the text string of the recognition target vocabulary A phonetic symbol that calculates a distance between phonetic symbol strings, which is a distance between the voice based on the converted phonetic symbol string and the voice based on the correct phonetic symbol string if they do not match
  • a recognition target vocabulary to be registered is selected from the plurality
  • the exceptional word dictionary creation device selects a recognition target vocabulary to be registered from the plurality of recognition target vocabularies based on the distance between pronunciation symbol strings for each of the plurality of recognition target vocabularies, and the selected
  • the recognition target vocabulary that has a large degree of influence on the deterioration of the speech recognition performance is preferentially selected and the exception word dictionary is selected.
  • the invention according to claim 14 is an exception in which a rule for converting a vocabulary text string to a phonetic symbol string, a text string of an exception word excluded from conversion by the rule, and its correct phonetic symbol string are stored in association with each other.
  • An exception word dictionary creation method performed by an exception word dictionary creation device for creating the exception word dictionary used by a conversion device that converts a text string of a recognition target vocabulary into a phonetic symbol string based on a word dictionary,
  • a text phonetic symbol conversion step for converting a text string of the target vocabulary into a phonetic symbol string, a converted phonetic symbol string that is a conversion result of the text string of the recognition target vocabulary in the text phonetic symbol conversion step, and a text of the recognition target vocabulary If the correct phonetic symbol string in the sequence does not match, the distance between the voice based on the converted phonetic symbol string and the voice based on the correct phonetic symbol string
  • a plurality of phonetic symbol string distance calculation steps for calculating a distance between phonetic symbol strings; and a plurality
  • the invention according to claim 15 is an exception in which a rule for converting a vocabulary text string into a phonetic symbol string, an exception word text string that is not subject to conversion by the rule, and its correct phonetic symbol string are stored in association with each other.
  • An exception word dictionary creation program for creating the exceptional word dictionary used by a conversion device that converts a text string of a recognition target vocabulary into a phonetic symbol string based on a word dictionary, and pronounces the text string of the recognition target vocabulary
  • a text phonetic symbol conversion means for converting to a symbol string, a converted phonetic symbol string that is a conversion result of the text string of the recognition target vocabulary by the text phonetic symbol conversion means, and a correct phonetic symbol string of the text string of the recognition target vocabulary If the two do not match, the distance between the phonetic symbol strings, which is the distance between the voice based on the converted phonetic symbol string and the voice based on the correct phonetic symbol string, is calculated.
  • the recognition target recognition from the plurality of recognition target words based on the distance between the phonetic symbol strings calculated for each of the plurality of recognition target words by the phonetic symbol string distance calculation unit and the phonetic symbol string distance calculation unit Selecting a target vocabulary and causing the computer to function as an exception word dictionary registration means for registering a text string of the selected recognition target vocabulary to be registered and its correct phonetic symbol string in the exception word dictionary
  • An exception word dictionary creation program is provided.
  • the invention according to claim 16 is a recognition target vocabulary having a vocabulary text string and its correct phonetic symbol string, and a text phonetic symbol string for converting the text string into a phonetic symbol string according to a predetermined rule.
  • a distance between a conversion means, a converted phonetic symbol string converted by the text phonetic symbol string conversion means, a voice based on the converted phonetic symbol string, and a voice based on the correct phonetic symbol string A phonetic symbol string distance calculating unit for calculating a distance; and a recognition target word registering unit for registering the recognition target word based on the phonetic symbol string distance calculated by the phonetic symbol string distance calculating unit.
  • a recognition vocabulary registration device characterized by the above is provided.
  • text pronunciation symbol string conversion means for converting a text string of a recognition target vocabulary into a phonetic symbol string according to a predetermined rule, and a converted phonetic symbol string converted by the text pronunciation symbol string conversion means
  • a phonetic symbol string distance calculating unit that calculates a distance between phonetic symbol strings, which is a distance between the voice based on the voice based on a correct phonetic symbol string of the recognition target vocabulary, and calculated by the distance calculation unit between the phonetic symbol strings
  • a recognition vocabulary registration device comprising recognition target vocabulary registration means for registering the recognition target vocabulary based on the distance between the phonetic symbol strings.
  • the invention described in claim 18 is an exception word dictionary having a recognition target vocabulary registered by the recognition target vocabulary registration means of the recognition vocabulary registration apparatus according to claim 16 or 17, and a recognition using the exception word dictionary.
  • the exceptional word dictionary creation device selects a recognition target vocabulary to be registered from the plurality of recognition target vocabularies based on the recognition degradation contribution degree to each of the plurality of recognition target vocabularies, and the selected registration
  • select the recognition target vocabulary that has a large degree of influence on the speech recognition performance degradation and select it as the exception word dictionary By registering, it is possible to create an exceptional word dictionary that can obtain high speech recognition performance while reducing the dictionary size of the exceptional word dictionary.
  • (A) is a data block diagram of processed vocabulary list data according to the embodiment
  • (b) is a block diagram of extended vocabulary list data. It is the graph which accumulated the ratio to the population of the actual last name of each United States from the top, and the graph showing the usage frequency of each last name. It is a graph which shows the recognition rate improvement result at the time of creating an exceptional word dictionary according to recognition degradation contribution degree, and conducting a speech recognition experiment.
  • (A) is a diagram showing an example of mismatch between a phonetic symbol string and a converted phonetic symbol string having a small effect on the recognition rate
  • (b) is a diagram showing an example of mismatch between a phonetic symbol string and a converted phonetic symbol string having a large effect on the recognition rate. It is.
  • FIG. 1 is a block diagram showing the basic configuration of the exceptional word dictionary creation apparatus of the present invention.
  • the exceptional word dictionary creation device includes a text phonetic symbol conversion unit 21 that converts a text string of a recognition target vocabulary into a phonetic symbol string, and a converted phonetic symbol string that is a conversion result of the text string of the recognition target vocabulary.
  • a recognition deterioration contribution degree calculation unit (a pronunciation symbol string distance calculation unit) 24 that calculates a recognition deterioration contribution degree when the correct phonetic symbol string of the text string of the recognition target vocabulary does not match
  • An exception word dictionary registration unit 41 that selects a recognition target vocabulary to be registered based on the recognition degradation contribution degree, and registers the text string of the recognition target vocabulary to be registered and its correct phonetic symbol string in the exception word dictionary 60. I have.
  • the recognition deterioration contribution degree calculation unit 24 corresponds to “recognition deterioration contribution degree calculation means” or “phonetic symbol string distance calculation means” in the claims.
  • FIG. 2 is a block diagram showing the configuration of the exceptional word dictionary creation device 10 according to the first embodiment of the present invention.
  • the exceptional word dictionary creation device 10 includes a vocabulary list data creation unit 11, a text phonetic symbol conversion unit 21, a recognition deterioration contribution calculation unit 24, a registration candidate vocabulary list creation unit 31, a registration candidate vocabulary list sort unit 32, and an exception word dictionary registration.
  • a part 41 is included.
  • the vocabulary list data 12, the registered candidate vocabulary list 13, and the exceptional word dictionary memory size condition 71 are data stored in a recording medium such as a memory (not shown) in the exceptional word dictionary creation device 10.
  • the database or word dictionary 50 and the exceptional word dictionary 60 are a database or a data storage area provided on a recording medium outside the exceptional word dictionary creating apparatus 10.
  • the database or word dictionary 50 stores a plurality of vocabulary data.
  • FIG. 3A shows an example of the data structure of vocabulary data.
  • the vocabulary data is composed of a vocabulary text string and a correct phonetic symbol string of the text string.
  • the vocabulary according to the present embodiment includes a name of a person, a song name, a name of a performer or a performance group, a title name of an album in which a song is stored, and the like.
  • the vocabulary list data creation unit 11 generates vocabulary list data 12 based on the vocabulary data stored in the database or the word dictionary 50 and stores it in a recording medium such as a memory in the exceptional word dictionary creation device 10.
  • FIG. 3B shows an example of the data structure of the vocabulary list data 12.
  • the vocabulary list data 12 has a data structure that further includes a deletion candidate flag and a recognition deterioration contribution in addition to the text data string and the phonetic symbol string included in the vocabulary data.
  • the deletion candidate flag and the recognition deterioration contribution are initialized when the vocabulary list data 12 is constructed on a recording medium such as a memory.
  • the text phonetic symbol conversion unit 21 converts the text string of the recognition target vocabulary into a phonetic symbol string using only a rule for converting a text string into a phonetic symbol string or using a rule and an existing exception word dictionary. .
  • the conversion result of the text string by the text phonetic symbol conversion unit 21 is also referred to as a “converted phonetic symbol string”.
  • the recognition deterioration contribution calculating unit 24 performs text recognition when the phonetic symbol string of the vocabulary list data 12 and the converted phonetic symbol string that is the result of converting the text string by the text phonetic symbol converting unit 21 do not match. A deterioration contribution value is calculated. Then, the recognition deterioration contribution degree of the vocabulary list data 12 is updated with the calculated value, and the deletion candidate flag of the vocabulary list data 12 is updated to false.
  • the recognition deterioration contribution degree indicates the degree to which the difference between the converted phonetic symbol string and the correct phonetic symbol string affects the voice recognition performance deterioration.
  • the recognition deterioration contribution is the degree of mismatch between the phonetic symbol string acquired from the vocabulary list data 12 and the converted phonetic symbol string that is the result of converting the phonetic symbol string by the text phonetic symbol conversion unit 21.
  • the degree to which the accuracy of the voice recognition deteriorates is quantified.
  • the distance between phonetic symbol strings is a method of synthesizing speech from a phonetic symbol string using a speech synthesizer or the like, calculating a distance between phonetic symbol strings between the synthesized speech, and a phonetic symbol string acquired from the vocabulary list data 12 Using speech recognition dictionaries that register converted phonetic symbol strings and performing speech recognition, calculating the difference in recognition likelihood between phonetic symbols as the distance between phonetic symbol strings, using DP (Dynamic Programming) matching There is a method of calculating the difference between the phonetic symbol strings of the phonetic symbol strings acquired from the vocabulary list data 12 and the converted phonetic symbol strings as the distance between the phonetic symbol strings. Details of the calculation method will be described later.
  • the recognition deterioration contribution calculation unit 24 does not calculate the value of the recognition deterioration contribution and updates the deletion candidate flag of the vocabulary list data 12 to true.
  • the registration candidate vocabulary list creation unit 31 extracts, as registration candidate vocabulary list data, only the data whose deletion candidate flag is false from the vocabulary list data 12, and creates the registration candidate vocabulary list 13 as a list of registration candidate vocabulary list data. To store in memory.
  • the registration candidate vocabulary list sorting unit 32 sorts the registration candidate vocabulary list data in the registration candidate vocabulary list 13 in descending order of contribution of recognition deterioration.
  • the exceptional word dictionary registration unit 41 selects registration candidate vocabulary list data to be registered based on the recognition deterioration contribution degree of each registration candidate vocabulary list data from the plurality of registration candidate vocabulary list data in the registration candidate vocabulary list 13. Then, the text string of the selected registration candidate vocabulary list data and its phonetic symbol example are registered in the exceptional word dictionary 60. Specifically, the exceptional word dictionary registration unit 41 includes, among the registration candidate vocabulary list data in the registration candidate vocabulary list 13, the registration candidate vocabulary list data that is higher in the sort order, that is, a relatively large recognition deterioration contribution degree. Is registered, and the text string of the selected registration candidate vocabulary list data and an example of its phonetic symbols are registered in the exceptional word dictionary 60.
  • the maximum is within a range that does not exceed the data limit capacity that can be stored in the exception word dictionary 60.
  • a number of vocabularies may be registered. Thereby, even if there is a restriction on the amount of data that can be stored in the exceptional word dictionary 60, it is possible to obtain the exceptional word dictionary 60 that can obtain the optimum speech recognition performance.
  • the vocabulary data stored in the database or the word dictionary 50 used to create the exceptional word dictionary 60 includes only vocabularies of a specific category (for example, names of people or places), a dedicated exception specialized for that category A word dictionary can be realized.
  • an extended exception word dictionary is realized by adding an exception word dictionary 60 newly created with vocabulary data of the database or the word dictionary 50. be able to.
  • the exception word dictionary 60 created by the exception word dictionary creation device 10 is used when creating the speech recognition dictionary 81 of the speech recognition device 80 as shown in FIG.
  • the text phonetic symbol conversion unit 21 applies the rule and the exceptional word dictionary 60 to the recognition target vocabulary text string to generate a speech recognition dictionary 81.
  • the voice recognition unit 82 of the voice recognition device 80 recognizes voice using the voice recognition dictionary 81.
  • the exception word dictionary 60 Since the dictionary size of the exception word dictionary 60 can be reduced based on the exception word dictionary memory size condition 71, for example, even if the voice recognition device 80 is a mobile phone with a small storage capacity, the exception word dictionary 60 is stored in the mobile phone. Can be used.
  • the exceptional word dictionary 60 may be stored in the speech recognition device 80 from the time of manufacture of the speech recognition device 80. When the speech recognition device 80 has a communication function, the speech recognition device 80 is a network.
  • the exceptional word dictionary 60 may be downloaded from the above server and stored. Further, the exceptional word dictionary 60 may be stored in a server on the network without being stored in the voice recognition device 80, and the voice recognition device 80 may access the server and use the exceptional word dictionary.
  • the vocabulary list data creation unit 11 of the exceptional word dictionary creation device 10 creates the vocabulary list data 12 based on the database or the word dictionary 50 (step S101 in FIG. 5).
  • 1 is set to the variable i (step S102), and the i-th vocabulary list data 12 is read (step S103).
  • the exceptional word dictionary creation device 10 inputs the text string of the i-th vocabulary list data 12 to the text phonetic symbol conversion unit 21, and the text phonetic symbol conversion unit 21 converts the input text string, A converted phonetic symbol string is generated (step S104).
  • the exceptional word dictionary creation device 10 determines whether or not the generated converted phonetic symbol string matches the phonetic symbol string of the i-th vocabulary list data 12 (step S105). If it is determined that the converted phonetic symbol string matches the phonetic symbol string of the i-th vocabulary list data 12 (step S105; Yes), the deletion candidate flag of the i-th vocabulary list data 12 is set to true ( Step S106). On the other hand, if it is determined that the converted phonetic symbol string does not match the phonetic symbol string of the i-th vocabulary list data 12 (step S105; No), the deletion candidate flag of the i-th vocabulary list data 12 is set to false. To do.
  • the recognition deterioration contribution calculating unit 24 calculates a recognition deterioration contribution based on the converted phonetic symbol string and the phonetic symbol string of the i-th vocabulary list data 12, and the calculated recognition deterioration contribution is calculated based on the i-th vocabulary list data 12.
  • the vocabulary list data 12 is registered (step S107).
  • step S109 When registration of the deletion candidate flag and the recognition deterioration contribution degree to the first vocabulary list data 12 is completed in this way, i is incremented (step S109), and the same processing is performed for the next vocabulary list data 12 Is repeated (steps S103 to S107). If i is the final number (step S108; Yes) and registration is completed for all vocabulary list data 12, the process proceeds to step S110 in FIG.
  • step S110 the exceptional word dictionary creation device 10 sets i to 1, reads the i-th vocabulary list data 12 (step S111), and determines whether or not the deletion candidate flag of the read vocabulary list data 12 is true. (Step S112). Only when the deletion candidate flag is not true (step S112; No), the i-th vocabulary list data 12 is registered in the registration candidate vocabulary list 13 as registration candidate vocabulary list data (step S113).
  • step S114 it is determined whether i is the final number (step S114). If i is not the final number (step S114; No), i is incremented (step S115), and the i-th vocabulary list data 12 is determined. The processes from steps S111 to S113 are repeated. On the other hand, if i is the final number (step S114; Yes), the registration candidate vocabulary list sorting unit 32 sorts the registration candidate vocabulary list data registered in the registration candidate vocabulary list 13 in descending order of contribution of recognition degradation (ie, exception). They are rearranged in the descending order of registration priority in the word dictionary 60 (step S116). Next, i is set to 1 in step S117, and the exceptional word dictionary registration unit 41 reads the registration candidate vocabulary list data having the i-th largest recognition deterioration contribution value from the registration candidate vocabulary list 13 (step S118). .
  • the exception word dictionary registration unit 41 determines that the amount of data stored in the exception word dictionary 60 is the exception word dictionary. It is determined whether or not the data limit capacity indicated by the memory size condition 71 is exceeded (step S119). When the amount of data stored in the exceptional word dictionary 60 does not exceed the data limit capacity indicated by the exceptional word dictionary memory size condition 71 (step S119; Yes), the registration candidate having the i-th largest recognition degradation contribution value Vocabulary list data is registered in the exceptional word dictionary 60 (step S120). If i is not the final number (step S121; No), i is incremented (step S122), and the processing of steps S118 to S122 is repeated. If i is the final number (step S121; Yes), the process ends.
  • the process ends without registering the registration candidate vocabulary list data in the exceptional word dictionary 60.
  • the registration candidate vocabulary list sorting unit 32 sorts the registration candidate vocabulary list data in the registration candidate vocabulary list 13 in descending order of contribution of recognition deterioration, and the exception word dictionary registration unit 41 sorts in the sorting order.
  • the registration candidate vocabulary list data is selected and registered in the exception word dictionary 60, the sorting by the registration candidate vocabulary list sorting unit 32 can be omitted, for example, as shown in steps S201 to S202 of FIG.
  • the exception word dictionary registration unit 41 may directly refer to the registration candidate vocabulary list 13 to determine registration candidate vocabulary data having a large recognition deterioration contribution and register it in the exception word dictionary 60.
  • the spectral distance measure represents the similarity or distance between the short-time spectra of two voices, and various distance measures such as the LPC cepstrum distance are known (for example, Sadaaki Furui: “Acoustic / Speech Engineering”, Modern Science Co., Ltd.) ).
  • a recognition degradation contribution degree calculation method using the result of the LPC cepstrum distance will be described with reference to FIG.
  • the recognition deterioration contribution calculation unit 24 inputs a phonetic symbol string, and thereby synthesizes a synthesized speech according to the phonetic symbol string, and an LPC cepstrum distance between the two input synthesized sounds. And an LPC cepstrum distance calculating unit 2402 for calculating.
  • the phonetic symbol string a of the vocabulary A and the converted phonetic symbol string a ′ of the vocabulary A that is the result of converting the text string of the vocabulary A by the text phonetic symbol conversion unit 21 are input to the recognition deterioration contribution calculating unit 24.
  • the recognition deterioration contribution calculation unit 24 inputs the phonetic symbol string a and the converted phonetic symbol string a ′ to the speech synthesizer 2401 respectively, and synthesizes the synthesized speech of the phonetic symbol string a and the converted phonetic symbol string a ′. Get voice and.
  • the recognition deterioration contribution calculating unit 24 inputs the synthesized speech of the phonetic symbol string a and the synthesized speech of the converted phonetic symbol sequence a ′ to the LPC cepstrum distance calculating unit 2402, and converts it into the synthesized speech of the phonetic symbol string a.
  • An LPC cepstrum distance CL A with the synthesized speech of the phonetic symbol string a ′ is obtained.
  • LPC cepstrum distance CL A is the distance to determine whether the synthetic speech synthesized as synthesized speech synthesized from the phonetic symbol sequence a from the conversion pronunciation symbol string a 'is how spaced, synthetic as CL A larger Since this is one of the phonetic symbol distances indicating that the phonetic symbol string a and the converted phonetic symbol string a ′, which are the origin of the speech, are separated, the recognition deterioration contribution calculating unit 24 converts CL A into the vocabulary A. Is output as a recognition rate degradation contribution D A of Since the LPC cepstrum distance is not the speech itself but can be calculated as long as the spectrum sequence of the speech, the speech spectrum sequence according to each pronunciation symbol sequence from the pronunciation symbol sequence a and the converted pronunciation symbol sequence a ′.
  • the speech synthesizer 2401 and the recognition rate deterioration contribution may be calculated using the LPC cepstrum distance calculation unit 2402 that calculates the LPC cepstrum distance from the spectrum series. Further, as a spectral distance scale, a distance based on a spectrum obtained by a band filter group or FFT may be used.
  • the speech recognition likelihood is a value that stochastically represents the degree of coincidence between the input speech and the vocabulary for each vocabulary registered in the speech recognition dictionary of the speech recognition device.
  • Called Sadaaki Furui “Acoustic / Voice Engineering”, detailed in Modern Science.
  • the speech recognition apparatus calculates the likelihood between the input speech and each vocabulary registered in the speech recognition dictionary, and the vocabulary showing the highest likelihood, that is, the degree of coincidence between the input speech and the vocabulary Has the highest vocabulary as a result of speech recognition.
  • the recognition deterioration contribution calculating unit 24 inputs a phonetic symbol string to synthesize a synthesized speech according to the phonetic symbol string, and a voice recognition dictionary 2405 according to the input phonetic symbol string.
  • What is actually registered in the speech recognition dictionary 2405 by the speech recognition dictionary registration unit 2404 is not the phonetic symbol itself in the phonetic symbol string but the phoneme model data for speech recognition associated with the phonetic symbol.
  • the phoneme model data for speech recognition associated with the phonetic symbol will be described as a phonetic symbol.
  • the phonetic symbol string a of the vocabulary A and the converted phonetic symbol string a ′ of the vocabulary A that is the result of converting the text string of the vocabulary A by the text phonetic symbol conversion unit 21 are input to the recognition deterioration contribution calculating unit 24.
  • the recognition deterioration contribution calculation unit 24 passes the phonetic symbol string a and the converted phonetic symbol string a ′ to the speech recognition dictionary registration unit 2404 and inputs the phonetic symbol string a to the speech synthesizer 2401.
  • the voice recognition dictionary registration unit 2404 registers the phonetic symbol string a and the converted phonetic symbol string a ′ in the voice recognition dictionary 2405 (see dictionary registration content 2406).
  • the speech synthesizer 2401 synthesizes the synthesized speech of the vocabulary A that is the synthesized speech in the phonetic symbol string a, and inputs the synthesized speech of the vocabulary A to the speech recognition device 4.
  • the speech recognition device 4 performs speech recognition of the synthesized speech of the vocabulary A in the speech recognition dictionary 2405 in which the phonetic symbol string a and the converted phonetic symbol string a ′ are registered, and converts the likelihood La of the phonetic symbol string a and the conversion.
  • the likelihood La ′ of the phonetic symbol string a ′ is output and passed to the likelihood difference calculation unit 2407.
  • the likelihood difference calculation unit 2407 calculates a difference between the likelihood La and the likelihood La ′.
  • the likelihood La is a quantification of how much the synthesized speech synthesized based on the phonetic symbol string a matches the phoneme model data sequence corresponding to the phonetic symbol string a
  • the likelihood La ′ is This is a quantification of how much the synthesized speech matches the phoneme model data sequence corresponding to the converted phonetic symbol string a ′. Therefore, the difference between the likelihood La and the likelihood La ′ is one of the inter-phonetic symbol distances indicating how far the converted phonetic symbol string a ′ is separated from the phonetic symbol string a. 24 outputs the difference between the likelihood La and the likelihood La ′ as the recognition rate deterioration contribution D A of the vocabulary A.
  • the synthesized speech input to the speech recognition device 4 may be synthesized speech synthesized based on the converted phonetic symbol string a ′. Further, since the likelihood difference in the synthesized speech synthesized based on the phonetic symbol string a and the likelihood difference in the synthesized speech synthesized based on the converted phonetic symbol sequence a ′ do not necessarily match, both are obtained. It is good also as a recognition rate deterioration contribution.
  • DP matching is a method for judging how similar two code strings are, and is widely known as a basic technology for pattern recognition and image processing (for example, Seiichi Uchida, “DP Matching Overview”, Science Technology) , PRMU 2006-166 (2006-12)).
  • substitution error S: Substitution
  • insertion error I: Insertion
  • missing error D: Delete
  • a A method of converting from A to A 'with the least number of conversions is estimated. In the estimation, it is necessary to evaluate which candidate has the least number of conversions among the candidates for the combination of conversions. Each conversion is replaced with a path from A to A ′, and each conversion is evaluated as its path distance.
  • the path having the shortest path distance is defined as a pattern in which A to A ′ is converted with the least conversion (referred to as “error pattern”), and is regarded as a process in which A to A ′ occurs.
  • error pattern a pattern in which A to A ′ is converted with the least conversion
  • the shortest path distance used for the evaluation may be regarded as the intersymbol distance between A and A ′.
  • Such conversion from A to A ′ having the shortest path distance and a conversion pattern are referred to as optimum matching.
  • This DP matching can be applied to the phonetic symbol string acquired from the vocabulary list data 12 and the converted phonetic symbol string.
  • FIG. 10 shows an example of an error pattern output after DP matching is performed on the phonetic symbol string and the converted phonetic symbol string of the last name in the United States.
  • the converted phonetic symbol string is compared with the phonetic symbol string, in the text string Moore, the second phonetic symbol from the right is replaced, and insertion occurs between the third and fourth phonetic symbols from the right.
  • the fourth phonetic symbol from the right of the phonetic symbol string is replaced.
  • the sixth phonetic symbol from the right is replaced, the eighth phonetic symbol from the right is missing, and the tenth phonetic symbol from the right is replaced.
  • the recognition deterioration contribution degree calculation unit 24 includes a DP matching unit 2408 that performs DP matching, and a route distance normalization unit 2409 that normalizes the route distance calculated by the DP matching unit 2408 with the phonetic symbol string length. ing.
  • the phonetic symbol string a of the vocabulary A and the converted phonetic symbol string a ′ of the vocabulary A that is the result of converting the text string of the vocabulary A by the text phonetic symbol conversion unit 21 are input to the recognition deterioration contribution calculating unit 24. Then, the recognition deterioration contribution calculating unit 24 passes the phonetic symbol string a and the converted phonetic symbol string a ′ to the DP matching unit 2408.
  • the DP matching unit 2408 calculates the symbol string length PLa of the phonetic symbol string a, finds the optimum matching between the phonetic symbol string a and the converted phonetic symbol string a ′, calculates the optimal matching path distance L A, and passing a distance L a and the symbol sequence length PLa pronunciation symbol string a to the path length normalization unit 2409.
  • Path metric normalization unit 2409 calculates a route distance L A pronunciation symbol string a symbol string length PLa in normalized normalized path distance L A '.
  • the recognition deterioration contribution calculation unit 24 outputs the normalized path distance L A ′ as the recognition deterioration contribution of the vocabulary A.
  • the recognition deterioration contribution calculation using the DP matching result is convenient in that the recognition deterioration contribution can be easily calculated only by a normal DP matching algorithm. Regardless of the content of the phonetic symbols that have been made or the content of the missing phonetic symbols, they are treated as the same weight. However, for example, when a vowel is replaced with another vowel with a similar pronunciation, or when it is replaced with a consonant with a completely different pronunciation, the latter causes a stronger deterioration in the recognition rate. The impact on rate is different between the two.
  • substitution errors the degree of contribution to recognition deterioration is increased as the degree of influence on the recognition rate of speech recognition increases for each content of the phonetic symbol substitution combination.
  • recognition degradation is increased as the degree of influence on the recognition rate of speech recognition increases for each inserted phonetic symbol and for each missing phonetic symbol.
  • the recognition degradation contribution degree calculation unit 24 includes a DP matching unit 2408 that performs DP matching, a similar distance calculation unit 2411 that calculates a similar distance from the optimum matching determined by the DP matching unit 2408, and a similar distance calculation unit 2411. And a similarity distance normalization unit 2412 that normalizes the similarity distance calculated in (1) with the phonetic symbol string length.
  • the phonetic symbol string a of the vocabulary A and the converted phonetic symbol string a ′ of the vocabulary A that is the result of converting the text string of the vocabulary A by the text phonetic symbol conversion unit 21 are input to the recognition deterioration contribution calculating unit 24.
  • the recognition deterioration contribution calculating unit 24 passes the phonetic symbol string a and the converted phonetic symbol string a ′ to the DP matching unit 2408.
  • the DP matching unit 2408 calculates the symbol string length PLa of the phonetic symbol string a, finds the optimal matching between the phonetic symbol string a and the converted phonetic symbol string a ′, and generates the phonetic symbol string a and the converted phonetic symbol string a ′. Then, the error pattern and the symbol string length PLa of the phonetic symbol string a are passed to the similarity distance calculation unit 2411.
  • the similarity distance calculation unit 2411 calculates the similarity distance LL A and passes the similarity distance LL A and the symbol string length PLa to the similarity distance normalization unit 2412. The details of the method of calculating the similarity distance LL A below.
  • Similarity distance normalizing unit 2412 calculates a similarity distance LL A normalized normalized similarity distance symbol string length PLa conversion pronunciation symbol string a LL A '.
  • the recognition deterioration contribution degree calculation unit 24 outputs the normalized similarity distance LL A ′ as the recognition deterioration contribution degree of the vocabulary A.
  • FIG. 13 is a diagram illustrating an example of optimal matching and a replacement distance table, an insertion distance table, and a missing distance table stored in the memory of the exceptional word dictionary creation device 10.
  • Va, Vb, Vc,... Shown in these optimum matching, replacement distance table, insertion distance table, and missing distance table are vowel phonetic symbols, and Ca, Cb, Cc,. Indicates phonetic symbols.
  • the phonetic symbol string a of the vocabulary A, the converted phonetic symbol string a ′ of the vocabulary A, and the error pattern between the phonetic symbol string a and the converted phonetic symbol string a ′ are shown.
  • the replacement distance table, the insertion distance table, and the missing distance table are tables for calculating a distance for each type of error when the distance when the phonetic symbols match in the optimal matching is 1.
  • the replacement distance table is a table that defines a distance greater than 1 in consideration of the degree of influence on the recognition rate of speech recognition for each combination of phonetic symbols regarding replacement errors.
  • the insertion distance table is a table that defines a distance greater than 1 in consideration of the degree of influence on the recognition rate of speech recognition for each inserted phonetic symbol.
  • the missing distance table is a table that defines a distance larger than 1 in consideration of the degree of influence on the recognition rate of speech recognition for each missing phonetic symbol.
  • the phonetic symbol row (horizontal direction) in the replacement distance table represents the original phonetic symbol
  • the phonetic symbol column (vertical direction) in the replacement distance table represents the replacement phonetic symbol.
  • the distance when the substitution error occurs is shown at the intersection of the phonetic symbol column and the replacement phonetic row.
  • the distance S VaVb where the column of the original phonetic symbol Va and the row of the replacement phonetic symbol Vb intersect is obtained.
  • the distance S VaVb when phonetic symbols Va is substituted with phonetic symbol Vb the distance S VBVA when phonetic symbols Vb is replaced by a phonetic symbol Va not always become the same value.
  • the insertion distance table represents the distance when the phonetic symbol is inserted for each phonetic symbol. For example, when the phonetic symbol Va is inserted, the distance I Va is obtained.
  • the missing distance table represents the distance when the phonetic symbol is missing for each phonetic symbol. For example, when the phonetic symbol Va is inserted, the distance D Va is obtained.
  • the first phonetic symbol Ca of the phonetic symbol string a is the same, so the distance is 1, and the second phonetic symbol string a is the second.
  • the distance is S VaVc
  • the third phonetic symbol Cb of the phonetic symbol string a is equal to the distance 1, so that the fourth phonetic symbol Vb of the phonetic symbol string a is reached.
  • Cc is inserted between the fourth and fifth phonetic symbols of the phonetic symbol string a, so that the distance is I Cc
  • the fifth phonetic symbol Vc of the phonetic symbol string a is obtained.
  • D Va is obtained.
  • the similar distance LL A using the weighting result according to the phonetic symbol between the phonetic symbol string a and the converted phonetic symbol string a ′ is a value obtained by adding all the distances between these phonetic symbols (1 + S VaVc + 1 + 1 + I Cc + 1 + D Va ).
  • the phonetic symbols are used to generate pronunciations that are important and relatively insignificant in the speech recognition. And exist.
  • a distance smaller than 1 is determined for each phonetic symbol, with the value of the phonetic symbol having a higher importance to the recognition rate matching the importance being reduced.
  • the coincidence distance table obtains the distance M Va when, for example, the coincident phonetic symbol is Va.
  • the phonetic symbol string a for the optimal matching phonetic symbol string a, the converted phonetic symbol string a ′, and the error pattern between the phonetic symbol string a and the converted phonetic symbol string a ′ is added.
  • one th pronunciation symbol Ca is matched distance M Ca becomes for which the, second phonetic symbol Va denotes a distance S VaVc next because it is replaced with a phonetic symbol Vc pronunciation symbol string a, pronunciation symbol string a three Since the second phonetic symbol Cb matches, it becomes the distance M Cb , and the fourth phonetic symbol Vb of the phonetic symbol string a matches, so it becomes the distance M Vb , and the fourth and fifth phonetic symbols ab .
  • the similar distance LL A using the weighting result depending on the phonetic symbol between the phonetic symbol string a and the converted phonetic symbol string a ′ is a value obtained by adding all the distances between these phonetic symbols (M Ca + S VaVe + M Cb + M Vb + I Cc + M Vc + D Va ).
  • the registration candidate vocabulary list sorting unit 32 sorts the registration candidate vocabulary list data in the registration candidate vocabulary list 13 in descending order of contribution of recognition degradation (see step S116 in FIG. 6).
  • the registration candidate vocabulary list data is sorted by further considering the use frequency (see step S216 in FIG. 15 showing the processing flow according to the second embodiment).
  • Other configurations and processing procedures are the same as those in the first embodiment.
  • usage frequency means the frequency with which each vocabulary is used in the real world.
  • the frequency of use of the last name (Last Name) in a country can be considered to be equivalent to the percentage of the population with the last name in that country. It can be regarded as the frequency of appearance of the number of last names at the time of survey aggregation.
  • the usage frequency of each vocabulary is different, and a vocabulary with a high usage frequency has a high probability of being registered in the speech recognition dictionary, so that the influence on the recognition rate in an actual speech recognition application example increases. Therefore, when the usage frequency is included in the database or the word dictionary 50, the registration candidate vocabulary list sorting unit 32 considers both the recognition deterioration contribution degree and the usage frequency, and the registration candidate vocabulary list in the order of registration priority. Sort the data.
  • the registration candidate vocabulary list sorting unit 32 sorts based on predetermined registration order determination conditions.
  • the registration order determination condition includes three numerical conditions: a use frequency difference condition, a recognition deterioration contribution difference condition, and a priority use frequency difference condition.
  • the usage frequency difference condition, the recognition degradation contribution degree difference condition, and the priority use frequency difference condition are each a usage frequency difference condition threshold (DF; DF is given by 0 or a negative number) and a recognition degradation contribution degree difference condition threshold.
  • DF usage frequency difference condition threshold
  • DL DL is given as 0 or a positive number
  • PF priority usage frequency difference condition threshold
  • the registration candidate vocabulary list data of the registration candidate vocabulary list 13 is arranged in descending order of the recognition degradation contribution by the registration candidate vocabulary list sorting unit 32.
  • the registration degradation vocabulary list data The registration candidate vocabulary list data arranged in descending order are further rearranged in the following three steps from the first step to the third step.
  • the recognition deterioration contribution degree of each registration candidate vocabulary list data is checked, and if there are two or more registration candidate vocabulary list data having the same recognition deterioration contribution degree, among the registration candidate vocabulary list data, Sort by frequency of use.
  • vocabularies with a high frequency of use are arranged in the order in which they are registered in the exceptional word dictionary 60 more preferentially.
  • DF frequently used difference condition threshold
  • dF n-1, n ⁇ DF dF
  • the respective registration candidate vocabulary list data are rearranged so as to satisfy the above condition (dL n ⁇ 1 , n ⁇ DL).
  • the next operation is performed in order from the second registered candidate vocabulary list data to the last registered candidate vocabulary list data. That is, the difference (dF n ⁇ 1 , n ) between the usage frequency of the nth registered candidate vocabulary list data and the usage frequency of the n ⁇ 1th registered candidate vocabulary list data is calculated, Compare with DF.
  • dF n ⁇ 1 , n is greater than or equal to DF (dF n ⁇ 1 , n ⁇ DF)
  • no further processing is performed, and the n + 1th registered candidate vocabulary list data is checked.
  • dF n ⁇ 1 , n is smaller than DF (dF n ⁇ 1 , n ⁇ DF)
  • the recognition deterioration contribution degree of the nth registered candidate vocabulary list data and the n ⁇ 1th registered The difference (dL n ⁇ 1 , n ) from the recognition deterioration contribution degree of the registered candidate vocabulary list data is calculated and compared with DL.
  • dL n ⁇ 1 , n is greater than or equal to DL (dL n ⁇ 1 , n ⁇ DL)
  • no further processing is performed, and the n + 1th registered candidate vocabulary list data is checked.
  • dL n ⁇ 1 , n is smaller than DL (dL n ⁇ 1 , n ⁇ DL)
  • the nth registered candidate vocabulary list data and the n ⁇ 1th registered registration After the order of the candidate vocabulary list data is changed, the registration candidate vocabulary list data registered in the (n + 1) th is checked.
  • the second step ends when the operation is repeated in this manner and the order of the registration candidate vocabulary list data is not changed.
  • the rearrangement method in the second step will be specifically described with reference to FIGS. 16, 17, 18, and 19.
  • DF is set to ⁇ 0.2 and DL is set to 0.5.
  • the table of (a) “first initial state” in FIG. 16 “first rearrangement of the second step” shows a state where the first step is completed.
  • the state after the replacement is (b) “first to third to seventh” table.
  • dF 2,3 of the third vocabulary C is 0.14, and dF 2,3 ⁇ ⁇ 0.2, so that no replacement occurs.
  • dF 3,4 of the fourth vocabulary D is -0.21, dF 3,4 ⁇ -0.2 is established, and dL 3,4 is 0.9 because dL 3,4 is 0.9 . 4 ⁇ 0.5 and no replacement occurs.
  • the dF 4,5 of the fifth vocabulary E is 0.25, and dF 4,5 ⁇ ⁇ 0.2, so that no replacement occurs.
  • the dF 5,6 of the sixth vocabulary F is 0.02, and dF 5,6 ⁇ ⁇ 0.2, and no replacement occurs.
  • the second operation is the same as (c) “first state of the second step” in FIG. 16 “second step rearrangement” (a) “a” of “the second step rearrangement” in FIG. It starts from “the second initial state”.
  • the second vocabulary A and the third vocabulary C dF 1,2 ⁇ ⁇ 0.2 and dF 2,3 ⁇ ⁇ 0.2, and no replacement occurs.
  • the fourth vocabulary D dF 3,4 ⁇ 0.2 holds, but dL 3,4 ⁇ 0.5 and no replacement occurs.
  • the fifth vocabulary E dF 4,5 ⁇ ⁇ 0.2 and no replacement occurs.
  • the third operation is the same as (b) “second state rearrangement” in FIG. 17 “second step rearrangement” in FIG. 18 “second step rearrangement third time” in FIG. It starts from “the third initial state”.
  • the second vocabulary A and the third vocabulary C dF 1,2 ⁇ ⁇ 0.2 and dF 2,3 ⁇ ⁇ 0.2, and no replacement occurs.
  • the fourth vocabulary D dF 3,4 ⁇ 0.2 holds, but dL 3,4 ⁇ 0.5 and no replacement occurs.
  • the fifth vocabulary G dF 4,5 ⁇ 0.2 holds and dL 4,5 ⁇ 0.5 holds, so the fourth vocabulary D and the fifth vocabulary G are switched. .
  • the state after the replacement is the table of (b) “third final state”.
  • the fourth operation is performed.
  • the fourth operation is shown in FIG. 19 “second step rearrangement fourth” in FIG. 18 “second step rearrangement fourth” in FIG. 19 “second step rearrangement third time”.
  • the second vocabulary A and the third vocabulary C dF 1,2 ⁇ ⁇ 0.2 and dF 2,3 ⁇ ⁇ 0.2, and no replacement occurs.
  • the fourth vocabulary G dF 3,4 ⁇ 0.2 holds, but dL 3,4 ⁇ 0.5 and no replacement occurs.
  • the use frequency difference condition threshold (DF) in the second step is recognized when the use frequency included in the (n-1) th registration candidate vocabulary list data is smaller than the use frequency included in the nth registration candidate vocabulary list data.
  • This is a threshold value for determining whether or not to perform replacement according to the deterioration contribution degree difference condition.
  • DL recognition deterioration contribution difference condition threshold
  • the recognition degradation contribution degree difference condition threshold (DL) in the second step is when the use frequency of the (n-1) th registered candidate vocabulary list data is smaller than the use frequency of the nth vocabulary and satisfies the use frequency difference condition If this is replaced, the reversal of the recognition deterioration contribution occurs between the n ⁇ 1th registration candidate vocabulary list data and the nth registration candidate vocabulary list data. It is a value that indicates whether to allow. Therefore, if 0 is given as DL, the replacement by the usage frequency does not occur, and the effect of the second step is lost. On the other hand, if the value of DL is increased, vocabularies with high usage frequency are arranged in an order such that they are registered in the exceptional word dictionary 60 more preferentially.
  • the ranking of the registration candidate vocabulary list data is arranged in descending order of the usage frequency, regardless of the recognition deterioration contribution degree. Change. That is, the registration candidate vocabulary list data having the highest use frequency is moved to the first rank in the registration candidate vocabulary list 13, and the registration candidate vocabulary list data having a use frequency greater than the priority use frequency difference condition is obtained from the first rank. Regardless of the degree of recognition degradation contribution, rearrange in order of frequency of use.
  • FIG. 20A shows a table of “state at the end of the second step” at the end of the operation of the second step explained in FIG. 16, FIG. 17, FIG. 18, FIG.
  • the registration candidate vocabulary that satisfies this condition is a vocabulary B with a usage frequency of 0.71 and a vocabulary G with a usage frequency of 0.79.
  • the vocabulary G with a usage frequency of 0.79 has the highest usage frequency and therefore ranks 1, and the vocabulary B has the usage frequency next to the vocabulary G and thus ranks 2. Since other vocabularies are used less than PF, the relative rank does not change. Therefore, as a result of the rearrangement, the order shown in the table of (b) “state at the end of the third step” is obtained.
  • the second step and the third step may be omitted depending on the shape of the vocabulary usage frequency distribution. For example, when the usage frequency shows a gentle distribution, only the first step may show a sufficient effect. If the usage frequency of a limited number of vocabularies with high usage frequency is large and the usage frequency of other vocabularies shows a gentle usage frequency distribution, the second step is omitted after the first step, and the third step. In some cases, sufficient effects can be shown by executing. In the case of an intermediate usage frequency distribution shape between the two types of usage frequency distributions, even if the third step is omitted only in the first step and the second step, a sufficient effect may be exhibited.
  • the effect when the registration target in the exceptional word dictionary 60 is determined using not only the recognition deterioration contribution level but also the vocabulary usage frequency will be specifically described. To make it easier to understand, the preconditions are simplified as follows.
  • name A and name B are text phonetic symbol conversion units. It is assumed that the average recognition rate by the speech recognition unit 82 when registered in the speech recognition dictionary 81 using the converted phonetic symbol sequence converted by 21 is 50% for name A and 40% for name B.
  • the average recognition rate of names in which correct phonetic symbol strings are registered in the speech recognition dictionary is uniformly 90% (name A and name B are both registered in the exception word dictionary 60, and as shown in FIG. It is assumed that the average recognition rate by the voice recognition unit 82 is 90% when registered in the voice recognition dictionary 81 in a row. (5) It is assumed that only one word can be registered in the exceptional word dictionary 60 (only one of name A and name B can be registered). (6) Assume that there are 10 registered names registered in the phone book of the cellular phone per person, and that there are 1,000 people who register and use the registered names in the phone book in the speech recognition apparatus.
  • the name registered in the exceptional word dictionary 60 is determined based only on the recognition deterioration contribution degree, the name B is registered. However, if the use frequency is so different, the recognition deterioration contribution degree is small. If the frequently used word (in this case, name A) is preferentially registered in the exceptional word dictionary, the recognition rate when viewed by the entire user may be higher.
  • FIG. 21 is a block diagram illustrating a configuration of the exceptional word dictionary creation device 10 according to the present embodiment.
  • the vocabulary data such as the names of people and songs stored in the database or the word dictionary 50 is input to the exceptional word dictionary creation device 10.
  • a general word is a patent document 1.
  • Processed vocabulary list data 53 (corresponding to “WORD LINKED LIST” described in Cited Document 1) to which the deletion candidate flag and the registration candidate flag are added through the phase 1 and the phase 2 described in FIG. Used as input to device 10.
  • FIG. 22A shows the data structure of the processed vocabulary list data 53.
  • the processed vocabulary list data 53 includes a text string, a phonetic symbol string, a deletion candidate flag, and a registration candidate flag.
  • usage frequency may be included.
  • the flag included in the processed vocabulary list data 53 sets the word that is the root of Phase 2 disclosed in Patent Document 1 as a registration candidate (that is, the registration candidate flag is true), and the combination of the root and the rule.
  • a word that generates a phonetic symbol string identical to the phonetic symbol string registered in the original word dictionary is set to be a deletion candidate (that is, the deletion candidate flag is true).
  • the exceptional word dictionary creation device 10 generates the expanded vocabulary list data 17 from the processed vocabulary list data 53 and stores it in a recording medium such as a memory in the device 10.
  • FIG. 22B shows the data structure of the extended vocabulary list data 17.
  • the expanded vocabulary list data 17 has a text data string, phonetic symbol string, deletion candidate flag, and registration candidate flag that the processed vocabulary list data 53 has, and further has a data structure having a recognition deterioration contribution degree.
  • the extended vocabulary list data 17 further has a usage frequency.
  • the true / false values of the text string, phonetic symbol string, deletion candidate flag, and registration candidate flag of the expanded vocabulary list data 17 are the same as the values of the processed vocabulary list data 53, and the recognition degradation contribution degree is Initialized when the expanded vocabulary list data 17 is constructed in a recording medium such as a memory.
  • the recognition deterioration contribution degree calculation unit 24 receives the i-th converted phonetic symbol string from the text phonetic symbol conversion unit 21, it checks the deletion candidate flag and the registration candidate flag held in the i-th extended vocabulary list data 17. . As a result of checking, if the deletion candidate flag is true, or if the deletion candidate flag is false and the registration candidate flag is true (that is, a word used as a root), the deletion candidate flag is not processed.
  • the recognition deterioration contribution is calculated from the converted phonetic symbol string and the phonetic symbol string acquired from the extended vocabulary list data 17, and the calculated recognition deterioration contribution is expressed as i. It registers in the second expanded vocabulary list data 17.
  • the registration candidate / registered vocabulary list creation unit 33 completes the processing by the text phonetic symbol conversion unit 21 and the recognition deterioration contribution calculation unit 24 for all the extended vocabulary list data 17, and then deletes deletion candidates from the extended vocabulary list data 17. If the flag is true and the registration candidate flag is false, the vocabulary in which the registration candidate flag is true (that is, the vocabulary used as the root) is the registered vocabulary, the deletion candidate flag is false and the registration candidate flag is false. The fake vocabulary is classified into two as registration candidate vocabularies. Then, the registration candidate / registered vocabulary list creation unit 33 stores the text string of each registered vocabulary and its pronunciation symbol string as a registered vocabulary list 16 in a recording medium such as a memory.
  • the registration candidate / registered vocabulary list creation unit 33 displays the text string of each vocabulary, its phonetic symbol string, the degree of recognition deterioration contribution (or the use frequency if used) and the registration candidate vocabulary.
  • the list 13 is stored in a recording medium such as a memory.
  • the registration candidate vocabulary list sorting unit 32 sorts the registration candidate vocabulary in the registration candidate vocabulary list 13 in descending order of registration priority, as in the first or second embodiment described above.
  • the extended exception word dictionary registration unit 42 first registers the text string and phonetic symbol string of each registered vocabulary in the registered vocabulary list 16 in the exception word dictionary 60. Next, the maximum number of vocabulary of the text strings and phonetic symbol strings of each vocabulary in the registration candidate vocabulary list 13 within the range not exceeding the data limit capacity indicated by the exception word dictionary memory size condition 71 in the order of higher registration priority. Is registered in the exceptional word dictionary 60. As a result, an exceptional word dictionary 60 can be obtained that can obtain optimum speech recognition performance with respect to general words under a predetermined restriction of the dictionary size.
  • FIG. 23 is a graph in which the ratio of the actual last name (Last Name) in the United States to the population is accumulated from the top, and a graph showing the frequency of use of each last name.
  • the total number of samples is 269,762,087, and the total number of last names is 6,248,415.
  • FIG. 24 is a graph showing the recognition rate improvement result when the exceptional word dictionary 60 is created according to the recognition deterioration contribution degree and the speech recognition experiment is performed.
  • the experiment was conducted on the last name 10,000 vocabulary database in the United States, and in this database, the frequency of use of the last name, which is each vocabulary, in North America (that is, the ratio of the population with the last name to the total population) )It is included.
  • the graph of “exception word dictionary creation according to the present invention” calculates the contribution of recognition deterioration using the LPC cepstrum distance result for the last name 10,000 vocabulary database in the United States, and this recognition deterioration contribution
  • the recognition rate when the speech recognition experiment is performed after creating the exceptional word dictionary 60 according to the degree is shown.
  • the graph of “exception word dictionary creation by frequency of use” creates the exceptional word dictionary 60 based only on the frequency of use. Represents the recognition rate.
  • the graph of “exception word dictionary creation according to the present invention” shows the entire vocabulary in which the phonetic symbol string converted by the existing text phonetic symbol converter differs from the phonetic symbol string of the last name 10,000 vocabulary database in the United States. 10% is registered in the exception word dictionary 60 according to the degree of recognition deterioration contribution, 20% is registered in the exception word dictionary 60, 30% is registered in the exception word dictionary 60, and so on. It shows the change in the recognition rate when the size of the exception word dictionary 60 is increased one by one (when the registration rate in the exception word dictionary 60 is changed).
  • the graph of “exception word dictionary creation by frequency of use” shows 10% of the entire vocabulary in which the phonetic symbol string converted by the existing text phonetic symbol converter differs from the phonetic symbol string in the last name 10,000 vocabulary database in the United States. If you register them in the exception word dictionary in order of frequency of use, increase the size of the exception word dictionary by 10%, such as 20% registered in the exception word dictionary, 30% registered in the exception word dictionary, and so on. This shows the change in recognition rate.
  • the recognition rate is the result of registering 100 vocabulary randomly selected from the last name 10,000 vocabulary database in the United States into the speech recognition dictionary and measuring the recognition rate for all 100 vocabularies.
  • the 100-vocabulary speech used for the recognition rate measurement is synthesized speech, and the phonetic symbol strings registered in this database are inputs to the speech synthesizer.
  • the speech recognition dictionary when the registration rate in the exceptional word dictionary is 0% (when the conversion to the phonetic symbol string is performed using only the rules without using the exceptional word dictionary 60).
  • the recognition rate was 68%, but the speech recognition dictionary registered using an exception word dictionary with a registration rate of 100% improved the recognition rate to 80%, and the exception word dictionary was used.
  • the recognition rate by the exceptional word dictionary 60 according to the present invention reaches 80% when the registration rate to the exceptional word dictionary 60 is 50%. From this, the exceptional word dictionary 60 is created according to the recognition deterioration contribution degree.
  • the recognition rate is maintained even if the vocabulary registered in the exceptional word dictionary 60 is reduced to half (that is, even if the memory size of the exceptional word dictionary 60 is substantially reduced to half).
  • the recognition rate does not reach 80% until the registration rate in the exceptional word dictionary reaches 100%.
  • the recognition rate in the exceptional word dictionary 60 according to the present invention exceeds the recognition rate in the exceptional word dictionary based on the usage frequency information at any point from 10% to 90% in the registration rate in the exceptional word dictionary. From the above experimental results, the effectiveness of the method for creating the exceptional word dictionary 60 according to the present invention is clearly shown.
  • the recognition target vocabulary is not limited to English, and the present invention can be applied to languages other than English.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

 本件発明は、例外語辞書の辞書サイズを削減しつつ、高い音声認識性能が得られる例外語辞書を作成することが可能な例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、当該例外語辞書を用いて音声を高い認識率で認識する音声認識装置及び音声認識方法を提供することを課題とする。上記課題を解決するために、例外語辞書作成装置10のテキスト発音記号変換部21は、語彙リストデータ12のテキスト列を発音記号列に変換することにより、変換発音記号例を生成する。認識劣化寄与度算出部24は、変換発音記号列と正しい発音記号列とが一致しなかった場合に、認識劣化寄与度を算出する。例外語辞書登録部41は、認識劣化寄与度の大きい語彙リストデータ12のテキスト列と発音記号列とを、例外語辞書メモリサイズ条件71で示されるデータ制限容量を超えないように例外語辞書60に登録する。

Description

例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法
 本発明は、語彙のテキスト列を発音記号列に変換する変換装置が使用する例外語辞書を作成する例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、当該例外語辞書を用いて音声認識を行う音声認識装置及び音声認識方法に関する。
 テキストで表された任意の語彙や文章を音声に変換して出力する音声合成装置や、テキスト表記に基づいて音声認識辞書に登録された認識対象の語彙や文章の音声認識を行う音声認識装置では、入力テキストを発音記号列に変換するためにテキスト発音記号変換装置が使われる。この装置が行うテキスト表記の語彙を発音記号列に変換する処理は、テキスト音素変換(text-to-phoneme)あるいは書記素音素変換(grapheme-to-phoneme)とも呼ばれる。認識対象の語彙のテキスト表記を音声認識辞書に登録して音声認識を行う音声認識装置の例として、携帯電話の電話帳に登録された相手先の登録名称を音声認識し、その登録名称に対応した電話番号に電話をかける携帯電話または、携帯電話と組み合わせて用い、携帯電話の電話帳を読み込んで音声ダイアルを行うハンズフリー通話装置がある。携帯電話の電話帳に登録された相手先の登録名称が、発音記号を伴わずテキスト表記のみで入力されている場合には、この登録名称を音声認識辞書に登録することはできない。なぜならば、登録名称の読みを示す音素表記などの発音記号列が音声認識辞書に登録される情報として必要となるからである。そこで、相手先の登録名称のテキスト表記を発音記号列に変換するために、テキスト発音記号変換装置が用いられる。図25に示すように、テキスト発音記号変換装置により得られた発音記号列に基づいて登録名称が音声認識辞書に認識対象語彙として登録されるので、携帯電話のユーザーは発話した登録名称を音声認識させることにより、複雑なボタン操作などを行うことなく、その登録名称に対応する電話番号へ電話をかけることができる(図26参照)。
 認識対象の単語のテキスト表記を音声認識辞書に登録して音声認識を行う音声認識装置の他の例として、内蔵ハードディスクまたは内蔵半導体メモリに保存された楽曲ファイルが再生される携帯型デジタル音楽再生装置を接続して使用することが可能な車載オーディオ装置がある。この車載オーディオ装置は音声認識機能を備え、接続した携帯型デジタル音楽再生装置に保存された楽曲ファイルに関連付けられた曲名やアーティスト名を音声認識の認識対象語彙とする。前述のハンズフリー通話装置の場合と同様に、携帯型デジタル音楽再生装置に保存された楽曲ファイルに関連付けられた曲名やアーティスト名は発音記号を伴わずテキスト表記のみで入力されているので、テキスト発音記号変換装置が必要となる(図27,28参照)。
 従来のテキスト発音記号変換装置で用いられる方法として、単語辞書に基づく方法とルールに基づく方法とがある。単語辞書に基づく方法では、単語等のテキスト列の各々が発音記号列に対応付けられた単語辞書が構成される。音声認識装置のテキスト発音記号変換装置処理では、認識対象語彙である単語等の入力テキスト列に対して単語辞書が検索され、その入力テキスト列に対応した発音記号列が出力される。この方法では、入力される可能性のある入力テキスト列に幅広く対応するためには、単語辞書のサイズを大きくする必要があり、単語辞書を展開するためのメモリ要求量が増大するという問題があった。
 上述のメモリ要求量の問題点を解決するためのテキスト発音記号変換装置で用いられる方法として、ルールに基づく方法がある。例えば、テキスト列に関するルールとして“IF(条件) then (発音記号)”を使用すると、テキストの一部が条件に合致した場合にそのルールが適用される。単語辞書を完全にルールで置き換えてルールのみで変換を行う場合と、単語辞書とルールとを組み合わせて変換を行う場合とがある。単語辞書とルールとを組み合わせる場合のテキスト発音記号変換装置を使用した音声合成システム用の単語辞書サイズを削減する装置が、例えば特許文献1に記載されている。
 図29は、特許文献1に開示された単語辞書サイズ削減装置の処理を示すブロック図である。単語辞書サイズ削減装置は、2つのフェーズから構成された処理を経ることにより単語辞書に登録された単語を削除し、単語辞書サイズを削減する。まずフェーズ1では、元となる単語辞書に登録された単語のうち、ルールを用いて正しい発音記号列が生成される単語については単語辞書から削除する候補とする。ルールとしては、接頭辞用ルールと接中辞用ルールと接尾辞用ルールとから構成されたものが例示されている。
 次にフェーズ2では、単語辞書内の単語が、他の単語の語根(root word)として使用可能な場合は、その単語を語根として単語辞書に残しておく。こうすると、この語根となる単語がフェーズ1で削除対象の候補となっていても削除対象から除外される。一方、文字数の多い単語の中で、語根として単語辞書に残しておく対象ではなく、1つ以上の語根とルールを用いて正しい発音記号列が生成される単語については、単語辞書から削除する対象とする。
 フェーズ1とフェーズ2の終了後に、最終的に削除対象と判定された単語を単語辞書から削除することによって、サイズが削減された単語辞書が生成される。このようにして生成された単語辞書は、ルールから発音記号列が得られない例外語の辞書であるため「例外語辞書」と呼ばれる場合がある。
米国特許第6,347,298号
 上記特許文献1が単語辞書サイズの削減対象とするのは、音声合成システム用の単語辞書であるため、当然のごとく音声認識性能を考慮して単語辞書サイズの削減を行うことは開示されていない。また上記特許文献1では、例外語辞書の作成の過程で、その辞書サイズを削減する方法は開示されているが、装置のメモリ容量制限が有った場合、その制限内での音声認識性能を考慮した例外語辞書の作成方法については開示されていない。
 上記特許文献1では、ルールによって生成された発音記号列と単語辞書の発音記号列が一致しているか否かという基準のみで例外語辞書にテキストとその発音記号列が登録される。このようにして作成された例外語辞書とルールがカバーする認識対象語彙は、その発音記号の不一致の内容が音声認識性能に影響を及ぼさない、あるいは図30(a)に示すように影響が小さい不一致であるにも関わらず、単に一箇所でも発音記号列に不一致があるという理由のみで、例外語辞書に登録されてしまい、例外語辞書の辞書サイズが無駄に消費される場合があるという問題があった。また、上記特許文献1の方法に従って作成した例外語辞書の辞書サイズが装置のメモリ容量制限を超えていた場合に、例外語辞書から削除しても音声認識性能に悪影響を及ぼさないテキストとその発音記号列を選択することができないという問題があった。
 本発明は、このような点に鑑みてなされたものであって、例外語辞書の辞書サイズを削減しつつ、高い音声認識性能が得られる例外語辞書を作成することが可能な例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、当該例外語辞書を用いて音声を高い認識率で認識する音声認識装置及び音声認識方法を提供することを目的とする。
 上記課題を解決するために、請求項1に記載の発明は、語彙のテキスト列を発音記号列へ変換するルールと、該ルールによる変換対象外とする例外語のテキスト列とその正しい発音記号列とを対応付けて記憶した例外語辞書とに基づいて、認識対象語彙のテキスト列を発音記号列に変換する変換装置が用いる前記例外語辞書を作成するための例外語辞書作成装置であって、認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換手段と、認識対象語彙のテキスト列の前記テキスト発音記号変換手段による変換結果である変換発音記号列と、前記認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、前記変換発音記号列の前記正しい発音記号列との違いが音声認識性能の劣化に影響を与える度合いである認識劣化寄与度を算出する認識劣化寄与度算出手段と、前記認識劣化寄与度算出手段により算出された複数の各認識対象語彙に対する認識劣化寄与度に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを前記例外語辞書に登録する例外語辞書登録手段とを備えることを特徴とする例外語辞書作成装置を提供する。
 本発明によれば、例外語辞書作成装置は、複数の各認識対象語彙に対する認識劣化寄与度に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを例外語辞書に登録するため、音声認識性能の劣化に影響を与える度合いが大きい認識対象語彙を優先的に選択して例外語辞書に登録することにより、例外語辞書の辞書サイズを削減しつつ、高い音声認識性能が得られる例外語辞書を作成することができる。
 請求項2に記載の発明は、請求項1に記載の例外語辞書作成装置において、前記例外語辞書に記憶可能なデータ制限容量を記憶する例外語辞書メモリサイズ条件記憶手段をさらに備え、前記例外語辞書登録手段は、前記例外語辞書に記憶されるデータ量が、前記データ制限容量を超えないように、前記登録を行うことを特徴とする。
 本発明によれば、前記例外語辞書に記憶されるデータ量が、前記メモリサイズ条件記憶手段に記憶されたデータ制限容量を超えないように登録を行うことができるため、例外語辞書の辞書サイズが所定の制約下にある場合にも、高い音声認識性能が得られる例外語辞書を作成することができる。
 請求項3に記載の発明は、請求項1又は2に記載の例外語辞書作成装置において、前記例外語辞書登録手段は、前記複数の各認識対象語彙の使用頻度に更に基づいて、登録対象の認識対象語彙を選択することを特徴とする。
 本発明によれば、認識劣化寄与度に加えて、更に使用頻度に基づいて登録対象の認識対象語彙を選択することができるため、例えば、認識劣化寄与度が小さくも使用頻度が大きい認識対象語彙を登録対象として選択することが可能となり、例外語辞書の辞書サイズを削減しつつ、高い音声認識性能が得られる例外語辞書を作成することができる。
 請求項4に記載の発明は、請求項3に記載の例外語辞書作成装置において、前記例外語辞書登録手段は、予め定められた閾値よりも大きい前記使用頻度を有する認識対象語彙を、前記認識劣化寄与度に関わらず、優先して登録対象の認識対象語彙として選択することを特徴とする。
 本発明によれば、予め定められた閾値よりも大きい使用頻度を有する認識対象語彙を、認識劣化寄与度に関わらず、優先して登録対象の認識対象語彙として選択することができるため、使用頻度が大きい認識対象語彙を他の語彙に優先して例外語辞書に登録することができ、例外語辞書の辞書サイズを削減しつつ、高い音声認識性能が得られる例外語辞書を作成することができる。
 請求項5に記載の発明は、請求項1から4の何れか1項に記載の例外語辞書作成装置において、前記認識劣化寄与度算出手段は、前記変換発音記号列と前記正しい発音記号列との間のスペクトル距離尺度を、前記認識劣化寄与度として算出することを特徴とする。
 請求項6に記載の発明は、請求項1から4の何れか1項に記載の例外語辞書作成装置において、前記認識劣化寄与度算出手段は、前記変換発音記号列に基づく音声の認識結果である音声認識尤度と、前記正しい発音記号列に基づく前記音声の認識結果である音声認識尤度との差を、前記認識劣化寄与度として算出することを特徴とする。
 請求項7に記載の発明は、請求項1から4の何れか1項に記載の例外語辞書作成装置において、前記認識劣化寄与度算出手段は、前記変換発音記号列と前記正しい発音記号列との間の最適マッチングによる経路距離を算出し、該算出した経路距離を前記正しい発音記号列の長さで正規化した正規化経路距離を、前記認識劣化寄与度として算出することを特徴とする。
 請求項8に記載の発明は、請求項7に記載の例外語辞書作成装置において、前記認識劣化寄与度算出手段は、前記変換発音記号列と前記正しい発音記号列との間の対応する発音記号同士の関係に基づく重み付けを加味した前記経路距離として類似距離を算出し、該算出した類似距離を前記正しい発音記号列の長さで正規化した正規化類似距離を前記認識劣化寄与度として算出することを特徴とする。
 請求項9に記載の発明は、請求項1から8の何れか1項に記載の例外語辞書作成装置により作成された例外語辞書を用いて認識対象語彙のテキスト列を発音記号列に変換し、該変換結果に基づいて音声認識辞書を作成する音声認識辞書作成手段と、前記音声認識辞書作成手段で作成された音声認識辞書を用いて音声認識を行う音声認識手段とを備えたことを特徴とする音声認識装置を提供する。
 本発明によれば、小さいサイズの例外語辞書を用いつつ、高い音声認識性能を得ることができる。
 請求項10に記載の発明は、語彙のテキスト列を発音記号列へ変換するルールと、該ルールによる変換対象外とする例外語のテキスト列とその正しい発音記号列とを対応付けて記憶した例外語辞書とに基づいて、認識対象語彙のテキスト列を発音記号列に変換する変換装置が用いる前記例外語辞書を作成するための例外語辞書作成装置が行う例外語辞書作成方法であって、認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換ステップと、前記テキスト発音記号変換ステップにおける前記認識対象語彙のテキスト列の変換結果である変換発音記号列と、前記認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、前記変換発音記号列の前記正しい発音記号列との違いが音声認識性能の劣化に影響を与える度合いである認識劣化寄与度を算出する認識劣化寄与度算出ステップと、前記認識劣化寄与度算出ステップにおいて複数の認識対象語彙各々に対して算出された認識劣化寄与度に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを前記例外語辞書に登録する例外語辞書登録ステップとを備えることを特徴とする例外語辞書作成方法を提供する。
 請求項11に記載の発明は、請求項10に記載の例外語辞書作成方法により作成された例外語辞書を用いて認識対象語彙のテキスト列を発音記号列に変換し、該変換結果に基づいて音声認識辞書を作成する音声認識辞書作成ステップと、前記音声認識辞書作成ステップで作成された音声認識辞書を用いて音声認識を行う音声認識ステップとを備えたことを特徴とする音声認識装置が行う音声認識方法を提供する。
 請求項12に記載の発明は、語彙のテキスト列を発音記号列へ変換するルールと、該ルールによる変換対象外とする例外語のテキスト列とその正しい発音記号列とを対応付けて記憶した例外語辞書とに基づいて、認識対象語彙のテキスト列を発音記号列に変換する変換装置が用いる前記例外語辞書を作成するための例外語辞書作成プログラムであって、認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換手段と、前記認識対象語彙のテキスト列の前記テキスト発音記号変換手段による変換結果である変換発音記号列と、前記認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、前記変換発音記号列の前記正しい発音記号列との違いが音声認識性能の劣化に影響を与える度合いである認識劣化寄与度を算出する認識劣化寄与度算出手段と、前記認識劣化寄与度算出手段により複数の認識対象語彙各々に対して算出された認識劣化寄与度に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを前記例外語辞書に登録する例外語辞書登録手段とをコンピュータに機能させることを特徴とする例外語辞書作成プログラムを提供する。
 請求項13に記載の発明は、語彙のテキスト列を発音記号列へ変換するルールと、該ルールによる変換対象外とする例外語のテキスト列とその正しい発音記号列とを対応付けて記憶した例外語辞書とに基づいて、認識対象語彙のテキスト列を発音記号列に変換する変換装置が用いる前記例外語辞書を作成するための例外語辞書作成装置であって、認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換手段と、認識対象語彙のテキスト列の前記テキスト発音記号変換手段による変換結果である変換発音記号列と、前記認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、前記変換発音記号列に基づく音声と前記正しい発音記号列に基づく音声との間の距離である発音記号列間距離を算出する発音記号列間距離算出手段と、前記発音記号列間距離算出手段により算出された複数の各認識対象語彙に対する発音記号列間距離に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを前記例外語辞書に登録する例外語辞書登録手段とを備えることを特徴とする例外語辞書作成装置を提供する。
 本発明によれば、例外語辞書作成装置は、複数の各認識対象語彙に対する発音記号列間距離に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを例外語辞書に登録するため、音声認識性能の劣化に影響を与える度合いが大きい認識対象語彙を優先的に選択して例外語辞書に登録することにより、例外語辞書の辞書サイズを削減しつつ、高い音声認識性能が得られる例外語辞書を作成することができる。
 請求項14に記載の発明は、語彙のテキスト列を発音記号列へ変換するルールと、該ルールによる変換対象外とする例外語のテキスト列とその正しい発音記号列とを対応付けて記憶した例外語辞書とに基づいて、認識対象語彙のテキスト列を発音記号列に変換する変換装置が用いる前記例外語辞書を作成するための例外語辞書作成装置が行う例外語辞書作成方法であって、認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換ステップと、前記テキスト発音記号変換ステップにおける前記認識対象語彙のテキスト列の変換結果である変換発音記号列と、前記認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、前記変換発音記号列に基づく音声と前記正しい発音記号列に基づく音声との間の距離である発音記号列間距離を算出する発音記号列間距離算出ステップと、前記発音記号列間距離算出ステップにおいて複数の認識対象語彙各々に対して算出された発音記号列間距離に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを前記例外語辞書に登録する例外語辞書登録ステップとを備えることを特徴とする例外語辞書作成方法を提供する。
 請求項15に記載の発明は、語彙のテキスト列を発音記号列へ変換するルールと、該ルールによる変換対象外とする例外語のテキスト列とその正しい発音記号列とを対応付けて記憶した例外語辞書とに基づいて、認識対象語彙のテキスト列を発音記号列に変換する変換装置が用いる前記例外語辞書を作成するための例外語辞書作成プログラムであって、認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換手段と、前記認識対象語彙のテキスト列の前記テキスト発音記号変換手段による変換結果である変換発音記号列と、前記認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、前記変換発音記号列に基づく音声と前記正しい発音記号列に基づく音声との間の距離である発音記号列間距離を算出する発音記号列間距離算出手段と、前記発音記号列間距離算出手段により複数の認識対象語彙各々に対して算出された発音記号列間距離に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを前記例外語辞書に登録する例外語辞書登録手段とをコンピュータに機能させることを特徴とする例外語辞書作成プログラムを提供する。
 請求項16に記載の発明は、語彙のテキスト列とその正しい発音記号列とを有する認識対象語彙と、該認識対象語彙を所定のルールで前記テキスト列を発音記号列に変換するテキスト発音記号列変換手段と、該テキスト発音記号列変換手段で変換された変換発音記号列と、該変換発音記号列に基づく音声と、前記正しい発音記号列に基づく音声との間の距離である発音記号列間距離を算出する発音記号列間距離算出手段と、該発音記号列間距離算出手段で算出された発音記号列間距離に基づいて前記認識対象語彙を登録する認識対象語彙登録手段と、を備えることを特徴とする認識語彙登録装置を提供する。
 請求項17に記載の発明は、認識対象語彙のテキスト列を所定のルールで発音記号列に変換するテキスト発音記号列変換手段と、該テキスト発音記号列変換手段で変換された変換発音記号列に基づく音声と、前記認識対象語彙の正しい発音記号列に基づく音声との間の距離である発音記号列間距離を算出する発音記号列間距離算出手段と、該発音記号列間距離算出手段で算出された発音記号列間距離に基づいて前記認識対象語彙を登録する認識対象語彙登録手段と、を備えることを特徴とする認識語彙登録装置を提供する。
 請求項18に記載の発明は、請求項16又は17に記載の認識語彙登録装置の前記認識対象語彙登録手段で登録された認識対象語彙を有する例外語辞書と、該例外語辞書を用いて認識対象語彙のテキスト列を発音記号列に変換し、該変換結果に基づいて音声認識辞書を作成する音声認識辞書作成手段と、前記音声認識辞書作成手段で作成された音声認識辞書を用いて音声認識を行う音声認識手段と、を備えたことを特徴とする音声認識装置を提供する。
 本発明によれば、例外語辞書作成装置は、複数の各認識対象語彙に対する認識劣化寄与度に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを例外語辞書に登録するため、音声認識性能の劣化に影響を与える度合いが大きい認識対象語彙を優先的に選択して例外語辞書に登録することにより、例外語辞書の辞書サイズを削減しつつ、高い音声認識性能が得られる例外語辞書を作成することができる。
本発明に係る例外語辞書作成装置の基本構成を示すブロック図である。 本発明の第1実施形態に係る例外語辞書作成装置の構成を示すブロック図である。 (a)は同実施形態に係る語彙データのデータ構成図、(b)は語彙リストデータのデータ構成図である。 同実施形態に係る音声認識装置の構成を示すブロック図である。 同実施形態に係る例外語辞書作成装置が行う処理手順を示すフローチャートである。 同実施形態に係る例外語辞書作成装置が行う処理手順を示すフローチャートである。 同実施形態に係る例外語辞書作成装置が行う別の処理手順を示すフローチャートである。 同実施形態に係るLPCケプストラム距離の結果を用いた認識劣化寄与度算出方法を説明するための図である。 同実施形態に係る音声認識尤度の結果を用いた認識劣化寄与度算出方法を説明するための図である。 同実施形態に係るDPマッチングの具体例を示す図である。 同実施形態に係るDPマッチングの結果を用いた認識劣化寄与度算出方法を説明するための図である。 同実施形態に係るDPマッチングと発音記号に拠る重み付けの結果とを用いた認識劣化寄与度算出方法を説明するための図である。 同実施形態に係る置換距離テーブル、挿入距離テーブル、欠落距離テーブルを用いて、類似距離を算出する方法について説明するための図である。 同実施形態に係る一致距離テーブルを用いて類似距離を算出する方法について説明するための図である。 本発明の第2実施形態に係る例外語辞書作成装置が行う処理手順を示すフローチャートである。 同実施形態に係る認識劣化寄与度及び使用頻度を用いて、登録候補語彙データを並べ替える手順を説明するための図である。 同実施形態に係る認識劣化寄与度及び使用頻度を用いて、登録候補語彙データを並べ替える手順を説明するための図である。 同実施形態に係る認識劣化寄与度及び使用頻度を用いて、登録候補語彙データを並べ替える手順を説明するための図である。 同実施形態に係る認識劣化寄与度及び使用頻度を用いて、登録候補語彙データを並べ替える手順を説明するための図である。 同実施形態に係る優先使用頻度差条件を用いて、登録候補語彙データを並べ替える手順を説明するための図である。 本発明の第3実施形態に係る例外語辞書作成装置の構成を示すブロック図である。 (a)は同実施形態に係る処理済語彙リストデータのデータ構成図、(b)は拡張語彙リストデータの構成図である。 実際の米国の各ラストネームの人口に占める割合を上位から累積したグラフと、各ラストネームの使用頻度を表したグラフである。 認識劣化寄与度に従って例外語辞書を作成して音声認識の実験を行った場合の認識率向上結果を示すグラフである。 従来のテキスト発音記号変換装置を用いて電話帳音声認識辞書を作成する手順を説明するための図である。 従来の電話帳音声認識辞書を用いて音声認識を行う手順を説明するための図である。 従来のテキスト発音記号変換装置を用いて音楽再生装置音声認識辞書を作成する手順を説明するための図である。 従来の音楽再生装置音声認識辞書を用いて音声認識を行う手順を説明するための図である。 従来の単語辞書サイズ削減装置の処理を示すブロック図である。 (a)は認識率への影響が小さい発音記号列と変換発音記号列との不一致例、(b)は認識率への影響が大きい発音記号列と変換発音記号列との不一致例を示す図である。
 以下、本発明を実施するための最良の形態を図面を参照しながら説明する。なお、以下の説明において参照する各図では、他の図と同等部分は同一符号によって示されている。
 図1は、本発明の例外語辞書作成装置の基本構成を示すブロック図である。同図に示すように、例外語辞書作成装置は、認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換部21と、認識対象語彙のテキスト列の変換結果である変換発音記号列と当該認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、認識劣化寄与度を算出する認識劣化寄与度算出部(発音記号列間距離算出部)24と、算出された認識劣化寄与度に基づいて登録対象の認識対象語彙を選択し、当該登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを例外語辞書60に登録する例外語辞書登録部41とを備えている。なお、認識劣化寄与度算出部24は、請求項の記載における「認識劣化寄与度算出手段」又は「発音記号列間距離算出手段」に対応する。
 以下、これらの基本構成を備える本発明の例外語辞書作成装置について、各実施形態に即して詳細に説明する。
(第1実施形態)
 図2は、本発明の第1実施形態に係る例外語辞書作成装置10の構成を示すブロック図である。例外語辞書作成装置10は、語彙リストデータ作成部11、テキスト発音記号変換部21、認識劣化寄与度算出部24、登録候補語彙リスト作成部31、登録候補語彙リストソート部32及び例外語辞書登録部41を含んで構成される。これらの機能は、例外語辞書作成装置10内の図示せぬCPU(Central Processing Unit)がメモリ等の記録媒体に記憶されているプログラムを読み出して実行することにより実現される機能である。また、語彙リストデータ12、登録候補語彙リスト13及び例外語辞書メモリサイズ条件71は、例外語辞書作成装置10内の図示せぬメモリ等の記録媒体に記憶されるデータである。また、データベースまたは単語辞書50及び例外語辞書60は、例外語辞書作成装置10外部の記録媒体に設けられたデータベースまたはデータ記憶領域である。
 データベースまたは単語辞書50には、複数の語彙データが記憶される。図3(a)には、語彙データのデータ構成の一例を示す。同図に示すように、語彙データは、語彙のテキスト列と、そのテキスト列の正しい発音記号列とで構成される。ここで、本実施形態に係る語彙は、人名、楽曲の曲名、演奏者や演奏グループの名前、曲の収められているアルバムのタイトル名等である。
 語彙リストデータ作成部11は、データベースまたは単語辞書50に記憶されている語彙データに基づいて語彙リストデータ12を生成し、例外語辞書作成装置10内のメモリ等の記録媒体に記憶する。
 図3(b)には、語彙リストデータ12のデータ構成の一例を示す。語彙リストデータ12は、語彙データが有するテキストデータ列と発音記号列とに加えて、削除候補フラグと認識劣化寄与度とを更に含むデータ構成を有する。この削除候補フラグと認識劣化寄与度とは、語彙リストデータ12がメモリなどの記録媒体に構築されるときに初期化される。
 テキスト発音記号変換部21は、テキスト列を発音記号列に変換するルールのみを用いて、または、ルールと既存の例外語辞書とを用いて、認識対象語彙のテキスト列を発音記号列に変換する。以下、テキスト列のテキスト発音記号変換部21による変換結果を「変換発音記号列」ともいう。
 認識劣化寄与度算出部24は、語彙リストデータ12の発音記号列と、当該テキスト列をテキスト発音記号変換部21で変換した結果である変換発音記号列とが一致しなかった場合に、テキスト認識劣化寄与度の値を算出する。そして、当該算出した値で語彙リストデータ12の認識劣化寄与度を更新するとともに、語彙リストデータ12の削除候補フラグを偽に更新する。
 ここで、認識劣化寄与度とは、変換発音記号列の正しい発音記号列との違いが、音声認識性能の劣化に影響を与える度合いを示す。具体的には、認識劣化寄与度とは、語彙リストデータ12から取得した発音記号列と、当該発音記号列をテキスト発音記号変換部21により変換した結果である変換発音記号列との不一致の程度から、取得した発音記号列の代わりに音声認識辞書に変換発音記号列を登録した場合に、音声認識の精度が劣化する度合いを数値化したものである。言い換えれば、語彙リストデータ12から取得した発音記号列に従って発音した音声と、変換発音記号列22に従って発声した音声とがどの程度隔たっているかの発音記号列間距離である。発音記号列間距離は、発音記号列から音声合成装置などを用いて音声を合成し、その合成した音声間で発音記号列間距離を算出する方法、語彙リストデータ12から取得した発音記号列と変換発音記号列とを登録した音声認識辞書で音声認識を行い、発音記号間の認識尤度の差を発音記号列間距離として算出する方法、DP(Dynamic Programming:動的計画法)マッチングなどによって語彙リストデータ12から取得した発音記号列と変換発音記号列との発音記号の違いを発音記号列間距離として算出する方法などがある。算出方法の詳細は後述する。
 なお、語彙リストデータ12の発音記号列と、当該テキスト列をテキスト発音記号変換部21で変換した結果である変換発音記号列とが一致した場合は、例外語辞書60に登録する必要がないので、認識劣化寄与度算出部24は認識劣化寄与度の値を算出せず、語彙リストデータ12の削除候補フラグを真に更新する。
 登録候補語彙リスト作成部31は、語彙リストデータ12のうち、削除候補フラグが偽のデータのみを登録候補語彙リストデータとして抽出し、登録候補語彙リストデータの一覧として登録候補語彙リスト13を作成してメモリに記憶する。
 登録候補語彙リストソート部32は、登録候補語彙リスト13内の登録候補語彙リストデータを、認識劣化寄与度の大きいものの順にソートする。
 例外語辞書登録部41は、登録候補語彙リスト13内の複数の登録候補語彙リストデータの中から、各登録候補語彙リストデータの認識劣化寄与度に基づいて、登録対象となる登録候補語彙リストデータを選択し、当該選択した登録候補語彙リストデータのテキスト列とその発音記号例とを例外語辞書60に登録する。
 具体的には、例外語辞書登録部41は、登録候補語彙リスト13内の登録候補語彙リストデータのうち、ソート順で上位に存在する登録候補語彙リストデータ、すなわち、比較的大きい認識劣化寄与度を有する登録候補語彙リストデータを選択し、選択した登録候補語彙リストデータのテキスト列とその発音記号例とを例外語辞書60に登録する。このとき、例外語辞書60に記憶可能なデータ制限容量に応じて予め設定された例外語辞書メモリサイズ条件71に基づいて、例外語辞書60に記憶可能なデータ制限容量を超えない範囲で、最大数の語彙を登録してもよい。これにより、例外語辞書60に記憶可能なデータ量に制約があっても、最適な音声認識性能が得られる例外語辞書60を得ることができる。
 例外語辞書60を作成するために用いたデータベースまたは単語辞書50に記憶された語彙データが、特定の範疇(例えば人名や地名)の語彙のみからなる場合は、その範疇に特化された専用例外語辞書を実現することができる。また、テキスト発音記号変換部21が既に例外語辞書を備えている場合に、データベースまたは単語辞書50の持つ語彙データで新たに作成した例外語辞書60を追加する形態により拡張例外語辞書を実現することができる。
 例外語辞書作成装置10により作成された例外語辞書60は、図4に示すように、音声認識装置80の音声認識辞書81を作成する際に用いられる。テキスト発音記号変換部21は、認識対象語彙テキスト列にルールと例外語辞書60とを適用して音声認識辞書81を生成する。音声認識装置80の音声認識部82は、当該音声認識辞書81を用いて音声を認識する。
 例外語辞書60の辞書サイズは例外語辞書メモリサイズ条件71に基づいて削減できるため、例えば、音声認識装置80が記憶容量の小さい携帯電話機であっても、携帯電話機に例外語辞書60を保存して使用することが可能となる。
 なお、例外語辞書60は、音声認識装置80の製造時から音声認識装置80に記憶されていてもよいし、音声認識装置80が通信機能を備えている場合には、音声認識装置80はネットワーク上のサーバから例外語辞書60をダウンロードして記憶してもよい。
 また、例外語辞書60を音声認識装置80に記憶せずに、ネットワーク上のサーバに記憶しておき、音声認識装置80が当該サーバにアクセスして例外語辞書を利用してもよい。
(処理フロー)
 次に、図5及び図6に示すフローチャートを参照して、例外語辞書作成装置10が行う処理手順について説明する。
 まず、例外語辞書作成装置10の語彙リストデータ作成部11は、データベースまたは単語辞書50に基づいて、語彙リストデータ12を作成する(図5のステップS101)。次に、変数iに1を設定し(ステップS102)、i番目の語彙リストデータ12を読み込む(ステップS103)。
 次に、例外語辞書作成装置10は、i番目の語彙リストデータ12のテキスト列をテキスト発音記号変換部21に入力し、テキスト発音記号変換部21は、入力されたテキスト列を変換して、変換発音記号列を生成する(ステップS104)。
 次に、例外語辞書作成装置10は、生成した変換発音記号列がi番目の語彙リストデータ12の発音記号列と一致しているか否かを判定する(ステップS105)。変換発音記号列がi番目の語彙リストデータ12の発音記号列と一致していると判定した場合は(ステップS105;Yes)、i番目の語彙リストデータ12の削除候補フラグを真に設定する(ステップS106)。
 一方、変換発音記号列がi番目の語彙リストデータ12の発音記号列と一致していないと判定した場合は(ステップS105;No)、i番目の語彙リストデータ12の削除候補フラグを偽に設定する。さらに、認識劣化寄与度算出部24は、変換発音記号列とi番目の語彙リストデータ12の発音記号列とに基づいて認識劣化寄与度を算出し、当該算出した認識劣化寄与度をi番目の語彙リストデータ12に登録する(ステップS107)。
 このようにして1番目の語彙リストデータ12への削除候補フラグ及び認識劣化寄与度の登録が終了したならば、iをインクリメントし(ステップS109)、次の語彙リストデータ12に対して同様の処理を繰り返す(ステップS103~S107)。iが最終番号となり(ステップS108;Yes)、全ての語彙リストデータ12に対して登録が終了したならば、図6のステップS110に進む。
 ステップS110では、例外語辞書作成装置10はiに1を設定し、i番目の語彙リストデータ12を読み込んで(ステップS111)、読み込んだ語彙リストデータ12の削除候補フラグが真か否かを判定する(ステップS112)。削除候補フラグが真でない場合にのみ(ステップS112;No)、i番目の語彙リストデータ12を登録候補語彙リストデータとして登録候補語彙リスト13に登録する(ステップS113)。
 次に、iが最終番号か否かを判定し(ステップS114)、iが最終番号でない場合には(ステップS114;No)、iをインクリメントし(ステップS115)、i番目の語彙リストデータ12についてステップS111~S113までの処理を繰り返す。
 一方、iが最終番号の場合(ステップS114;Yes)、登録候補語彙リストソート部32は、登録候補語彙リスト13に登録された登録候補語彙リストデータを認識劣化寄与度の大きい順(すなわち、例外語辞書60への登録優先順位の高い順)に並べ替える(ステップS116)。
 次に、ステップS117においてiに1を設定し、例外語辞書登録部41は、認識劣化寄与度の値がi番目に大きな登録候補語彙リストデータを、登録候補語彙リスト13から読み込む(ステップS118)。
 例外語辞書登録部41は、認識劣化寄与度の値がi番目に大きな登録候補語彙リストデータを例外語辞書60に登録した場合に、例外語辞書60に記憶されるデータ量が、例外語辞書メモリサイズ条件71で示されるデータ制限容量を超えるかを判断する(ステップS119)。
 例外語辞書60に記憶されるデータ量が例外語辞書メモリサイズ条件71で示されるデータ制限容量を超えない場合には(ステップS119;Yes)、認識劣化寄与度の値がi番目に大きな登録候補語彙リストデータを例外語辞書60に登録し(ステップS120)、iが最終番号でない場合には(ステップS121;No)、iをインクリメントし(ステップS122)、ステップS118~S122の処理を繰り返す。iが最終番号の場合には(ステップS121;Yes)、処理を終了する。
 一方、例外語辞書60に記憶されるデータ量がデータ制限容量を超える場合には(ステップS119;No)、登録候補語彙リストデータを例外語辞書60に登録せずに処理を終了する。
 なお、上述した実施形態では、登録候補語彙リストソート部32が、登録候補語彙リスト13中の登録候補語彙リストデータを認識劣化寄与度の大きい順にソートし、例外語辞書登録部41が、ソート順に登録候補語彙リストデータを選択して例外語辞書60に登録するようにしたが、登録候補語彙リストソート部32によるソートを省略することも可能であり、例えば、図7のステップS201~S202に示すように、例外語辞書登録部41が登録候補語彙リスト13を直接参照して、認識劣化寄与度の大きい登録候補語彙データを判別して例外語辞書60に登録するようにしてもよい。
(認識劣化寄与度)
 次に、認識劣化寄与度の各種算出方法について、詳細に説明する。
(スペクトル距離尺度を用いた認識劣化寄与度)
 まず、スペクトル距離尺度を用いた認識劣化寄与度算出について説明する。スペクトル距離尺度は2つの音声の短時間スペクトルの類似度あるいは距離を表し、LPCケプストラム距離等の種々の距離尺度が知られている(例えば、古井貞煕:“音響・音声工学”、近代科学社)。図8を用いてLPCケプストラム距離の結果を用いた認識劣化寄与度算出方法について説明する。
 ここでは、認識劣化寄与度算出部24は、発音記号列を入力することにより、その発音記号列に従った合成音声を合成する音声合成装置2401と、入力された2つの合成音のLPCケプストラム距離を算出するLPCケプストラム距離算出部2402とを備えている。
 語彙Aの発音記号列aと、テキスト発音記号変換部21により語彙Aのテキスト列が変換された結果である語彙Aの変換発音記号列a’とが、認識劣化寄与度算出部24に入力されると、認識劣化寄与度算出部24は、発音記号列aと変換発音記号列a’とをそれぞれ音声合成装置2401に入力し、発音記号列aの合成音声と変換発音記号列a’の合成音声とを得る。次に、認識劣化寄与度算出部24は、発音記号列aの合成音声と変換発音記号列a’の合成音声とをLPCケプストラム距離算出部2402に入力し、発音記号列aの合成音声と変換発音記号列a’の合成音声とのLPCケプストラム距離CLAを得る。
 LPCケプストラム距離CLAは、発音記号列aから合成された合成音声と変換発音記号列a’から合成された合成音声とがどの程度隔たっているかを判断する距離であり、CLAが大きいほど合成音声の元となった発音記号列aと変換発音記号列a’とが隔たっていることを示す発音記号間距離の一つであるので、認識劣化寄与度算出部24は、CLAを語彙Aの認識率劣化寄与度DAとして出力する。
 LPCケプストラム距離は音声そのものではなくても、その音声のスペクトラム系列であれば算出可能であるので、発音記号列aと変換発音記号列a’とからそれぞれの発音記号列に従った音声のスペクトラム系列を出力する装置を音声合成装置2401の代わりに使い、スペクトラム系列からLPCケプストラム距離を算出するLPCケプストラム距離算出部2402を用いて認識率劣化寄与度を算出してもよい。また、スペクトル距離尺度として、帯域フィルタ群やFFTで求めたスペクトルに基づく距離等を用いてもよい。
(音声認識尤度を用いた認識劣化寄与度)
 次に、図9を用いて、音声認識尤度の結果を用いた認識劣化寄与度算出方法について説明する。音声認識尤度とは、音声認識装置の音声認識辞書に登録された各語彙について、入力された音声とその語彙との一致の度合いを確率的に表した値で、出現確率または単に尤度とも呼ばれ、古井貞煕:“音響・音声工学”、近代科学社に詳しく記載されている。音声認識装置は、入力された音声と音声認識辞書に登録されている各語彙との尤度を算出し、最も高い尤度を示した語彙、すなわち入力された音声とその語彙との一致の度合いが最も高い語彙を音声認識の結果として得ている。
 ここでは、認識劣化寄与度算出部24は、発音記号列を入力することにより、その発音記号列に従った合成音声を合成する音声合成装置2401と、入力された発音記号列に従って音声認識辞書2405に発音記号列を登録する音声認識辞書登録部2404と、音声認識辞書2405を使って音声認識を行い、音声認識辞書2405に登録された各語彙の尤度を算出する音声認識装置4と、音声認識装置4が算出した尤度から認識率劣化寄与度を算出する尤度差算出部2407とを備えている。音声認識辞書登録部2404が実際に音声認識辞書2405に登録するのは、発音記号列中の発音記号そのものではなく、発音記号と対応付けられた音声認識用の音素モデルデータであるが、ここでは、説明を簡潔にするため、当該発音記号と対応付けられた音声認識用の音素モデルデータを、発音記号として説明する。
 語彙Aの発音記号列aと、テキスト発音記号変換部21により語彙Aのテキスト列が変換された結果である語彙Aの変換発音記号列a’とが認識劣化寄与度算出部24に入力されると、認識劣化寄与度算出部24は、発音記号列aと変換発音記号列a’とを音声認識辞書登録部2404に渡すと共に、発音記号列aを音声合成装置2401に入力する。音声認識辞書登録部2404は、音声認識辞書2405に発音記号列aと変換発音記号列a’とを登録する(辞書登録内容2406参照)。音声合成装置2401は、発音記号列aでの合成音声である語彙Aの合成音声を合成し、語彙Aの合成音声を音声認識装置4に入力する。
 音声認識装置4は、発音記号列aと変換発音記号列a’とが登録されている音声認識辞書2405での語彙Aの合成音声の音声認識を行い、発音記号列aの尤度Laと変換発音記号列a’の尤度La’とを出力し、尤度差算出部2407に渡す。尤度差算出部2407は、尤度Laと尤度La’との差を算出する。尤度Laは、発音記号列aに基づいて合成された合成音声が発音記号列aに対応する音素モデルデータの系列にどの程度一致しているかを数値化したものであり、尤度La’は当該合成音声が変換発音記号列a’に対応する音素モデルデータの系列にどの程度一致しているかを数値化したものである。したがって、尤度Laと尤度La’との差は変換発音記号列a’が発音記号列aからどの程度隔たっているかを示す発音記号間距離の一つであるので、認識劣化寄与度算出部24は、尤度Laと尤度La’との差を語彙Aの認識率劣化寄与度DAとして出力する。
 なお、発音記号列aと変換発音記号列a’との尤度差を求めるために、音声認識には発音記号列aに基づいて合成された合成音声を用いるのが自然であるが、必要なものは尤度差であるので、音声認識装置4に入力する合成音声を変換発音記号列a’に基づいて合成された合成音声としてもよい。
 また、発音記号列aに基づいて合成された合成音声での尤度差と変換発音記号列a’に基づいて合成された合成音声での尤度差とは必ずしも一致しないので、この双方を求めて平均したものを認識率劣化寄与度としてもよい。
(DPマッチングを用いた認識劣化寄与度)
 次に、DPマッチングの結果を用いた認識劣化寄与度算出について説明する。この方法は、合成音声を介さず、発音記号列中の発音記号の違いを発音記号列間距離として算出する。
 DPマッチングは、2つの符号列がどの程度似ているかを判断する手法であり、パターン認識や画像処理の基本技術として広く知られている(例えば、内田 誠一、“DPマッチング概説”、信学技法、PRMU2006-166(2006-12)参照)。例えばAという記号列にA’という記号列がどの程度似ているかを測定する場合、Aの記号列のある記号が他の記号に置き換わる「置換誤り(S:Substitution)」、Aの記号列に元々無かった記号が付け加わる「挿入誤り(I:Insertion)」、Aの記号列に元々あった記号が消えてしまう「欠落誤り(D:Deletion)」の三種類の変換を複数組み合わせることによりA’が生じたと考えて、最も少ない変換でAからA’に変換する方法を推定する。推定する上で、変換の組み合わせの候補間でどの候補が一番少ない変換かを評価する必要があり、各変換をAからA’を得る経路に置き換え、各変換をその経路距離として評価し、その経路距離の一番小さいものを、最も少ない変換でAからA’に変換するパターン(「誤りパターン」という)とし、AからA’が生じた過程とみなす。ここで評価に使った最も短い経路距離をAとA’との記号間距離とみなしてよい。このような経路距離が最も短いAからのA’への変換及び変換パターンを最適マッチングと呼ぶ。
 このDPマッチングを、語彙リストデータ12から取得した発音記号列と変換発音記号列とに適応することができる。図10には、米国のラストネームの発音記号列と変換発音記号列とに対してDPマッチングを行い、出力された誤りパターンの例を示す。変換発音記号列を発音記号列と比較すると、テキスト列Mooreでは、発音記号列右から二番目の発音記号が置換され、右から三番目と四番目の発音記号間に挿入が発生している。テキスト列Robinsonでは、発音記号列右から四番目の発音記号が置換されている。テキスト列Montgomeryでは、発音記号列右から六番目の発音記号が置換され、右から八番目の発音記号が欠落し、右から十番目の発音記号が置換されている。
 DPマッチングを語彙リストデータ12から取得した発音記号列と変換発音記号列とに適応して経路距離を算出する場合、経路距離は発音記号列が長いほど値が大きくなる傾向があるため、認識劣化寄与度として使うためには経路距離を発音記号列の長さで正規化する必要がある。
 このDPマッチングの結果を用いた認識劣化寄与度算出方法について、図11を用いて説明する。ここでは、認識劣化寄与度算出部24は、DPマッチングを行なうDPマッチング部2408と、DPマッチング部2408で算出された経路距離を発音記号列長で正規化する経路距離正規化部2409とを備えている。
 語彙Aの発音記号列aと、テキスト発音記号変換部21により語彙Aのテキスト列が変換された結果である語彙Aの変換発音記号列a’とが、認識劣化寄与度算出部24に入力されると、認識劣化寄与度算出部24は、発音記号列aと変換発音記号列a’とをDPマッチング部2408に渡す。
 DPマッチング部2408は、発音記号列aの記号列長PLaの算出を行い、発音記号列aと変換発音記号列a’との最適マッチングを見出し、最適マッチングの経路距離LAを算出し、経路距離LAと発音記号列aの記号列長PLaとを経路距離正規化部2409へ渡す。
 経路距離正規化部2409は、経路距離LAを発音記号列aの記号列長PLaで正規化した正規化経路距離LA’を算出する。認識劣化寄与度算出部24は、正規化経路距離LA’を語彙Aの認識劣化寄与度として出力する。
(DPマッチングと発音記号に拠る重み付けの結果を用いた認識劣化寄与度算出)
 DPマッチングの結果を用いた認識劣化寄与度算出は、通常のDPマッチングのアルゴリズムのみで容易に認識劣化寄与度の算出が可能であるという利便さがあるが、置換された発音記号の内容、挿入された発音記号の内容、欠落した発音記号の内容に関わらず、同じ重みとして扱っている。しかし、例えば、ある母音が、それに近い発音の他の母音に置き換わった場合と、全く異なった発音の子音に置き換わった場合とでは、後者の方が認識率の劣化を強く引き起こすため音声認識の認識率への影響度は両者間で異なる。このことを考慮して、全ての置換誤り、挿入誤り、欠落誤りの内容を同等に扱うことをせず、以下のように重み付けを行う。置換誤りの場合は、発音記号の置換の組み合わせの内容ごとに音声認識の認識率への影響度の大きいものほど認識劣化寄与度が大きくなるようにする。また、挿入誤りと欠落誤りの場合は、挿入された発音記号ごと、欠落した発音記号ごとに音声認識の認識率への影響度の大きいものほど認識劣化寄与度が大きくなるようにする。語彙リストデータ12から取得した発音記号列と変換発音記号列とのDPマッチングによって得られた最適マッチングの置換誤り、挿入誤り、欠落誤りの内容まで吟味し比較する、DPマッチングと発音記号に拠る重み付けの結果とを使った認識劣化寄与度算出により、より精密な認識劣化寄与度を得ることができる。
 DPマッチングと発音記号に拠る重み付けの結果とを用いた認識劣化寄与度算出方法について、図12を用いて説明する。ここでは、認識劣化寄与度算出部24は、DPマッチングを行なうDPマッチング部2408と、DPマッチング部2408で決定された最適マッチングから類似距離を算出する類似距離算出部2411と、類似距離算出部2411で算出された類似距離を発音記号列長で正規化する類似距離正規化部2412とを備えている。
 語彙Aの発音記号列aと、テキスト発音記号変換部21により語彙Aのテキスト列が変換された結果である語彙Aの変換発音記号列a’とが、認識劣化寄与度算出部24に入力されると、認識劣化寄与度算出部24は、発音記号列aと変換発音記号列a’とをDPマッチング部2408に渡す。
 DPマッチング部2408は、発音記号列aの記号列長PLaの算出を行い、発音記号列aと変換発音記号列a’との最適マッチングを見出し、発音記号列aと、変換発音記号列a’と、誤りパターンと、発音記号列aの記号列長PLaとを、類似距離算出部2411に渡す。
 類似距離算出部2411は、類似距離LLAを算出して、類似距離LLAと、記号列長PLaとを類似距離正規化部2412へ渡す。なお、類似距離LLAの算出方法の詳細は後述する。
 類似距離正規化部2412は、類似距離LLAを変換発音記号列aの記号列長PLaで正規化した正規化類似距離LLA’を算出する。
 認識劣化寄与度算出部24は、正規化類似距離LLA’を語彙Aの認識劣化寄与度として出力する。
(類似距離)
 次に、類似距離算出部2411による類似距離LLAの算出方法について、図13を用いて説明する。図13は、最適マッチングの例、及び、例外語辞書作成装置10のメモリに記憶されている置換距離テーブル、挿入距離テーブル、欠落距離テーブルを示す図である。これらの最適マッチング、置換距離テーブル、挿入距離テーブル、欠落距離テーブルに示されているVa、Vb、Vc、・・・は、母音の発音記号、Ca、Cb、Cc、・・・は、子音の発音記号を表している。最適マッチングには、語彙Aの発音記号列aと、語彙Aの変換発音記号列a’と、発音記号列a-変換発音記号列a’間の誤りパターンとが示されている。
 置換距離テーブル、挿入距離テーブル、欠落距離テーブルは、最適マッチングにおいて発音記号が一致した場合の距離を1とした場合の、誤りの種類毎に距離を算出するためのテーブルである。具体的には、置換距離テーブルは、置換誤りに関して、発音記号の組み合わせ毎に、音声認識の認識率への影響度を考慮した1より大きい距離を定義したテーブルである。挿入距離テーブルは、挿入された発音記号毎に音声認識の認識率への影響度を考慮した1より大きい距離を定義したテーブルである。欠落距離テーブルは、欠落した発音記号毎に音声認識の認識率への影響度を考慮した1より大きい距離を定義したテーブルである。ここでは、置換距離テーブルの発音記号の行(横方向)は、元の発音記号を表しており、置換距離テーブルの発音記号の列(縦方向)は、置換発音記号を表しており、元の発音記号の列と置換発音記号の行とが交わった部分に、その置換誤りが生じたときの距離が表されている。例えば、発音記号Vaが発音記号Vbに置換された場合は、元の発音記号Vaの列と置換発音記号Vbの行とが交わった距離SVaVbを得る。なお、発音記号Vaが発音記号Vbに置換された場合の距離SVaVbと、発音記号Vbが発音記号Vaに置換された場合の距離SVbVaとは必ずしも同じ値となるとは限らない。挿入距離テーブルは、発音記号毎のその発音記号による挿入が生じた場合の距離を表しており、例えば発音記号Vaが挿入された場合は距離IVaを得る。欠落距離テーブルは、発音記号毎のその発音記号が欠落した場合の距離を表しており、例えば発音記号Vaが挿入された場合は距離DVaを得る。この語彙Aの最適マッチングの発音記号列aと変換発音記号列a’とでは、発音記号列aの一番目の発音記号Caは一致しているので距離1となり、発音記号列aの二番目の発音記号Vaは発音記号Vcに置換されているので距離SVaVcとなり、発音記号列aの三番目の発音記号Cbは一致しているので距離1となり、発音記号列aの四番目の発音記号Vbは一致しているので距離1となり、発音記号列aの四番目と五番目の発音記号の間にはCcが挿入されているので距離ICcとなり、発音記号列aの五番目の発音記号Vcは一致しているので距離1となり、発音記号列aの六番目の発音記号Vaは欠落しているのでDVaとなる。この結果、発音記号列a-変換発音記号列a’間の発音記号に拠る重み付けの結果を使った類似距離LLAは、これらの発音記号間の距離を全て加算した値(1+SVaVc+1+1+ICc+1+DVa)となる。
 ここまでは最適マッチングにおいて発音記号が一致した場合の距離を一律に1とした説明を行なったが、一致した場合でも発音記号によって音声認識において認識率により重要な発音と比較的重要度の低い発音とが存在する。この場合、発音記号が一致した場合、より認識率への重要度の高い発音記号の一致ほど、その重要度を考慮して値が小さくなる1より小さい距離を発音記号毎に決定して、図13に示す置換距離テーブル、挿入距離テーブル、欠落距離テーブルに加えて、図14に示す一致距離テーブルを持つことにより、精密な認識劣化寄与度を得ることができる。ここで、一致距離テーブルは、例えば一致した発音記号がVaである場合は距離MVaを得る。一致距離テーブルを加えた場合、語彙Aの最適マッチングの発音記号列aと、変換発音記号列a’と、発音記号列a-変換発音記号列a’間の誤りパターンとでは、発音記号列aの一番目の発音記号Caは一致しているため距離MCaとなり、発音記号列aの二番目の発音記号Vaは発音記号Vcに置換されているため距離SVaVcとなり、発音記号列aの三番目の発音記号Cbは一致しているため距離MCbとなり、発音記号列aの四番目の発音記号Vbは一致しているため距離MVbとなり、発音記号列aの四番目と五番目の発音記号の間にはCcが挿入されているため距離ICcとなり、発音記号列aの五番目の発音記号Vcは一致しているため距離MVcとなり、発音記号列aの六番目の発音記号Vaは欠落しているためDVaとなる。この結果、発音記号列a-変換発音記号列a’間の発音記号に拠る重み付けの結果を使った類似距離LLAは、これらの発音記号間の距離を全て加算した値(MCa+SVaVe+MCb+MVb+ICc+MVc+DVa)となる。
(第2実施形態)
 次に、本発明の第2実施形態について説明する。第2実施形態では、図2に示すデータベースまたは単語辞書50に記憶される語彙データ中に「使用頻度」が更に含まれている。また、登録候補語彙リストソート部32は、第1実施形態では登録候補語彙リスト13中の登録候補語彙リストデータを認識劣化寄与度の高いものの順にソートしたが(図6のステップS116参照)、第2実施形態では、使用頻度を更に考慮して、登録候補語彙リストデータをソートする(第2の実施形態に係る処理フローを示す図15のステップS216参照)。その他の構成及び処理手順は第1実施形態と同様である。
 ここで、「使用頻度」とは、現実世界で各語彙が使用される頻度を意味する。例えば、ある国におけるラストネーム(Last Name;氏・名字)の使用頻度は、その国でそのラストネームを有する人口の、全体に占める割合と同等とみなすことができ、また、その国での国勢調査の集計時におけるラストネームの数の出現頻度とみなすことができる。
 現実世界では各語彙の使用頻度は異なり、使用頻度の高い語彙は音声認識辞書に登録される確率が高いため、現実の音声認識応用例での認識率への影響が大きくなる。従って、データベースまたは単語辞書50に使用頻度が含まれている場合は、登録候補語彙リストソート部32は、認識劣化寄与度と使用頻度との両方を勘案して、登録優先順位順に登録候補語彙リストデータをソートする。
 具体的には、登録候補語彙リストソート部32は、予め定められた登録順決定条件に基づいてソートする。登録順決定条件は、使用頻度差条件と、認識劣化寄与度差条件と、優先使用頻度差条件の三つの数値条件からなる。使用頻度差条件と、認識劣化寄与度差条件と、優先使用頻度差条件はそれぞれ、使用頻度差条件閾値(DF;DFは0または負の数字で与えられる)と、認識劣化寄与度差条件閾値(DL;DLは0または正の数字で与えられる)と、優先使用頻度差条件閾値(PF;PFは0または正の数字で与えられる)に基づいている。
 第1実施形態では、登録候補語彙リスト13の登録候補語彙リストデータは、登録候補語彙リストソート部32により認識劣化寄与度の高い順に並べられたが、第2実施形態では、認識劣化寄与度の高い順に並べられたこの各登録候補語彙リストデータを、以下に示す第1ステップから第3ステップまでの3つのステップで、更に並べ替える。
 第1ステップでは、各登録候補語彙リストデータの認識劣化寄与度を調べ、同じ認識劣化寄与度を持つ登録候補語彙リストデータが2つ以上存在した場合は、それらの登録候補語彙リストデータの中で使用頻度が高い順に並べ変える。このことにより、同じ認識劣化寄与度を持った登録候補語彙リストデータの中では、使用頻度の高い語彙がより優先的に例外語辞書60に登録される順番に並べられる。
 第2ステップでは、ソート順位n番目に登録されている登録候補語彙リストデータの使用頻度(Fn)とそれより一つ前のn-1番目に登録されている登録候補語彙のリストデータ使用頻度(Fn-1)の差(dFn-1n=Fn-1-Fn)が使用頻度差条件閾値(DF)以上(dFn-1n≧DF)であるか、またはdFn-1nがDFよりも小さい場合(dFn-1n<DF)は、n番目に登録されている登録候補語彙リストデータの認識劣化寄与度(Ln)とn-1番目に登録されている登録候補語彙のリストデータの認識劣化寄与度(Ln-1)の差(dLn-1n=Ln-1-Ln)が認識劣化寄与度差条件閾値(DL)以上(dLn-1n≧DL)という条件を満たすように、それぞれの登録候補語彙リストデータを並び替える。このように並び替える方法は複数存在するが、例えば次のような方法がある。第1ステップが終了した状態で、次の操作を2番目に登録されている登録候補語彙リストデータから最後に登録されている登録候補語彙リストデータまで順番に行なう。すなわち、n番目に登録されている登録候補語彙リストデータの使用頻度とn-1番目に登録されている登録候補語彙リストデータの使用頻度との差(dFn-1n)を算出し、DFと比較する。もし、dFn-1nがDF以上だった場合(dFn-1n≧DF)はそれ以上なにも行なわず、n+1番目に登録されている登録候補語彙リストデータについて調べに行く。もしdFn-1nがDFより小さかった場合(dFn-1n<DF)は、n番目に登録されている登録候補語彙リストデータの認識劣化寄与度とn-1番目に登録されている登録候補語彙リストデータの認識劣化寄与度との差(dLn-1n)を算出し、DLと比較する。もしdLn-1nがDL以上だった場合(dLn-1n≧DL)はそれ以上なにも行なわず、n+1番目に登録されている登録候補語彙リストデータについて調べに行く。もし、dLn-1nがDLより小さかった場合(dLn-1n<DL)は、n番目に登録されている登録候補語彙リストデータと、n-1番目に登録されている登録候補語彙リストデータとの順番を入れ替えた後、n+1番目に登録されている登録候補語彙リストデータについて調べに行く。n+1番目に登録されている登録候補語彙リストデータでは、n番目に登録されている登録候補語彙リストデータとの間で同様の操作(すなわち、dFnn+1=Fn-Fn+1とDF、dLnn+1=Ln-Ln+1とDLの比較による操作)を行なう。この操作を最後に登録されている登録候補語彙リストデータまで行なったならば、第2ステップの並び替えの1回目が終了する。第2ステップの並び替えの1回目で、もし1回も登録候補語彙リストデータの順番の入れ替えが発生しなかったならば、第2ステップを終了とする。もし、登録候補語彙リストデータの順番の入れ替えが1回でも発生したならば、第2ステップの並び替えの2回目として、再度2番目に登録されている登録候補語彙リストデータ以下で、同じ操作を繰り返す。第2ステップの並び替えの2回目で、もし1回も登録候補語彙リストデータの順番の入れ替えが発生しなかったならば、第2ステップを終了とする。もし、登録候補語彙リストデータの順番の入れ替えが1回でも発生したならば、第2ステップの並び替えの3回目として、再度2番目に登録されている登録候補語彙リストデータ以下で同じ操作を繰り返す。このように操作を繰り返して、登録候補語彙リストデータの順番の入れ替えが発生しなくなった回で第2ステップは終了する。
 上記の第2ステップの並べ替え方法を、図16、図17、図18、図19を用いて具体的に説明する。ここでは、DFを-0.2、DLを0.5とする。図16「第2ステップの並び替え1回目」の(a)「1回目の初期状態」の表は第1ステップが終了した状態を示す。(a)「1回目の初期状態」の表では、順位2番目の語彙BのdF1,2は-0.21であるので、dF1,2<-0.2が成立している、そこでdL1,2を見ると0.2であるのでdL1,2<0.5が成立しているで、1番目の語彙Aと2番目の語彙Bとを入れ替える。入れ替えた後の状態が(b)「1回目の3から7番目」の表である。(b)「1回目の3から7番目」の表では3番目の語彙CのdF2,3は0.14でありdF2,3≧-0.2となり入れ替えは発生しない。4番目の語彙DのdF3,4は-0.21であるのでdF3,4<-0.2が成立している、そこでdL3,4を見ると0.9であるのでdL3,4≧0.5となり入れ替えは発生しない。5番目の語彙EのdF4,5は0.25でありdF4,5≧-0.2となり入れ替えは発生しない。6番目の語彙FのdF5,6は0.02でありdF5,6≧-0.2となり入れ替えは発生しない。7番目の語彙GのdF6,7は-0.49であるのでdF6,7<-0.2が成立している。そこでdL6,7を見ると0.2であるのでdL6,7<0.5が成立しているで、6番目の語彙Fと7番目の語彙Gを入れ替える。入れ替えた後の状態が(c)「1回目の最終状態」の表である。最後の7番目の語彙まで操作を行なったので1回目の操作はこれで終了する。
 次に2回目の操作を行う。2回目の操作は図16「第2ステップの並び替え1回目」の(c)「1回目の最終状態」と同じ状態を示す図17「第2ステップの並び替え2回目」の(a)「2回目の初期状態」から始まる。2番目の語彙A、3番目の語彙CではdF1,2≧-0.2、dF2,3≧-0.2となり入れ替えは発生しない。4番目の語彙DではdF3,4<-0.2が成立しているがdL3,4≧0.5となり入れ替えは発生しない。5番目の語彙EではdF4,5≧-0.2となり入れ替えは発生しない。6番目の語彙GではdF5,6<-0.2が成立しておりかつdL5,6<0.5が成立しているで、5番目の語彙Eと6番目の語彙Gを入れ替える。入れ替えた後の状態が「2回目の最終状態」の表である。「2回目の最終状態」の表では7番目の語彙FではdF6,7≧-0.2となり入れ替えは発生しない。最後の7番目の語彙まで操作を行なったので2回目の操作はこれで終了する。
 次に3回目の操作を行う。3回目の操作は図17「第2ステップの並び替え2回目」の(b)「2回目の最終状態」と同じ状態を示す図18「第2ステップの並び替え3回目」の(a)「3回目の初期状態」から始まる。2番目の語彙A、3番目の語彙CではdF1,2≧-0.2、dF2,3≧-0.2となり入れ替えは発生しない。4番目の語彙DではdF3,4<-0.2が成立しているがdL3,4≧0.5となり入れ替えは発生しない。5番目の語彙GではdF4,5<-0.2が成立しておりかつdL4,5<0.5が成立しているで、4番目の語彙Dと5番目の語彙Gとを入れ替える。入れ替えた後の状態が(b)「3回目の最終状態」の表である。(b)「3回目の最終状態」の表では、6番目の語彙E、7番目の語彙Fでは、dF5,6≧-0.2、dF6,7≧-0.2となり入れ替えは発生しない。最後の7番目の語彙まで操作を行なったので3回目の操作はこれで終了する。
 次に4回目の操作を行う。4回目の操作は図18「第2ステップの並び替え3回目」の(b)「3回目の最終状態」と同じ状態を示す図19「第2ステップの並び替え4回目」の「4回目の初期状態」から始まる。2番目の語彙A、3番目の語彙CではdF1,2≧-0.2、dF2,3≧-0.2となり入れ替えは発生しない。4番目の語彙GではdF3,4<-0.2が成立しているがdL3,4≧0.5となり入れ替えは発生しない。5番目の語彙D、6番目の語彙E、7番目の語彙FではdF4,5≧-0.2、dF5,6≧-0.2、dF6,7≧-0.2となり入れ替えは発生しない。最後の7番目まで操作を行なったので4回目の操作はこれで終了し、この4回目の操作で順番の入れ替えが発生しなかったので第2ステップも終了となる。
 第2ステップの使用頻度差条件閾値(DF)は、n-1番目の登録候補語彙リストデータに含まれる使用頻度がn番目の登録候補語彙リストデータに含まれる使用頻度より小さかった場合に、認識劣化寄与度差条件による入れ替えを行なうか否かを判断する閾値である。ここで、DFとして0を与えた場合は、使用頻度が逆転しているn-1番目とn番目の登録候補語彙リストデータ全てに対して認識劣化寄与度差条件閾値(DL)による比較を行い、条件を満たしていれば登録候補語彙リストデータを入れ替えることとする。従ってDFとして0を与えると、n-1番目の語彙の使用頻度がn番目の語彙の使用頻度より小さかった場合において、n-1番目とn番目との入れ替えの実行は、DLだけで決まる。
 第2ステップの認識劣化寄与度差条件閾値(DL)は、n-1番目の登録候補語彙リストデータの使用頻度がn番目の語彙の使用頻度より小さく、かつ使用頻度差条件を満たしていた場合、これを入れ替えるとn-1番目の登録候補語彙リストデータとn番目の登録候補語彙リストデータとの間で認識劣化寄与度の逆転が生じるが、その認識劣化寄与度の逆転をどの範囲までならば許すかを示した値である。従ってDLとして0を与えれば使用頻度による入れ替えは生じず、第2ステップの効果はなくなる。一方、DLの値を大きくすれば、使用頻度が高い語彙がより優先的に例外語辞書60に登録されるような順番に並べられる。
 第3ステップでは、優先使用頻度差条件閾値(PF)より大きい使用頻度を持つ登録候補語彙リストデータに関しては、認識劣化寄与度に関わらず、使用頻度の大きい順に登録候補語彙リストデータの順位を並べ替える。すなわち、使用頻度の一番高い登録候補語彙リストデータを登録候補語彙リスト13の順位1番目に移動し、順位1番目以降、優先使用頻度差条件より大きい使用頻度を持つ登録候補語彙リストデータを、認識劣化寄与度に関わらず、使用頻度の高い順に並べ替える。図20を用いて具体的に説明する。図20の(a)「第2ステップ終了時の状態」の表は、図16、図17、図18、図19で説明した第2ステップの操作の終了時、すなわち図19の「4回目の初期状態」と同じ状態である。ここでPFを0.7とする。この条件を満たす登録候補語彙は、使用頻度0.71の語彙Bと使用頻度0.79の語彙Gである。語彙Bと語彙Gの中では、使用頻度0.79の語彙Gが最も大きい使用頻度を持つので順位1となり、語彙Bは語彙Gに次ぐ使用頻度を持つので順位2となる。それ以外の語彙はPF以下の使用頻度なので相対的な順位は変化しない。よって、並べ替えた結果、(b)「第3ステップ終了時の状態」の表に示した順位となる。
 第2ステップ及び第3ステップは、語彙の使用頻度分布の形によって省かれる場合もある。例えば、使用頻度がなだらかな分布を示す場合は、第1ステップのみで十分な効果を示す場合がある。また使用頻度上位の限られた数の語彙の使用頻度が大きく、それ以外の語彙の使用頻度がなだらかな使用頻度分布を示す場合は、第1ステップの後、第2ステップを省いて第3ステップを実行することによって十分な効果を示す場合がある。上記2種類の使用頻度分布の中間的な使用頻度分布形状の場合は、第1ステップと第2ステップのみで第3ステップを省いても十分な効果を示す場合がある。
 認識劣化寄与度に限らず、語彙の使用頻度を用いて、例外語辞書60への登録対象を決定した場合の効果について、具体的に説明する。理解しやすいように、以下の様に、前提条件を単純化する。
(1)テキスト発音記号変換部21によって正しい発音記号列が得られなかった名前がAとBの2つだけだったとする。
(2)名前Aの使用頻度は10%(人口1,000人につき100人の出現率)、名前Bの使用頻度は0.1%(人口1,000人につき1人の出現率)であるとする。
(3)名前Aの認識劣化寄与度をa、名前Bの認識劣化寄与度をbとしたとき、b>aであり、図4に示すように、名前A、名前Bがテキスト発音記号変換部21によって変換された変換発音記号列を用いて音声認識辞書81に登録した場合の、音声認識部82による平均認識率が名前Aでは50%、名前Bでは40%であるとする。
(4)正しい発音記号列が音声認識辞書に登録されている名前の平均認識率は一律90%(名前A、名前Bとも例外語辞書60に登録され、図4に示すように、正しい発音記号列で音声認識辞書81に登録された場合の、音声認識部82による平均認識率も90%)であるとする。
(5)例外語辞書60に登録できる名前は1語だけであるとする(名前Aと名前Bのうち一つしか登録できない)。
(6)携帯電話の電話帳に登録されている登録名称が1人当たり10登録として、電話帳の登録名称を音声認識装置に登録して使用している人が1,000人いるとする。
 このような単純化された条件で例外語辞書60に名前Aまたは名前Bを登録した場合、1,000人の電話帳全体の平均認識率を計算してみる。
 名前Bを例外語辞書60に登録したとすると、名前Bの認識率は90%となり、一方、1人当たり10名の登録名称が登録されている電話帳1,000人分で認識率50%の名前Aが出現する回数は100回程度と考えられる。従って電話帳全体の平均認識率は以下の様に計算される。
((0.9×9000+0.5×1000)/(10×1000))×100=86%
 名前Aを例外語辞書60に登録したとすると、名前Aの認識率は90%となり、一方、1人当たり10名の登録名称が登録されている電話帳1,000人分で認識率40%の名前Bが出現する回数は10回程度と考えられる。従って電話帳全体の平均認識率は以下の様に計算される。
((0.9×9990+0.4×10)/(10×1000))×100=89.95%
 認識劣化寄与度のみで例外語辞書60に登録される名前を決定する場合は、名前Bが登録されることになるが、使用頻度がこのように大きく異なる場合は認識劣化寄与度が小さくても使用頻度の高い単語(この場合、名前A)を優先的に例外語辞書に登録した方が、ユーザー全体で見た場合の認識率が高くなる場合がある。
(第3実施形態)
 次に、本発明の第3実施形態について説明する。図21は、本実施形態に係る例外語辞書作成装置10の構成を示すブロック図である。第1実施形態では、データベースまたは単語辞書50に記憶されている人名、曲名等の語彙データを、例外語辞書作成装置10への入力としたが、本実施形態では、一般の単語が特許文献1に記載のフェーズ1とフェーズ2とを経て削除候補フラグと登録候補フラグとが付加された処理済語彙リストデータ53(引用文献1に記載の「WORD LINKED LIST」に相当)を、例外語辞書作成装置10への入力として用いる。
 図22(a)には、処理済語彙リストデータ53のデータ構成を示す。同図に示すように、処理済語彙リストデータ53には、テキスト列と、発音記号列と、削除候補フラグと、登録候補フラグとが含まれる。なお、更に使用頻度が含まれていてもよい。処理済語彙リストデータ53が有するフラグは、特許文献1に開示されたフェーズ2の語根となる単語を、登録候補(つまり、登録候補フラグが真)とする一方、この語根とルールとの組み合わせから元となる単語辞書に登録された発音記号列と同一の発音記号列が生成される単語を、削除候補(つまり、削除候補フラグが真)とするように設定されている。
 例外語辞書作成装置10は、処理済語彙リストデータ53から拡張語彙リストデータ17を生成し、装置10内のメモリなどの記録媒体に記憶する。
 図22(b)には、拡張語彙リストデータ17のデータ構成を示している。拡張語彙リストデータ17は、処理済語彙リストデータ53の持つテキストデータ列と発音記号列と削除候補フラグと登録候補フラグとを持ち、更に認識劣化寄与度を持つデータ構造を有する。なお、処理済語彙リストデータ53に使用頻度が存在する場合は、拡張語彙リストデータ17は使用頻度を更に持つ。また、拡張語彙リストデータ17のテキスト列、発音記号列、及び、削除候補フラグと登録候補フラグとの真偽の値は、処理済語彙リストデータ53の値がそのまま転記され、認識劣化寄与度は、拡張語彙リストデータ17がメモリなどの記録媒体に構築されるときに初期化される。
 テキスト発音記号変換部21は、i番目(i=1~最後のデータ数)の拡張語彙リストデータ17から入力されたテキスト列を変換して変換発音記号列を生成する。
 認識劣化寄与度算出部24は、テキスト発音記号変換部21からi番目の変換発音記号列を受け取ると、i番目の拡張語彙リストデータ17の保持する削除候補フラグと、登録候補フラグとを確認する。確認した結果、削除候補フラグが真であった場合、または、削除候補フラグが偽かつ登録候補フラグが真(すなわち、語根として使われる語)であった場合は、処理を行わず、削除候補フラグが偽かつ登録候補フラグが偽であった場合は、変換発音記号列と拡張語彙リストデータ17から取得した発音記号列とから認識劣化寄与度を算出し、当該算出した認識劣化寄与度を、i番目の拡張語彙リストデータ17に登録する。
 登録候補・登録語彙リスト作成部33は、全ての拡張語彙リストデータ17に対するテキスト発音記号変換部21及び認識劣化寄与度算出部24による処理が終了した後に、拡張語彙リストデータ17のうち、削除候補フラグが真かつ登録候補フラグが偽のものを削除し、残りのうち、登録候補フラグが真の語彙(すなわち、語根として使われる語彙)を登録語彙とし、削除候補フラグが偽かつ登録候補フラグが偽の語彙を登録候補語彙として、2つに分類する。そして、登録候補・登録語彙リスト作成部33は、各登録語彙のテキスト列とその発音記号列とを登録語彙リスト16として、メモリなどの記録媒体に記憶する。さらに、登録候補・登録語彙リスト作成部33は、登録候補語彙に関しては各語彙のテキスト列とその発音記号列と認識劣化寄与度と(使用頻度を持つ場合は使用頻度と)を、登録候補語彙リスト13としてメモリなどの記録媒体に記憶する。
 登録候補語彙リストソート部32は、上述した第1実施形態または第2実施形態と同様に、登録候補語彙リスト13の登録候補語彙を登録優先順位の高い順にソートする。
 拡張例外語辞書登録部42は、最初に、登録語彙リスト16の各登録語彙のテキスト列と発音記号列とを例外語辞書60に登録する。次に、登録候補語彙リスト13の各語彙のテキスト列と発音記号列とを、登録優先順位の高い順に、例外語辞書メモリサイズ条件71で示されるデータ制限容量を超えない範囲で最大数の語彙を例外語辞書60に登録する。これにより、一般の単語についても、辞書サイズが所定の制約下で最適な音声認識性能が得られる例外語辞書60が得られる。
 図23は、実際の米国の各ラストネーム(Last Name)の人口に占める割合を上位から累積したグラフと、各ラストネームの使用頻度を表したグラフである。全サンプル数は269,762,087であり、全ラストネーム数は6,248,415である。これらの数字は、米国のCensus 2000(西暦2000年国勢調査)の回答より抽出したものである。
 図24は、認識劣化寄与度に従って例外語辞書60を作成して音声認識の実験を行った場合の認識率向上結果を示すグラフである。実験は米国のラストネーム1万語彙データベースに対して行なったものであり、当データベースには各語彙であるラストネームの北米での使用頻度(すなわち全人口に対してそのラストネームを持つ人口の割合)が含まれている。2つのグラフのうち、「当該発明による例外語辞書作成」のグラフは、米国のラストネーム1万語彙データベースに対してLPCケプストラム距離の結果を使った認識劣化寄与度を算出し、この認識劣化寄与度に従って例外語辞書60を作成した上で音声認識実験を行なった場合の認識率を表し、「使用頻度による例外語辞書作成」のグラフは、使用頻度のみに基づいて例外語辞書60を作成した場合の認識率を表す。
 さらに詳細には、「当該発明による例外語辞書作成」のグラフは、既存のテキスト発音記号変換装置で変換した発音記号列と米国のラストネーム1万語彙データベースの発音記号列とが異なった語彙全体の10%を認識劣化寄与度の大きさに従って例外語辞書60に登録した場合、20%を例外語辞書60に登録した場合、30%を例外語辞書60に登録した場合、というように10%ずつ例外語辞書60のサイズを大きくしていった場合(例外語辞書60への登録率を変えた場合)の認識率の変化を示している。一方、「使用頻度による例外語辞書作成」のグラフは、既存のテキスト発音記号変換装置が変換した発音記号列と米国のラストネーム1万語彙データベースの発音記号列とが異なった語彙全体の10%を使用頻度の高い順に例外語辞書に登録した場合、20%を例外語辞書に登録した場合、30%を例外語辞書に登録した場合、というように10%ずつ例外語辞書のサイズを大きくしていった場合の認識率の変化を示している。
 認識率は、米国のラストネーム1万語彙データベースの中から無作為に選んだ100語彙を音声認識辞書に登録し、この100語彙全てを対象に認識率を測定した結果である。認識率の測定に用いた100語彙の音声は合成音声であり、このデータベースに登録されている発音記号列が音声合成装置の入力である。
 グラフから明らかなように、本実験では例外語辞書への登録率が0%である場合(例外語辞書60を使わずにルールのみで発音記号列への変換を行なう場合)の音声認識辞書を用いると、認識率は68%であったものが、登録率100%の例外語辞書を用いて登録された音声認識辞書では、認識率が80%まで向上しており、例外語辞書を利用した場合の認識率向上への効果が確認できる。ここで、当該発明による例外語辞書60による認識率は、例外語辞書60への登録率50%で80%に達しており、このことから、認識劣化寄与度に従って例外語辞書60を作成した場合、例外語辞書60への登録語彙を半分に減らしても(すなわち、例外語辞書60のメモリサイズをほぼ半分にしても)認識率が保たれることがわかる。これに対して、使用頻度により例外語辞書を作成した場合、例外語辞書への登録率が100%になるまで認識率が80%に達していない。また、例外語辞書への登録率10%から90%のどの点においても、当該発明による例外語辞書60での認識率は、使用頻度情報による例外語辞書での認識率を上回っている。以上の実験結果から当該発明による例外語辞書60の作成方法の有効性が明確に示されている。
 なお、認識対象語彙は英語に限らず、英語以外の言語であっても本発明を適用可能である。
10 例外語辞書作成装置
11 語彙リストデータ作成部
12 語彙リストデータ
13 登録候補語彙リスト
16 登録語彙リスト
17 拡張語彙リストデータ
21 テキスト発音記号変換部
22 変換発音記号列
24 認識劣化寄与度算出部
31 登録候補語彙リスト作成部
32 登録候補語彙リストソート部
33 登録候補・登録語彙リスト作成部
41 例外語辞書登録部
42 拡張例外語辞書登録部
50 データベースまたは単語辞書
53 処理済語彙リストデータ
60 例外語辞書
71 例外語辞書メモリサイズ条件

Claims (18)

  1.  語彙のテキスト列を発音記号列へ変換するルールと、該ルールによる変換対象外とする例外語のテキスト列とその正しい発音記号列とを対応付けて記憶した例外語辞書とに基づいて、認識対象語彙のテキスト列を発音記号列に変換する変換装置が用いる前記例外語辞書を作成するための例外語辞書作成装置であって、
     認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換手段と、
     認識対象語彙のテキスト列の前記テキスト発音記号変換手段による変換結果である変換発音記号列と、前記認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、前記変換発音記号列の前記正しい発音記号列との違いが音声認識性能の劣化に影響を与える度合いである認識劣化寄与度を算出する認識劣化寄与度算出手段と、
     前記認識劣化寄与度算出手段により算出された複数の各認識対象語彙に対する認識劣化寄与度に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを前記例外語辞書に登録する例外語辞書登録手段と
     を備えることを特徴とする例外語辞書作成装置。
  2.  前記例外語辞書に記憶可能なデータ制限容量を記憶する例外語辞書メモリサイズ条件記憶手段をさらに備え、
     前記例外語辞書登録手段は、前記例外語辞書に記憶されるデータ量が前記データ制限容量を超えないように、前記登録を行うことを特徴とする請求項1に記載の例外語辞書作成装置。
  3.  前記例外語辞書登録手段は、
     前記複数の各認識対象語彙の使用頻度に更に基づいて、登録対象の認識対象語彙を選択することを特徴とする請求項1又は2に記載の例外語辞書作成装置。
  4.  前記例外語辞書登録手段は、
     予め定められた閾値よりも大きい前記使用頻度を有する認識対象語彙を、前記認識劣化寄与度に関わらず、優先して登録対象の認識対象語彙として選択することを特徴とする請求項3に記載の例外語辞書作成装置。
  5.  前記認識劣化寄与度算出手段は、
     前記変換発音記号列と前記正しい発音記号列との間のスペクトル距離尺度を、前記認識劣化寄与度として算出することを特徴とする請求項1から4の何れか1項に記載の例外語辞書作成装置。
  6.  前記認識劣化寄与度算出手段は、
     前記変換発音記号列に基づく音声の認識結果である音声認識尤度と、前記正しい発音記号列に基づく前記音声の認識結果である音声認識尤度との差を、前記認識劣化寄与度として算出することを特徴とする請求項1から4の何れか1項に記載の例外語辞書作成装置。
  7.  前記認識劣化寄与度算出手段は、
     前記変換発音記号列と、前記正しい発音記号列との間の最適マッチングによる経路距離を算出し、該算出した経路距離を前記正しい発音記号列の長さで正規化した正規化経路距離を、前記認識劣化寄与度として算出することを特徴とする請求項1から4の何れか1項に記載の例外語辞書作成装置。
  8.  前記認識劣化寄与度算出手段は、
     前記変換発音記号列と前記正しい発音記号列との間の対応する発音記号同士の関係に基づく重み付けを加味した前記経路距離として類似距離を算出し、該算出した類似距離を前記正しい発音記号列の長さで正規化した正規化類似距離を前記認識劣化寄与度として算出することを特徴とする請求項7に記載の例外語辞書作成装置。
  9.  請求項1から8の何れか1項に記載の例外語辞書作成装置により作成された例外語辞書を用いて認識対象語彙のテキスト列を発音記号列に変換し、該変換結果に基づいて音声認識辞書を作成する音声認識辞書作成手段と、
    前記音声認識辞書作成手段で作成された音声認識辞書を用いて音声認識を行う音声認識手段と
    を備えたことを特徴とする音声認識装置。
  10.  語彙のテキスト列を発音記号列へ変換するルールと、該ルールによる変換対象外とする例外語のテキスト列とその正しい発音記号列とを対応付けて記憶した例外語辞書とに基づいて、認識対象語彙のテキスト列を発音記号列に変換する変換装置が用いる前記例外語辞書を作成するための例外語辞書作成装置が行う例外語辞書作成方法であって、
     認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換ステップと、
     前記テキスト発音記号変換ステップにおける前記認識対象語彙のテキスト列の変換結果である変換発音記号列と、前記認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、前記変換発音記号列の前記正しい発音記号列との違いが音声認識性能の劣化に影響を与える度合いである認識劣化寄与度を算出する認識劣化寄与度算出ステップと、
     前記認識劣化寄与度算出ステップにおいて複数の認識対象語彙各々に対して算出された認識劣化寄与度に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを前記例外語辞書に登録する例外語辞書登録ステップと
     を備えることを特徴とする例外語辞書作成方法。
  11.  請求項10に記載の例外語辞書作成方法により作成された例外語辞書を用いて認識対象語彙のテキスト列を発音記号列に変換し、該変換結果に基づいて音声認識辞書を作成する音声認識辞書作成ステップと、
     前記音声認識辞書作成ステップで作成された音声認識辞書を用いて音声認識を行う音声認識ステップと
     を備えたことを特徴とする音声認識方法。
  12.  語彙のテキスト列を発音記号列へ変換するルールと、該ルールによる変換対象外とする例外語のテキスト列とその正しい発音記号列とを対応付けて記憶した例外語辞書とに基づいて、認識対象語彙のテキスト列を発音記号列に変換する変換装置が用いる前記例外語辞書を作成するための例外語辞書作成プログラムであって、
     認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換手段と、
     前記認識対象語彙のテキスト列の前記テキスト発音記号変換手段による変換結果である変換発音記号列と、前記認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、前記変換発音記号列の前記正しい発音記号列との違いが音声認識性能の劣化に影響を与える度合いである認識劣化寄与度を算出する認識劣化寄与度算出手段と、
     前記認識劣化寄与度算出手段により複数の認識対象語彙各々に対して算出された認識劣化寄与度に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを前記例外語辞書に登録する例外語辞書登録手段と
     をコンピュータに機能させることを特徴とする例外語辞書作成プログラム。
  13.  語彙のテキスト列を発音記号列へ変換するルールと、該ルールによる変換対象外とする例外語のテキスト列とその正しい発音記号列とを対応付けて記憶した例外語辞書とに基づいて、認識対象語彙のテキスト列を発音記号列に変換する変換装置が用いる前記例外語辞書を作成するための例外語辞書作成装置であって、
     認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換手段と、
     認識対象語彙のテキスト列の前記テキスト発音記号変換手段による変換結果である変換発音記号列と、前記認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、前記変換発音記号列に基づく音声と前記正しい発音記号列に基づく音声との間の距離である発音記号列間距離を算出する発音記号列間距離算出手段と、
     前記発音記号列間距離算出手段により算出された複数の各認識対象語彙に対する発音記号列間距離に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを前記例外語辞書に登録する例外語辞書登録手段と
     を備えることを特徴とする例外語辞書作成装置。
  14.  語彙のテキスト列を発音記号列へ変換するルールと、該ルールによる変換対象外とする例外語のテキスト列とその正しい発音記号列とを対応付けて記憶した例外語辞書とに基づいて、認識対象語彙のテキスト列を発音記号列に変換する変換装置が用いる前記例外語辞書を作成するための例外語辞書作成装置が行う例外語辞書作成方法であって、
     認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換ステップと、
     前記テキスト発音記号変換ステップにおける前記認識対象語彙のテキスト列の変換結果である変換発音記号列と、前記認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、前記変換発音記号列に基づく音声と前記正しい発音記号列に基づく音声との間の距離である発音記号列間距離を算出する発音記号列間距離算出ステップと、
     前記発音記号列間距離算出ステップにおいて複数の認識対象語彙各々に対して算出された発音記号列間距離に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを前記例外語辞書に登録する例外語辞書登録ステップと
     を備えることを特徴とする例外語辞書作成方法。
  15.  語彙のテキスト列を発音記号列へ変換するルールと、該ルールによる変換対象外とする例外語のテキスト列とその正しい発音記号列とを対応付けて記憶した例外語辞書とに基づいて、認識対象語彙のテキスト列を発音記号列に変換する変換装置が用いる前記例外語辞書を作成するための例外語辞書作成プログラムであって、
     認識対象語彙のテキスト列を発音記号列に変換するテキスト発音記号変換手段と、
     前記認識対象語彙のテキスト列の前記テキスト発音記号変換手段による変換結果である変換発音記号列と、前記認識対象語彙のテキスト列の正しい発音記号列とが一致しなかった場合に、前記変換発音記号列に基づく音声と前記正しい発音記号列に基づく音声との間の距離である発音記号列間距離を算出する発音記号列間距離算出手段と、
     前記発音記号列間距離算出手段により複数の認識対象語彙各々に対して算出された発音記号列間距離に基づいて、前記複数の認識対象語彙から登録対象の認識対象語彙を選択し、該選択された登録対象の認識対象語彙のテキスト列とその正しい発音記号列とを前記例外語辞書に登録する例外語辞書登録手段とをコンピュータに機能させることを特徴とする例外語辞書作成プログラム。
  16.  語彙のテキスト列と、その正しい発音記号列とを有する認識対象語彙と、
     該認識対象語彙を所定のルールで前記テキスト列を発音記号列に変換するテキスト発音記号列変換手段と、
     該テキスト発音記号列変換手段で変換された変換発音記号列と、
     該変換発音記号列に基づく音声と、前記正しい発音記号列に基づく音声との間の距離である発音記号列間距離を算出する発音記号列間距離算出手段と、
     該発音記号列間距離算出手段で算出された発音記号列間距離に基づいて前記認識対象語彙を登録する認識対象語彙登録手段と、
     を備えることを特徴とする認識語彙登録装置。
  17.  認識対象語彙のテキスト列を所定のルールで発音記号列に変換するテキスト発音記号列変換手段と、
     該テキスト発音記号列変換手段で変換された変換発音記号列に基づく音声と、前記認識対象語彙の正しい発音記号列に基づく音声との間の距離である発音記号列間距離を算出する発音記号列間距離算出手段と、
     該発音記号列間距離算出手段で算出された発音記号列間距離に基づいて前記認識対象語彙を登録する認識対象語彙登録手段と、
     を備えることを特徴とする認識語彙登録装置。
  18.  請求項16又は17に記載の認識語彙登録装置の前記認識対象語彙登録手段で登録された認識対象語彙を有する例外語辞書と、
     該例外語辞書を用いて認識対象語彙のテキスト列を発音記号列に変換し、該変換結果に基づいて音声認識辞書を作成する音声認識辞書作成手段と、
     前記音声認識辞書作成手段で作成された音声認識辞書を用いて音声認識を行う音声認識手段と、
     を備えたことを特徴とする音声認識装置。
PCT/JP2009/064045 2008-08-11 2009-08-07 例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法 WO2010018796A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN200980131687XA CN102119412B (zh) 2008-08-11 2009-08-07 例外语辞典制作装置、例外语辞典制作方法、和声音识别装置和声音识别方法
JP2010524722A JPWO2010018796A1 (ja) 2008-08-11 2009-08-07 例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法
US13/057,373 US20110131038A1 (en) 2008-08-11 2009-08-07 Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-207406 2008-08-11
JP2008207406 2008-08-11

Publications (1)

Publication Number Publication Date
WO2010018796A1 true WO2010018796A1 (ja) 2010-02-18

Family

ID=41668941

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/064045 WO2010018796A1 (ja) 2008-08-11 2009-08-07 例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法

Country Status (4)

Country Link
US (1) US20110131038A1 (ja)
JP (1) JPWO2010018796A1 (ja)
CN (1) CN102119412B (ja)
WO (1) WO2010018796A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015087540A (ja) * 2013-10-30 2015-05-07 株式会社コト 音声認識装置、音声認識システム、及び音声認識プログラム

Families Citing this family (201)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US11978436B2 (en) 2022-06-03 2024-05-07 Apple Inc. Application vocabulary integration with a digital assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080167859A1 (en) * 2007-01-04 2008-07-10 Stuart Allen Garrie Definitional method to increase precision and clarity of information (DMTIPCI)
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5296029B2 (ja) * 2010-09-15 2013-09-25 株式会社東芝 文章提示装置、文章提示方法及びプログラム
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
JP5335165B2 (ja) * 2011-06-14 2013-11-06 三菱電機株式会社 発音情報生成装置、車載情報装置およびデータベース生成方法
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
JP5942559B2 (ja) * 2012-04-16 2016-06-29 株式会社デンソー 音声認識装置
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) * 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR101330671B1 (ko) * 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
JP2014215877A (ja) * 2013-04-26 2014-11-17 株式会社デンソー 物体検出装置
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9911408B2 (en) * 2014-03-03 2018-03-06 General Motors Llc Dynamic speech system tuning
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10055767B2 (en) * 2015-05-13 2018-08-21 Google Llc Speech recognition for keywords
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10140976B2 (en) * 2015-12-14 2018-11-27 International Business Machines Corporation Discriminative training of automatic speech recognition models with natural language processing dictionary for spoken language processing
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP6821393B2 (ja) * 2016-10-31 2021-01-27 パナソニック株式会社 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
TWI697890B (zh) * 2018-10-12 2020-07-01 廣達電腦股份有限公司 語音校正系統及語音校正方法
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
TWI698857B (zh) * 2018-11-21 2020-07-11 財團法人工業技術研究院 語音辨識系統及其方法、與電腦程式產品
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11348160B1 (en) 2021-02-24 2022-05-31 Conversenowai Determining order preferences and item suggestions
US11810550B2 (en) 2021-02-24 2023-11-07 Conversenowai Determining order preferences and item suggestions
US11354760B1 (en) 2021-02-24 2022-06-07 Conversenowai Order post to enable parallelized order taking using artificial intelligence engine(s)
US11862157B2 (en) 2021-02-24 2024-01-02 Conversenow Ai Automated ordering system
US11355122B1 (en) * 2021-02-24 2022-06-07 Conversenowai Using machine learning to correct the output of an automatic speech recognition system
US11514894B2 (en) 2021-02-24 2022-11-29 Conversenowai Adaptively modifying dialog output by an artificial intelligence engine during a conversation with a customer based on changing the customer's negative emotional state to a positive one
CN115116437B (zh) * 2022-04-07 2024-02-09 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备、存储介质及产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62262099A (ja) * 1986-05-08 1987-11-14 日本電気株式会社 発音辞書更新装置
JP2001014310A (ja) * 1999-07-01 2001-01-19 Fujitsu Ltd 音声合成アプリケーションに用いる変換辞書圧縮装置及び方法
JP2005077438A (ja) * 2003-08-29 2005-03-24 Toshiba Corp 認識辞書編集装置、認識辞書編集方法、及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
US6119085A (en) * 1998-03-27 2000-09-12 International Business Machines Corporation Reconciling recognition and text to speech vocabularies
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6208968B1 (en) * 1998-12-16 2001-03-27 Compaq Computer Corporation Computer method and apparatus for text-to-speech synthesizer dictionary reduction
DE102005030380B4 (de) * 2005-06-29 2014-09-11 Siemens Aktiengesellschaft Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
JP4767754B2 (ja) * 2006-05-18 2011-09-07 富士通株式会社 音声認識装置および音声認識プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62262099A (ja) * 1986-05-08 1987-11-14 日本電気株式会社 発音辞書更新装置
JP2001014310A (ja) * 1999-07-01 2001-01-19 Fujitsu Ltd 音声合成アプリケーションに用いる変換辞書圧縮装置及び方法
JP2005077438A (ja) * 2003-08-29 2005-03-24 Toshiba Corp 認識辞書編集装置、認識辞書編集方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Proceedings of the 2003 IEICE General Confer Joho-System 1, 03 March 2003 (03.03.2003)", article JUN WAKAO ET AL.: "Compact na Onsei Goseiyo Text Kaiseki Engine no Kaihatsu", pages: 172 *
YUJI SHIMIZU ET AL.: "Compact na Text Onsei Gosei System no Kaihatsu", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) 2002 NEN SHUNKI KENKYU HAPPYOKAI KOEN RONBUNSHU, vol. 1-10-4, 18 March 2002 (2002-03-18), pages 237 - 238 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015087540A (ja) * 2013-10-30 2015-05-07 株式会社コト 音声認識装置、音声認識システム、及び音声認識プログラム

Also Published As

Publication number Publication date
JPWO2010018796A1 (ja) 2012-01-26
CN102119412A (zh) 2011-07-06
US20110131038A1 (en) 2011-06-02
CN102119412B (zh) 2013-01-02

Similar Documents

Publication Publication Date Title
WO2010018796A1 (ja) 例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法
JP6188831B2 (ja) 音声検索装置および音声検索方法
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP5199391B2 (ja) 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム
JP2008275731A (ja) テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
CN111462748B (zh) 语音识别处理方法、装置、电子设备及存储介质
JPWO2012073275A1 (ja) 音声認識装置及びナビゲーション装置
CN111552777B (zh) 一种音频识别方法、装置、电子设备及存储介质
JP6095588B2 (ja) 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
JP5528213B2 (ja) 単語のセットを対応するパーティクルのセットに変換する方法
JP2007193222A (ja) メロディ入力装置及び楽曲検索装置
JP2004139033A (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP3914709B2 (ja) 音声認識方法およびシステム
JP3950957B2 (ja) 言語処理装置および方法
JP2002091484A (ja) 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US20110196672A1 (en) Voice recognition device
CN107092606B (zh) 一种搜索方法、装置及服务器
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JP2004294542A (ja) 音声認識装置及びそのプログラム
JP4741208B2 (ja) 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置
JP2001092482A (ja) 音声合成システム、および音声合成方法
JP6277659B2 (ja) 音声認識装置および音声認識方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980131687.X

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09806688

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010524722

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13057373

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 258/MUMNP/2011

Country of ref document: IN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09806688

Country of ref document: EP

Kind code of ref document: A1