WO2016151700A1 - 意図理解装置、方法およびプログラム - Google Patents

意図理解装置、方法およびプログラム Download PDF

Info

Publication number
WO2016151700A1
WO2016151700A1 PCT/JP2015/058565 JP2015058565W WO2016151700A1 WO 2016151700 A1 WO2016151700 A1 WO 2016151700A1 JP 2015058565 W JP2015058565 W JP 2015058565W WO 2016151700 A1 WO2016151700 A1 WO 2016151700A1
Authority
WO
WIPO (PCT)
Prior art keywords
intention
information
situation
semantic expression
unit
Prior art date
Application number
PCT/JP2015/058565
Other languages
English (en)
French (fr)
Inventor
裕美 若木
憲治 岩田
昌之 岡本
Original Assignee
株式会社 東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 東芝 filed Critical 株式会社 東芝
Priority to JP2017507166A priority Critical patent/JP6310150B2/ja
Priority to PCT/JP2015/058565 priority patent/WO2016151700A1/ja
Publication of WO2016151700A1 publication Critical patent/WO2016151700A1/ja
Priority to US15/433,316 priority patent/US10360903B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • Embodiments of the present invention relate to an intention understanding device, method, and program.
  • a user utterance is selected based on environmental information (position information, traffic conditions, road surface conditions, etc.) around an information terminal for an intention candidate that is a recognition result of a command that is a specific utterance.
  • environmental information position information, traffic conditions, road surface conditions, etc.
  • the intention is estimated only from the environment information.
  • the recognition rate of the command recognition result is sufficient, the intention is estimated from the environment information and the command recognition result.
  • the present disclosure has been made in order to solve the above-described problem, and an object thereof is to provide an intent understanding device, method, and program capable of understanding an intent for a user's free speech.
  • the intent understanding device includes a first storage unit, a first acquisition unit, a second acquisition unit, a first analysis unit, and an understanding unit.
  • the first storage unit includes first situation information relating to a situation assumed in advance, a first semantic expression representing a meaning of a sentence assumed as an input from a user, intention information indicating an intention to be estimated, and the first A semantic expression is stored in association with the first value indicating the degree of matching the first situation information and the intention information.
  • the first acquisition unit acquires a natural sentence.
  • a 2nd acquisition part acquires the 2nd condition information regarding the condition when acquiring the said natural sentence.
  • the first analysis unit analyzes the natural sentence and generates a second semantic expression representing the meaning of the natural sentence.
  • the understanding unit obtains an estimated value from the first value corresponding to the first situation information and the first semantic expression corresponding to the second situation information and the second semantic expression, from the first storage unit.
  • FIG. 1 is a block diagram showing an intent understanding device according to a first embodiment.
  • the flowchart which shows the semantic analysis process of a natural sentence analysis part.
  • the figure which shows the table regarding the speech act contained in a semantic expression.
  • the figure which shows an example in case situation information is given in a vector format.
  • the block diagram which shows the intent understanding apparatus which concerns on 2nd Embodiment.
  • the intent understanding device 100 includes a natural sentence acquisition unit 101 (also referred to as a first acquisition unit), a natural sentence analysis unit 102 (also referred to as a first analysis unit), and a situation acquisition unit 103 (second acquisition unit).
  • a first knowledge database 104 also referred to as a first storage unit
  • a second knowledge database 105 also referred to as a second storage unit
  • an intention understanding unit 106 and an output unit 107.
  • the natural sentence acquisition unit 101 acquires a natural sentence.
  • a natural sentence is a character string of a so-called spoken language, and here, a sentence obtained from a user's free speech is assumed. In addition, not only a natural sentence but what kind of sentence can be processed similarly.
  • the natural sentence analysis unit 102 receives a natural sentence from the natural sentence acquisition unit 101, analyzes the natural sentence, and generates a semantic expression (also referred to as a second semantic expression).
  • a semantic expression is a form that represents the meaning of a natural sentence. Note that the natural sentence analysis unit 102 may generate a plurality of semantic expressions according to the content of the natural sentence.
  • the status acquisition unit 103 acquires status information (also referred to as second status information) regarding a status when acquiring a natural sentence.
  • status information for example, a measurement value by a temperature sensor or a humidity sensor or a history of dialogue with the user may be used.
  • the first knowledge database 104 stores situation information (also referred to as first situation information), intention information, semantic expression (also referred to as first semantic expression), and the degree to which the semantic expression corresponds to the situation information and intention information.
  • a value to be expressed (also referred to as a first value) is associated with each other and stored in advance.
  • the first situation information stored in the first knowledge database 104 is information related to a situation assumed in advance, and the first semantic expression represents the meaning of a sentence assumed as an input from the user.
  • the intention information is information indicating the intention to be estimated, and may be set in advance by the system. Details of the first knowledge database 104 will be described later with reference to FIGS. 3A to 3C.
  • the second knowledge database 105 stores the first situation information, the intention information, and a value (also referred to as a second value) representing the degree to which the intention information corresponds to the first situation information in association with each other. . Details of the second knowledge database 105 will be described later with reference to FIG.
  • the intention understanding unit 106 receives the second semantic expression from the natural sentence analysis unit 102 and the second situation information from the situation acquisition unit 103.
  • the intention understanding unit 106 obtains an estimated value from the first value corresponding to the first situation information and the first semantic expression, corresponding to the second situation information and the second semantic expression, from the first knowledge database 104.
  • the intention understanding unit 106 also obtains intention information corresponding to the estimated value as estimated intention information.
  • the 2nd value from which the intention information may correspond with respect to 2nd situation information may be acquired from the 2nd knowledge database 105, and an estimated value may be obtained using a 1st value and a 2nd value.
  • the output unit 107 receives the estimated value and the estimated intention information from the intention understanding unit 106, and outputs the estimated value and the estimated intention information to the outside.
  • the semantic analysis process of the natural sentence analysis unit 102 will be described with reference to the flowchart of FIG.
  • the semantic expression generated in FIG. 2 is assumed to be generated based on a predicate term structure that takes one or more terms for a predicate, but the semantic expression is based on a noun / verb pair. May be generated. That is, any method may be used as long as it can extract the meaning of the natural sentence.
  • step S201 the natural sentence analysis unit 102 performs a morpheme analysis process and a dependency analysis process on the natural sentence received from the natural sentence acquisition unit 101, respectively.
  • the natural sentence analysis unit 102 obtains a word division result and a word part of speech as a result of the morphological analysis process, and obtains a dependency relation of words as a result of the dependency analysis process.
  • step S202 the natural sentence analysis unit 102 generates a pair of a predicate and a term based on the word division result, the part of speech, and the dependency relationship.
  • a predicate may be an adjective, an adjective verb or the like, in addition to a verb, or may be a situational noun (for example, sa-variant noun).
  • a term is basically a noun, but it may be other than a noun as long as it is an element necessary as a modifier for a verb. Note that only the predicate may be generated assuming that the term is omitted, and vice versa.
  • the natural sentence analysis unit 102 estimates the case that matches the semantic content of the combination of the predicate and the term, and assigns case information.
  • case information for example, the meaning of the current set while considering the original particle connected to the predicate in the original natural sentence, the peripheral information of the predicate, the particle related to the combination of other predicate and term, etc. What is necessary is just to estimate the case which matched the content, and what is necessary is just to use a general estimation method.
  • the case assigned to the pair of predicate and term may be either a surface case or a deep case.
  • the superficial case is a superficial case, and in Japanese, the case is often estimated when estimating the case. For example, ga rating (primary case: nominative), wo case (accurate case), d case (giving case: active case), Kara case, bad case, toe case, twisted case, made case and de case.
  • ga rating primary case: nominative
  • wo case accurate case
  • d case giving case: active case
  • Kara case bad case
  • toe case twisted case
  • de case are given as case information to the combination of predicate and term.
  • “wo case” is given as case information for the combination of the predicate “stop” and the term “air conditioner”.
  • a main case, a personality (ownership), or a counter case (target case) may be used as the surface case.
  • the deep case is a case that expresses the meaning of writing common to all languages.
  • As the deep case there are a movement case, an experienced case, a tool case, a target case, a careful selection, a target case, a place case, and a time case.
  • semantic role labeling semantic roll labeling
  • semantic roll labeling is often performed for a combination of a predicate and a term.
  • a combination of predicate and term and case estimation may be performed using information such as a case frame dictionary, appearance frequency information in a large-scale corpus, a word cluster, and a unique expression dictionary. Good.
  • step S204 the natural sentence analysis unit 102 organizes the processing result in step S203, such as deleting any duplicate information, and generates a semantic expression.
  • the omitted information includes status information, case frame dictionary, appearance frequency information in a large corpus, word cluster, proper expression dictionary, etc. You may supplement by referring to the data.
  • the analysis process of the natural sentence analysis part 102 is complete
  • the semantic expression generated based on the predicate term structure may be in a format such as “predicate (case information: term)”, for example. Specifically, if the predicate term structure analysis is performed on the above word division result “air conditioner / on / stop / do”, the predicate “stop” and the term “wo case: air conditioner” can be obtained. The expression “stops (wo case: air conditioner)” is generated.
  • a semantic expression generated based on a noun / verb pair for example, a form such as “verb (noun)” may be used.
  • the semantic expression “stop (air conditioner)” is generated for the word division result “air conditioner / turn on / stop / do”.
  • the verb may be formed like “stop”, or the verb may be used as it is in the original natural sentence like “stop”.
  • a noun if there are a plurality of nouns related to the verb, they may be written in parentheses.
  • tags or words representing tense, aspect, voice, modality, polarity, frequency, degree, etc. may be further added to the semantic expression as information supplementing the meaning of the verb.
  • Tense is a tense (such as the past)
  • Aspect is a phase (completion, continuation, etc.)
  • Voice is a state (active, passive, etc.)
  • modality is the degree or question of facts such as guessing and assertion
  • attitude of utterances such as requests.
  • the polarity represents negation or affirmation
  • the frequency represents occasional or frequent
  • the degree represents a quantitative concept such as all or a little.
  • a tag or a word may be further added to the semantic expression based on a collection word (a word indicating a limitation such as “only” or “only”), a combined modifier, or the like.
  • a semantic expression using a concept class may be used instead of a predicate or a term.
  • the situation information 301 and the situation ID 302 corresponding to the situation information 301 are stored in advance in association with each other.
  • the status information 301 “No cooling” is associated with the status ID 302 “S1-Y”.
  • the additional symbol “Y” of the situation ID 302 indicates that it corresponds to the corresponding situation information 301, and the additional symbol “N” indicates that it does not correspond to the corresponding situation information 301.
  • intention information 303 and intention ID 304 corresponding to intention information 303 are stored in advance in association with each other. Specifically, intention information 303 “I want to turn on cooling” and intention ID 304 “I1” are associated with each other.
  • an intention ID 304, a situation ID 302, a semantic expression 305, and a value 306 are stored in advance in association with each other. It is assumed that the semantic expression 305 has the same format as the semantic expression generated by the natural sentence analysis unit 102. In this case, “case”, “wo” and “second” are assumed as case information, but other cases may be used as necessary in interpreting the meaning. Note that the semantic expression 305 in FIG. 3C stores an expression format corresponding to the semantic expression generated by the natural sentence analysis unit 102 that analyzes the input sentence.
  • the value 306 is a conditional probability value of the semantic expression 305 for the situation information 301 corresponding to the situation ID 302 and the intention information 303 corresponding to the intention ID 304.
  • a value calculated in advance may be used as the value 306. Any value may be used as long as it is a value related to the semantic expression for the intention information and the situation information. Note that “ ⁇ ” in the case information of the semantic expression indicates that there is no corresponding case information.
  • the term that could not be found may be specified as the symbol “ ⁇ ” representing the sky, such as the meaning expression “stop (ga case: ⁇ , wo case: air conditioner)”.
  • the term that was “ ⁇ ” may be supplemented by anaphora analysis or context analysis, and information supplemented by “you” or “system” may be filled in the case.
  • a combination of two types of intention IDs “I1” and “I2” and two types of status IDs 302 (S1, S2, S3), and (S1, S3), and a semantic expression 305 for these combinations And value 306 are associated.
  • the table shown in FIG. 3C stores the case where the additional symbol of the status ID 302 is “Y”. That is, in the table shown in FIG. 3C, the notation (S1 & S2 & S3) indicates (S1-Y & S2-Y & S3-Y).
  • an intention ID 304, a situation ID 302, and a value 401 are stored in advance in association with each other.
  • the value 401 is a conditional probability value of the intention information 303 corresponding to the intention ID 304 for the situation indicated by the situation information 301 corresponding to the situation ID 302.
  • a value calculated in advance may be used. Note that any value may be used as long as it is a value related to intention information with respect to the situation information.
  • intention ID 304 “I1”, situation ID 302 “(S1 & S2 & S3)” and value 401 “0.60” are stored in association with each other.
  • step S ⁇ b> 501 the intention understanding unit 106 acquires a semantic expression from the natural sentence analysis unit 102.
  • the semantic expression Mk is a natural number.
  • step S ⁇ b> 502 the intention understanding unit 106 acquires situation information from the situation acquisition unit 103.
  • the situation information is S q .
  • q is a natural number.
  • the value P 1 (first value) is acquired.
  • P 1 can be expressed as in equation (1).
  • P 2 can be expressed as in equation (2).
  • step S505 the intention understanding unit 106, it holds the intent model P 1 and P 2.
  • step S506 the intention understanding unit 106 calculates the intention model P Ii . More specifically, the intention model P Ii is calculated from P 1 and P 2 using the Bayes' theorem as shown in the following equations (3) and (4).
  • step S507 a value of P Ii (estimated value) and intention information I i (estimated intention information) are output based on the calculation result of step S506.
  • the process of the intent understanding part 106 is complete
  • step S507 it is assumed that a set of the obtained value of P Ii (estimated value) and intention information I i (estimated intention information) is output, but intention information I when P Ii is maximized. may output one i, the set may be plural outputs with the intention information I i and P Ii sequentially P Ii is large.
  • the second knowledge database 105 has the same value for each situation information S q . May be associated with each other. That is, the intention understanding unit 106 may calculate using the intention model of only P 1 and acquire the value of P Ii (estimated value) and the intention information I i (estimated intention information).
  • intention information having the highest likelihood of intention is output as estimated intention information.
  • a natural sentence “stop cooling” is acquired from the user.
  • the situation acquisition unit 103 acquires, as the situation information, information that can be determined as “cooling on”, “hot”, and “window closed”.
  • the natural sentence acquisition unit 101 acquires a natural sentence “stop cooling”.
  • the natural sentence analysis unit 102 performs a morphological analysis process and a dependency analysis process on the natural sentence “stop cooling”, and generates a second semantic expression “stop (cool): cooling” as a result. To do.
  • the intent understanding unit 106 refers to the first knowledge database 104, and the situation IDs corresponding to “cooled”, “hot”, and “window closed” as IDs corresponding to the second situation information, respectively. “S1-Y”, “S2-Y”, and “S3-Y” are acquired. Intention understanding unit 106, the first knowledge database 104, as P 1, the second status information "S1-Y”, “S2-Y” and “S3-Y 'and the second meaning representation” stop (wo number: Value corresponding to the first status information “(S1 & S2 & S3)” and the first semantic expression “stop (ga rating: ⁇ , wo rating: cooling, second rating: ⁇ )” Value). In the example of FIG.
  • the intention understanding unit 106 determines that the semantic expression 305 “stops (ga rating: ⁇ , wo rating: cooling, second rating: ⁇ )”, the intention ID 304 “I2”, and the situation ID 302 “(S1 & S2 & S3)”. The value 306 “0.13” corresponding to is acquired.
  • intention understanding unit 106 from the second knowledge database 105, as P 2, status ID "S1-Y", "S2-Y” and a value corresponding to the intended information I n for "S3-Y '(the (Binary).
  • the intention understanding unit 106 acquires a value 401 “0.60” corresponding to the situation ID 302 “(S1 & S2 & S3)” for the intention ID 304 “I1”.
  • the intention understanding unit 106 acquires a value 401 “0.001” corresponding to the situation ID 302 “(S1 & S2 & S3)” for the intention ID 304 “I2”.
  • a value obtained by multiplying a value initially obtained as P 1 by a predetermined value ⁇ may be a new value of P 1 .
  • the natural sentence analysis unit 102 “stops (gait: ⁇ , w “Case: Icon, D Case: ⁇ )”.
  • the intention understanding unit 106 calculates the reading similarity between the “air conditioner” registered in the first knowledge database 104 and the “icon” analyzed by the natural sentence analysis unit 102.
  • the distance calculation that “i” is inserted except “d” is made, and the reading similarity is determined to be distance 2.
  • the value ⁇ may be a value that changes according to the degree of similarity.
  • the semantic expression 305 has one predicate and one term. However, based on a synonym dictionary or the like, a plurality of predicates and terms having the same meaning are represented. The vocabulary may be expressed collectively.
  • Stop and stop can be considered as synonyms for “stop”, and therefore the first knowledge database 104 has “ ⁇ stop, stop, stop, stop” as a semantic expression including a plurality of synonyms.
  • Stop ⁇ (Wo: air conditioner) "may be stored together with a plurality of synonyms. In this way, even when natural sentences such as “stop the air conditioner”, “stop the air conditioner”, “stop the air conditioner” and “request to stop the air conditioner” are shaken, it can be processed uniquely. .
  • the intent understanding unit 106 can search the first knowledge database 104 for a perfectly matched semantic expression. If not, the semantic expression may be replaced with a broader word, and the first value corresponding to the replaced semantic expression may be acquired from the first knowledge database 104. For example, in the case where the term of the semantic expression is “cooling” and there is no semantic expression having “cooling” as a term in the first knowledge database 104, the term is replaced with “air conditioner” which is a broader term of “cooling”, and the term is searched. The first value corresponding to the semantic expression that is “air conditioner” may be acquired.
  • a reading pseudonym is stored together with a notation, and when there is no corresponding data when searching by notation, it means that the similarity of the reading pseudonym of the term or predicate is high.
  • a value corresponding to the expression may be acquired.
  • the natural sentence analysis part 102 may produce
  • the natural sentence analysis unit 102 performs the concept class analysis process (for example, meaning class) on the natural sentence in parallel with the morphological analysis process and the dependency analysis process in step S201 illustrated in FIG.
  • a concept class is acquired by class analysis processing and specific expression extraction processing.
  • a combination of a predicate and a term may be generated by combining a concept class with the obtained dependency analysis result.
  • a concept class may be added to the term word as necessary.
  • a concept class is obtained by performing concept class analysis processing on the term obtained in step S202, and if necessary, the term becomes a term.
  • a concept class may be given to it.
  • the meaning expression of the first knowledge database 104 is replaced with the expression “e-mail (d .: [person name])” using the concept class from the meaning of “e-mail (d .: ma)”. Or may be used for the result of step S201.
  • FIG. 6 shows the speech act included in the semantic expression.
  • FIG. 6 is a table in which the utterance action tag is associated with the content of the utterance action.
  • the utterance action indicates not the meaning content of the utterance but the attitude when the user utters.
  • the utterance action tag is a tag indicating the utterance action.
  • Examples of speech act tags include greetings, apologies, and questions.
  • the situation information described above is handled with two choices of whether a certain situation is occurring or not. That is, in the example of FIG. 3C, the situation where all of S1, S2 and S3 have occurred, and the situation where S1 and S3 have occurred and S2 has not occurred are treated. However, when estimating whether a certain situation is occurring or not, the possibility may come out with some value such as a probability. To handle situation information with two choices, It is desirable to set a threshold value, and it is even better if the value can be used as it is.
  • FIG. 7 shows a case where each situation information S q is various situations, and the situation information is represented by a certainty factor (probability) vector indicating the certainty of the situation.
  • the probability as the probability, exclusive elements that add up to zero may be included, and it is not necessary to add up the values to 1.
  • a vector element an element obtained by combining the elements may be added.
  • the intention of a natural sentence it is possible to prepare directly by estimating the intention of a natural sentence using a value indicating the degree to which the semantic expression corresponds to intention information and situation information. Estimate intentions for difficult utterances and situations. Therefore, the intention can be understood even for a user's free utterance, and a dialogue process in which the intention of a natural sentence is accurately estimated can be performed in subsequent processing such as a voice dialogue.
  • the second embodiment is different in that the situation information obtained by the situation information obtaining unit is collected from a plurality of viewpoints.
  • An intention understanding device 800 includes a natural sentence acquisition unit 101, a natural sentence analysis unit 102, a first knowledge database 104, a second knowledge database 105, an intention understanding unit 106, an output unit 107, and a dialog state analysis unit.
  • 801 also referred to as a second analysis unit
  • an environment information analysis unit 802 also referred to as a third analysis unit
  • a system status analysis unit 803 also referred to as a fourth analysis unit
  • a status database 804 also referred to as a status database 805.
  • the dialogue state analysis unit 801 analyzes dialogue history data such as a natural sentence input from the user and a response from the system to the natural sentence, and obtains an analysis result.
  • the analysis result for example, the analysis result obtained by converting the user's situation or the fact that occurred from the sentence in the conversation history into the situation information format may be used.
  • the dialogue history data may be acquired from an external dialogue processing server, for example.
  • the environment information analysis unit 802 analyzes a measurement result obtained by measuring the surrounding environment with a sensor. Specifically, temperature, humidity, volume, speed, angle, weight, etc. are measured by a sensor at a constant sampling interval, and an analysis result is obtained.
  • the analysis result obtained by the natural sentence acquisition unit 101 may be a value measured at the timing when the natural sentence acquisition unit 101 acquires the natural sentence.
  • the system status analysis unit 803 seems to the user that the information displayed by the system used by the user, the current state in which the system is controlled, what processing the system can perform, or what processing can be performed. Analyzing information about the system, such as whether or not, and obtaining an analysis result. Information about the system may be appropriately acquired from the outside, or may be given to the system status analysis unit 803 in advance.
  • the status database 804 receives and stores analysis results from the dialog status analysis unit 801, the environment information analysis unit 802, and the system status analysis unit 803, respectively.
  • the situation database 804 may store the situation ID shown in FIG. 3A, the numerical value of the vector in FIG.
  • the status acquisition unit 805 acquires an analysis result to be considered as the current status from the status database 804.
  • analysis result of the environment information analysis unit 802 and the analysis result of the system status analysis unit 803 may be used for the analysis processing in the dialog status analysis unit 801.
  • more accurate situation information can be acquired by referring to information stored in the situation database, so that more accurate intention understanding can be performed.
  • An intent understanding device will be described with reference to the block diagram of FIG.
  • An intention understanding device 900 according to the third embodiment is substantially the same as that of the first embodiment, but the natural sentence acquisition unit 101 includes an utterance acquisition unit 901 (also referred to as a third acquisition unit) and a voice recognition unit 902. The difference is that the output unit 107 includes a dialogue control unit 903, a response generation unit 904, and a speech synthesis unit 905.
  • the utterance acquisition unit 901 acquires the user's utterance as an audio signal.
  • the speech recognition unit 902 receives a speech signal from the utterance acquisition unit 901, performs speech recognition processing on the speech signal, and generates a natural sentence that is a speech recognition result.
  • the dialogue control unit 903 receives the estimated value and the estimated intention information from the intention understanding unit 106, and determines processing and response contents of the next dialogue system based on the estimated value and the estimated intention information.
  • the process of the dialog control unit 903 may be a dialog control process in a general dialog system, and a detailed description thereof is omitted here.
  • the response generation unit 904 receives the dialogue system processing and response contents from the dialogue control unit 903, and generates a response sentence that is a natural sentence based on the response contents.
  • the speech synthesis unit 905 receives the response sentence from the response generation unit 904, performs speech synthesis processing on the response sentence, and outputs a synthesized speech of the response sentence.
  • the intention understanding device 900 according to the third embodiment performs the same operation as the intention understanding device 100 according to the first embodiment, the description thereof is omitted here.
  • intention information can be generated accurately by the intention understanding unit, so that smoother conversation processing can be performed using a dialogue system and voice. Can do.
  • the instructions shown in the processing procedure shown in the above-described embodiment can be executed based on a program that is software.
  • a general-purpose computer system stores this program in advance and reads this program, so that it is possible to obtain the same effect as that obtained by the intention understanding device described above.
  • the instructions described in the above-described embodiments are, as programs that can be executed by a computer, magnetic disks (flexible disks, hard disks, etc.), optical disks (CD-ROM, CD-R, CD-RW, DVD-ROM, DVD). ⁇ R, DVD ⁇ RW, Blu-ray (registered trademark) Disc, etc.), semiconductor memory, or a similar recording medium.
  • the recording medium is readable by the computer or the embedded system, the storage format may be any form.
  • the computer reads the program from the recording medium and causes the CPU to execute instructions described in the program based on the program, the same operation as the intention understanding device of the above-described embodiment can be realized.
  • the computer acquires or reads the program, it may be acquired or read through a network.
  • the OS operating system
  • database management software database management software
  • MW middleware
  • a part of each process for performing may be executed.
  • the recording medium in the present embodiment is not limited to a medium independent of a computer or an embedded system, but also includes a recording medium in which a program transmitted via a LAN, the Internet, or the like is downloaded and stored or temporarily stored.
  • the number of recording media is not limited to one, and when the processing in this embodiment is executed from a plurality of media, it is included in the recording medium in this embodiment, and the configuration of the media may be any configuration.
  • the computer or the embedded system in the present embodiment is for executing each process in the present embodiment based on a program stored in a recording medium.
  • the computer or the embedded system includes a single device such as a personal computer or a microcomputer.
  • the system may be any configuration such as a system connected to the network.
  • the computer in this embodiment is not limited to a personal computer, but includes an arithmetic processing device, a microcomputer, and the like included in an information processing device, and is a generic term for devices and devices that can realize the functions in this embodiment by a program. ing.
  • 100, 800, 900 ... intention understanding device 101 ... natural sentence acquisition unit, 102 ... natural sentence analysis unit, 103, 805 ... situation acquisition unit, 104 ... first knowledge database, 105 ... Second knowledge database, 106 ... Intent understanding unit, 107 ... Output unit, 301 ... Situation information, 302 ... Situation ID, 303 ... Intention information, 304 ... Intention ID 305 ... Semantic expression 306, 401 ... Value 400 ... Table 801 ... Interactive situation analysis unit 802 ... Environment information analysis unit 803 ... System status analysis unit 804 ... situation database, 901 ... utterance acquisition unit, 902 ... speech recognition unit, 903 ... dialogue control unit, 904 ... response generation unit, 905 ... speech synthesis unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

 本実施形態に係る意図理解装置は、第1格納部、第1取得部、第2取得部、第1解析部および理解部を含む。第1格納部は、予め想定される状況に関する第1状況情報と、ユーザからの入力として想定される文の意味を表す第1意味表現と、推定すべき意図を示す意図情報と、該第1意味表現が該第1状況情報および該意図情報に対して該当する度合いを表す第1値とを対応付けて格納する.第1取得部は、自然文を取得する。第2取得部は、前記自然文を取得するときの状況に関する第2状況情報を取得する。第1解析部は、前記自然文を解析し、該自然文の意味を表す第2意味表現を生成する。理解部は、前記第1格納部から、前記第2状況情報と前記第2意味表現とに対応する第1状況情報と第1意味表現とに対応づく前記第1値から推定値を得る。

Description

意図理解装置、方法およびプログラム
 本発明の実施形態は、意図理解装置、方法およびプログラムに関する。
 近年、様々な対話システムが存在する。対話システムの処理としては、ユーザ発話を言語解析して発話理解を行い、発話理解の結果を用いて対話制御するのが一般的である。しかし、ユーザ発話は状況に応じて表現が変わることがあるため、言語解析だけでは発言の意図が分からない可能性がある。よって、発話された状況を考慮して発話の意図を推定する必要がある。
 従来技術としては、ユーザ発話として、特定の発話であるコマンドの認識結果である意図候補に対して、情報端末の周囲の環境情報(位置情報、交通状況、路面の状況など)に基づいて選択する手法がある。コマンド認識結果の認識率が低い場合は、環境情報のみから意図を推定し、コマンド認識結果の認識率が十分である場合は、環境情報およびコマンド認識結果から意図を推定する。
特開2006-317573号公報
 しかし、上述した従来技術では、ユーザ発話としてコマンド認識結果のみを想定している。よって、ユーザ発話のバリエーションが限定的となるので、ユーザの意図に関する条件付き確率P(意図|発話、状況)の確率表を予め用意することができる。しかし、ユーザ発話として話し言葉である自然文を想定する場合は、自然文のバリエーションが膨大であるため上述の確率表を用意することができず、結果として、推定したいユーザの意図を、システムが想定する意図の範囲に限定できない。よって、ユーザ発話の意図を理解ができないという問題がある。
 本開示は、上述の課題を解決するためになされたものであり、ユーザの自由な発話に対して意図を理解することができる意図理解装置、方法およびプログラムを提供することを目的とする。
 本実施形態に係る意図理解装置は、第1格納部、第1取得部、第2取得部、第1解析部および理解部を含む。第1格納部は、予め想定される状況に関する第1状況情報と、ユーザからの入力として想定される文の意味を表す第1意味表現と、推定すべき意図を示す意図情報と、該第1意味表現が該第1状況情報および該意図情報に対して該当する度合いを表す第1値とを対応付けて格納する.第1取得部は、自然文を取得する。第2取得部は、前記自然文を取得するときの状況に関する第2状況情報を取得する。第1解析部は、前記自然文を解析し、該自然文の意味を表す第2意味表現を生成する。理解部は、前記第1格納部から、前記第2状況情報と前記第2意味表現とに対応する第1状況情報と第1意味表現とに対応づく前記第1値から推定値を得る。
第1の実施形態に係る意図理解装置を示すブロック図。 自然文解析部の意味解析処理を示すフローチャート。 第1知識データベースに格納されるテーブルを示す図。 第1知識データベースに格納されるテーブルを示す図。 第1知識データベースに格納されるテーブルを示す図。 第2知識データベースに格納されるテーブルを示す図。 意図理解部の処理を示すフローチャート。 意味表現に含まれる発話行為に関するテーブルを示す図。 状況情報をベクトル形式で与えられる場合の一例を示す図。 第2の実施形態に係る意図理解装置を示すブロック図。 第3の実施形態に係る意図理解装置を示すブロック図。
 以下、図面を参照しながら本実施形態に係る意図理解装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
 (第1の実施形態) 
 第1の実施形態に係る意図理解装置について図1のブロック図を参照して説明する。 
 第1の実施形態に係る意図理解装置100は、自然文取得部101(第1取得部ともいう)、自然文解析部102(第1解析部ともいう)、状況取得部103(第2取得部ともいう)、第1知識データベース104(第1格納部ともいう)、第2知識データベース105(第2格納部ともいう)、意図理解部106および出力部107を含む。
 自然文取得部101は、自然文を取得する。自然文は、いわゆる話し言葉の文字列であり、ここではユーザの自由な発話から得られる文を想定する。なお、自然文に限らず、どのような文であっても同様に処理できる。
 自然文解析部102は、自然文取得部101から自然文を受け取り、自然文を解析して意味表現(第2意味表現ともいう)を生成する。意味表現は、自然文の意味を表す一形式である。なお、自然文解析部102は、自然文の内容に応じて、複数の意味表現を生成してもよい。
 状況取得部103は、自然文を取得するときの状況に関する状況情報(第2状況情報ともいう)を取得する。状況情報としては、例えば、温度センサー、湿度センサーによる計測値や、ユーザとの対話履歴を用いればよい。
 第1知識データベース104は、状況情報(第1状況情報ともいう)と、意図情報と、意味表現(第1意味表現ともいう)と、意味表現が状況情報および意図情報に対して該当する度合いを表す値(第1値ともいう)とをそれぞれ対応付けて、予め格納する。第1知識データベース104に格納される第1状況情報は、予め想定される状況に関する情報であり、第1意味表現は、ユーザからの入力として想定される文の意味を表す。意図情報は、推定すべき意図を示す情報であり、予めシステムで設定されていればよい。第1知識データベース104の詳細は、図3Aから図3Cを参照して後述する。
 第2知識データベース105は、第1状況情報と、意図情報と、意図情報が第1状況情報に対して該当する度合いを表す値(第2値ともいう)とをそれぞれ対応付けて、予め格納する。第2知識データベース105の詳細は、図4を参照して後述する。
 意図理解部106は、自然文解析部102から第2意味表現を、状況取得部103から第2状況情報をそれぞれ受け取る。意図理解部106は、第1知識データベース104から、第2状況情報と第2意味表現とに対応する、第1状況情報と第1意味表現とに対応づく第1値から推定値を得る。意図理解部106はまた、推定値に対応する意図情報を推定意図情報として得る。
 なお、第2知識データベース105から意図情報が第2状況情報に対して該当し得る第2値を取得し、第1値および第2値を用いて推定値を得てもよい。
 出力部107は、意図理解部106から推定値および推定意図情報を受け取り、推定値および推定意図情報を外部に出力する。
 次に、自然文解析部102の意味解析処理について図2のフローチャートを参照して説明する。 
 図2において生成される意味表現は、述語に対して1つ以上の項をとる形式である述語項構造に基づいて生成される場合を想定するが、意味表現が名詞と動詞との対に基づいて生成されてもよい。すなわち、自然文の意味を抽出できる手法であればどのような手法を用いてもよい。
 ステップS201では、自然文解析部102が、自然文取得部101から受け取った自然文に対し、形態素解析処理と係り受け解析処理とをそれぞれ行う。自然文解析部102は、形態素解析処理の結果として単語分割結果および単語の品詞を得、係り受け解析処理の結果として単語の係り受け関係を得る。
 ステップS202では、自然文解析部102が、単語分割結果、品詞および係り受け関係に基づいて、述語と項との組を生成する。述語は、動詞の他、形容詞、形容動詞などの活用がある語でもよいし、事態性名詞(例えば、サ変名詞)でもよい。また、項は、基本的には名詞であるが、動詞に対する修飾語として必要な要素であれば、名詞以外でもよい。なお、項が省略されているとして述語だけ生成されてもよいし、その逆でもよい。
 ステップS203では、自然文解析部102が、述語と項との組の意味内容に合致した格を推定し、格情報を付与する。格を推定する手法としては、例えば、元の自然文において述語に接続される元の助詞、述語の周辺情報、他の述語と項との組に関する助詞などを考慮しながら、現在の組の意味内容に合致した格を推定すればよく、一般的な推定方法を用いればよい。
 述語と項との組に付与される格は、表層格および深層格のどちらでもよい。 
 表層格は、表層的に決まる格であり、日本語では、格を推定する場合は表層格を推定する場合が多い。表層格として、例えば、ガ格(主格:nominative)、ヲ格(対格:accusative)、ニ格(与格:dative case)、カラ格、へ格、ト格、ヨリ格、マデ格およびデ格が挙げられ、述語と項との組に対して、これらの格が格情報として付与される。具体的には、「エアコン/を/停止/して」という単語分割結果があれば、述語「停止する」と項「エアコン」との組に対し、格情報として「ヲ格」が付与される。なお、英語の場合では、表層格として、主格、属格(所有格)、対格(目的格)を用いてもよい。
 深層格は、全ての言語に共通した文意を表現する格である。深層格として、動作主格、経験者格、道具格、対象格、厳選格、目標格、場所格、時間格が挙げられる。英語など日本語以外の言語の場合、述語と項との組に対して、深層格を付与する意味役割付与(セマンティックロールラベリング)を行う場合が多い。
 なお、ステップS203の処理において、格フレーム辞書、大規模コーパス中での出現頻度情報、単語クラスタおよび固有表現辞書などの情報を用いて、述語と項との組の生成、格推定を行ってもよい。
 また、各格に相当する語がない場合は空でもよいし、自然文に含まれない、状況に応じた語を類推して格情報として適用してもよい。
 ステップS204では、自然文解析部102が、ステップS203の処理結果に対し、重複する情報などがあれば削除するといった整理を行い、意味表現を生成する。なお、項および述語のどちらかが省略されている意味表現の場合は、省略されている情報を、状況情報、格フレーム辞書、大規模コーパス中での出現頻度情報、単語クラスタおよび固有表現辞書などのデータを参照して補完してもよい。以上で、自然文解析部102の解析処理を終了する。
 次に、自然文解析部102で生成される意味表現の具体例について説明する。 
 述語項構造に基づいて生成される意味表現は、例えば、「述語(格情報:項)」のような形式とすればよい。具体的には、上述の単語分割結果「エアコン/を/停止/して」に対して述語項構造解析すると、述語「停止する」、項「ヲ格:エアコン」を得ることができので、意味表現「停止する(ヲ格:エアコン)」が生成される。
 また、名詞と動詞との対に基づいて生成される意味表現としては、例えば「動詞(名詞)」のような形式とすればよい。具体的には、単語分割結果「エアコン/を/停止/して」に対して、意味表現「停止する(エアコン)」が生成される。なお、意味表現において「停止する」のように動詞を原形化してもよいし、「停止して」のように動詞を元の自然文の文体のまま用いてもよい。さらに、名詞の場合は、動詞に係る複数の名詞がある場合は括弧内に併記してもよい。
 述語項構造に基づいて生成される意味表現の場合は、述語(事態性名詞またはイベント性名詞も含む)の意味を補足する情報として、名詞と動詞との対に基づいて生成される意味表現の場合は、動詞の意味を補足する情報として、テンス、アスペクト、ヴォイス、モダリティ、極性、頻度、程度などを表すタグや語を、意味表現にさらに付加してもよい。 
 テンスとは、時制(過去など)であり、アスペクトとは相(完了や継続など)であり、ヴォイスとは態(能動態、受動態など)であり、モダリティとは推量、断定といった事実の程度や問いかけや依頼といった発話の態度など広く取り扱うものである。極性とは、否定または肯定を表し、頻度とは、時々または頻繁などを表し、程度とは、全てまたは少しなどの量的概念を表すものである。助動詞や副詞や時制表現などの組み合わせに基づいて、意味表現に付加すべき、上述の事項を示すタグが生成される。
 同様に、述語項構造に基づいて生成される意味表現の場合は、項の意味を補足する情報として、名詞と動詞との対に基づいて生成される意味表現の場合は、名詞の意味を補足する情報として、取り立て詞(「だけ」「のみ」といった限定などを示す語)、連体修飾語などに基づいて、タグや語を意味表現にさらに付加してもよい。 
 意味表現として、述語や項の代わりに、概念クラスを利用した意味表現にしてもよい。
 次に、第1知識データベース104の詳細について図3Aから図3Cまでを参照して説明する。 
 図3Aのテーブルには、状況情報301と状況情報301に対応する状況ID302とが対応付けられて予め格納される。具体的には、状況情報301「冷房がついていない」と状況ID302「S1-Y」とが対応付けられる。なお、状況ID302の付加記号「Y」は、対応する状況情報301に該当することを表し、付加記号「N」は、対応する状況情報301に該当しないことを表す。 
 図3Bのテーブルには、意図情報303と意図情報303に対応する意図ID304とが対応付けられて予め格納される。具体的には、意図情報303「冷房をつけたい」と意図ID304「I1」とが対応付けられる。
 図3Cのテーブルには、意図ID304、状況ID302、意味表現305および値306がそれぞれ対応付けられて予め格納される。 
 意味表現305は、自然文解析部102で生成される意味表現と同一の形式であるとする。ここでは、格情報として、「ガ格」、「ヲ格」および「二格」を想定するが、意味を解釈する上で必要に応じてその他の格を用いてもよい。 
 なお、図3Cの意味表現305には、入力文を解析する自然文解析部102で生成される意味表現に対応する表現形式のものが格納されている。
 値306は、ここでは、状況ID302に対応する状況情報301と意図ID304に対応する意図情報303とに対する意味表現305の条件付き確率の値である。値306は、予め計算した値を用いればよい。なお、意図情報と状況情報とに対する意味表現に関する値であれば、どのような値を用いてもよい。なお、意味表現の格情報における「φ」は、該当する格情報がないことを表す。
 また、意味表現「停止する(ガ格:φ、ヲ格:エアコン)」のように、見つからなかった項を空を表す記号「φ」として明記してもよいし、文の直接解析した結果では「φ」だった項について、照応解析や文脈解析により補完してガ格に「あなた」や「システム」など補った情報を埋めておいてもよい。
 図3Cの例では、意図ID304が「I1」、「I2」の2種類と、状況ID302(S1,S2,S3)、(S1,S3)の2種類との組み合わせ、これらの組み合わせに対する意味表現305および値306が対応付けられる。なお、簡略化のため、図3Cに示すテーブルでは、状況ID302の付加記号が「Y」の場合について格納する。すなわち、図3Cに示すテーブルにおいて、(S1&S2&S3)という表記であれば、(S1-Y&S2-Y&S3-Y)であることを示す。
 次に、第2知識データベース105に格納されるテーブルについて図4を参照して説明する。 
 図4に示すテーブル400には、意図ID304、状況ID302および値401がそれぞれ対応付けられて予め格納される。値401は、状況ID302に対応する状況情報301が示す状況に対する意図ID304に対応する意図情報303の条件付き確率の値である。値401は、予め計算した値を用いればよい。なお、状況情報に対する意図情報に関する値であれば、どのような値を用いてもよい。
 例えば、意図ID304「I1」、状況ID302「(S1&S2&S3)」および値401「0.60」が対応付けられて格納される。
 次に、意図理解部106の処理について図5のフローチャートを参照して説明する。 
 ステップS501では、意図理解部106が、自然文解析部102から意味表現を取得する。ここでは、意味表現Mとする。なお、kは自然数とする。
 ステップS502では、意図理解部106が、状況取得部103から状況情報を取得する。ここでは、状況情報Sとする。なお、qは自然数とする。
 ステップS503では、意図理解部106が、第1知識データベース104を参照して、意図情報I={I,I,... ,I}と状況情報Sとに対する意味表現Mの値P(第1値)を取得する。Pは、(1)式のように表せる。
Figure JPOXMLDOC01-appb-M000001
 ステップS504では、意図理解部106が、第2知識データベース105を参照して、状況情報Sに対する意図情報I={I,I,... ,I}の値P(第2値)を取得する。Pは、(2)式のように表せる。
Figure JPOXMLDOC01-appb-M000002
 ステップS505では、意図理解部106が、PとPとの意図モデルを保持する。 
 ステップS506では、意図理解部106が、意図モデルPIiを計算する。具体的には、ベイズの定理などを用いて、PおよびPから意図モデルPIiを以下の式(3)および式(4)のように計算する。
Figure JPOXMLDOC01-appb-M000003
 ステップS507では、ステップS506の計算結果により、PIiの値(推定値)と意図情報I(推定意図情報)とを出力する。以上で意図理解部106の処理を終了する。
 意図理解部106の処理により、状況情報Sのときに入力された自然文の意味表現がMのとき、どのような意図情報Iが尤もらしいかが求めたい情報であり、(3)式により得られる情報である。但し、直接(3)式を計算することは困難であるため、(4)式を用いてP×Pを計算することにより、尤もらしい意図情報Iを推定することができる。 
 なお、ステップS507においては、得られるPIiの値(推定値)と意図情報I(推定意図情報)との組を出力する場合を想定するが、PIiが最大となるときの意図情報Iを1つ出力してもよいし、PIiが大きい順に意図情報IとPIiとの組を複数個出力してもよい。
 また、全ての意図がどのような状況でも起こりうると想定される場合、Pが常に一定であるとして、(4)式を(5)式のように近似してもよい。
Figure JPOXMLDOC01-appb-M000004
 さらに、P(M|I,S)の値が状況情報Sによらず不変であると想定される場合は、第2知識データベース105において、各状況情報Sに対して同一の値を対応付けてもよい。つまり、意図理解部106は、Pのみの意図モデルを用いて計算し、PIiの値(推定値)と意図情報I(推定意図情報)とを取得してもよい。
 次に、意図理解装置100の動作について、具体例を用いて説明する。ここでは、意図の尤度が最も高い意図情報を推定意図情報として出力すると想定する。 
 ユーザから「冷房を停止して」という自然文を取得する場合を想定する。また、自然文の取得時において、状況取得部103が、状況情報として、「冷房がついている」、「暑い」および「窓が閉まっている」と判定できる情報を取得したと想定する。
 自然文取得部101は、「冷房を停止して」という自然文を取得する。 
 自然文解析部102は、「冷房を停止して」という自然文に対し、形態素解析処理および係り受け解析処理を行い、結果として、第2意味表現「停止する(ヲ格:冷房)」を生成する。
 意図理解部106は、第1知識データベース104を参照して、第2状況情報に対応するIDとして、「冷房がついている」、「暑い」および「窓が閉まっている」にそれぞれ対応する状況ID「S1-Y」、「S2-Y」および「S3-Y」を取得する。
意図理解部106は、第1知識データベース104から、Pとして、第2状況情報「S1-Y」、「S2-Y」および「S3-Y」と第2意味表現「停止する(ヲ格:冷房)」とに対応する、第1状況情報「(S1&S2&S3)」と第1意味表現「停止する(ガ格:φ、ヲ格:冷房、二格:φ)」とに対応づく値(第1値)を取得する。 
 図3Cの例では、意図理解部106は、意味表現305「停止する(ガ格:φ、ヲ格:冷房、二格:φ)」と意図ID304「I2」と状況ID302「(S1&S2&S3)」とに対応する値306「0.13」を取得する。
 続いて、意図理解部106は、第2知識データベース105から、Pとして、状況ID「S1-Y」、「S2-Y」および「S3-Y」に対する意図情報Iに対応する値(第2値)を取得する。 
 図4の例では、意図理解部106は、意図ID304「I1」について、状況ID302「(S1&S2&S3)」に対応する値401「0.60」を取得する。また、意図理解部106は、意図ID304「I2」について、状況ID302「(S1&S2&S3)」に対応する値401「0.001」を取得する。
 意図理解部106は、意図ID「I1」、「I2」のそれぞれについて、(4)式に基づいて計算する。意図情報I1についてはPが0なので「0」が得られ、意図情報I2については、状況ID302「(S1&S2&S3)」について値401「0.13×0.01=0.0013」が得られる。
 よって、意図理解部106は、推定値「0.001」と、意図ID「I」に対応する推定意図情報「冷房を停止したい」を得ることができる。
 なお、Pの値を取得する際に、単純に一致する意味表現があるかだけでなく、第1知識データベース104に登録されている表現と読みとが類似する表現の場合は、類似度を考慮してもよい。例えば、Pとして最初に得られる値に事前に決めた値αを乗算した値を、新たなPの値としてもよい。
 具体的には、自然文取得部101で取得した自然文が「エアコンを止めて」ではなく「アイコンを止めて」であった場合、自然文解析部102が「止める(ガ格:φ、ヲ格:アイコン、ニ格:φ)」と解析したとする。意図理解部106は、第1知識データベース104に登録される「エアコン」と自然文解析部102で解析された「アイコン」との読み類似度を計算する。ここでは、「エ」を除いて「イ」が挿入されたという距離計算をして、読み類似度を距離2と判定する。 
 よって、「止める(ガ格:φ、ヲ格:冷房、ニ格:φ)」のPの値に例えばα=0.1を掛けて出力するといった処理を行ってもよい。なお、値αは、類似度に応じて変化する値でもよい。
 上述の第1知識データベース104の例では、意味表現305として、述語および項がそれぞれ1つの場合を想定するが、同義語辞書などに基づき、同じ意味を有する述語および項の表現に対して、複数の語彙をまとめて表現してもよい。
 例えば、「停止する」の同義語として「止める」、「ストップする」が考えられるので、第1知識データベース104は、複数の同義語を含む意味表現として「{停止する、止める、ストップする、停止、ストップ}(ヲ格:エアコン)」のように複数の同義語を併記したものを格納してもよい。このようにすることで、「エアコンを停止して」、「エアコン停止」、「エアコンの停止」および「エアコンの停止お願い」といった自然文に揺れがある場合でも、一義的に処理することができる。 
 また、自然文が入力される際の解析時に、同義語辞書などに基づき意味表現として複数の語彙を用意しておき、第1知識データベース104から完全一致する意味表現を検索できなかった場合に、同義語により意味表現を置き換え、置き換えた意味表現で再度第1知識データベース104を検索して、第1知識データベース104から意味表現に対応する第1値を取得してもよい。
 さらに、発話が入力された際の解析時に、上位下位概念辞書に基づき意味表現として複数の語彙に展開しておき、意図理解部106が、第1知識データベース104から完全一致する意味表現を検索できなかった場合に、上位語により意味表現を置き換え、置き換えた意味表現に対応する第1値を第1知識データベース104から取得してもよい。例えば意味表現の項が「冷房」の場合に、第1知識データベース104に「冷房」を項とする意味表現がない場合、「冷房」の上位語である「エアコン」に置き換えて検索し、項が「エアコン」である意味表現に対応する第1値を取得してもよい。
 なお、第1知識データベース104の意味表現として、表記に加え読み仮名も合わせて格納し、表記で検索した場合に該当するデータがないときは、項または述語の読み仮名の類似度が高いも意味表現に対応する値を取得してもよい。
 また、自然文解析部102は、同義語辞書および上位下位概念辞書に限らず、概念クラスを用いて意味表現を生成してもよい。 
 意味表現として概念クラスを用いる場合、自然文解析部102は、図2に示すステップS201において、自然文に対し、形態素解析処理および係り受け解析処理と並行して、概念クラス解析処理(例えば、意味クラス解析処理、固有表現抽出処理)により概念クラスを取得する。続くステップS202では、得られた係り受け解析結果に概念クラスを組み合わせて、述語と項との組を生成してもよい。このとき、必要に応じて、項となる語に対し概念クラスが付加されればよい。 
 なお、ステップS201の段階ではなく、ステップS202において、ステップS202の処理で得られた項に対して、概念クラス解析処理を行うことで概念クラスを取得し、必要に応じて、項となる語に対して概念クラスが付与されてもよい。
 例えば、「メールする(ニ格:ママ)」という意味表現から概念クラスを利用して、「メールする(ニ格:[人名])」といった表現に置き換えたものを第1知識データベース104の意味表現として保持したり、ステップS201の結果に使ってもよい。
 また、意味表現として、発話行為に関する情報を含んでもよい。意味表現に含まれる発話行為について図6に示す。 
 図6は、発話行為タグと発話行為の内容とを対応付けたテーブルである。発話行為は、発話した意味内容ではなく、ユーザが発話する際の態度を示す。発話行為タグは、発話行為を示すタグである。発話行為タグとしては、例えば、挨拶、謝罪、質問が挙げられる。後段の処理において発話行為タグを参照することで、より高精度に発話の意図を理解することができる。
 また、上述した状況情報は、ある状況が起きているか起きていないかという2択で扱うことを想定している。すなわち、図3Cの例ではS1、S2およびS3のすべてが起こっているという状況と、S1とS3とが起こり、S2は起きていないという状況として扱う。 
 しかし、ある状況が起きているか起きていないかを推定する際に、その可能性が確率などの何らかの値で出ることもあり、状況情報を2択で扱うには、出てきた値に対して閾値を設定するのが望ましく、その値をそのまま利用することができればなおよい。
 状況情報がベクトル形式で与えられる場合の一例を図7に示す。図7は、各状況情報Sを様々な状況として、状況情報が、それらの状況の確からしさを示す確信度(確率)のベクトルで表される場合を示す。このベクトルでは、確率として、値を合計してゼロになるような排他的な要素が含まれていてもよいし、値を合計して1になる必要はないものとする。また、ベクトルの要素として、各要素を組み合わせた要素が加えられてもよい。
 また、状況情報がベクトル形式である場合における意図モデルの計算式は、(6)式のように書き換えることができる。
Figure JPOXMLDOC01-appb-M000005
 以上に示した第1の実施形態によれば、意味表現が意図情報と状況情報とに対して該当する度合いを表す値を用いて、自然文の意図を推定することで、直接用意することが困難な発話と状況とに対する意図を推定できる。よって、ユーザの自由な発話に対しても意図を理解することができ、音声対話などの後段の処理においても、精度よく自然文の意図を推定した対話処理を行うことができる。
 (第2の実施形態) 
 第2の実施形態では、状況情報取得部が取得する状況情報を、複数の観点から収集する構成を有する点が異なる。
 第2の実施形態に係る意図理解装置について図8のブロック図を参照して説明する。 
 第2の実施形態に係る意図理解装置800は、自然文取得部101、自然文解析部102、第1知識データベース104、第2知識データベース105、意図理解部106、出力部107、対話状況解析部801(第2解析部ともいう)、環境情報解析部802(第3解析部ともいう)、システム状況解析部803(第4解析部ともいう)、状況データベース804および状況取得部805を含む。
 自然文取得部101、自然文解析部102、第1知識データベース104、第2知識データベース105、意図理解部106および出力部107については同様の処理を行うので、ここでの説明は省略する。
 対話状況解析部801は、ユーザから入力される自然文および自然文に対するシステムからの応答などの対話履歴データを解析し、解析結果を得る。解析結果としては、例えば、対話履歴中の文から分かるユーザの状況や起こった事実のほか文脈などを状況情報の形式に変換したものを解析結果とすればよい。対話履歴データは、例えば外部の対話処理サーバから取得すればよい。
 環境情報解析部802は、周囲の環境をセンサーで計測した計測結果を解析する。具体的には、センサーにより、温度、湿度、音量、速度、角度、重量などを一定のサンプリング間隔で計測し、解析結果を得る。なお、自然文取得部101で得られる解析結果は、自然文取得部101が自然文を取得したタイミングで計測した値でもよい。
 システム状況解析部803は、ユーザが利用するシステムが表示した情報、システムが制御された現在の状態、システムがどのような処理を実行できるか、またはどのような処理が実行できるとユーザに思われているか、といったシステムに関する情報を解析し、解析結果を得る。システムに関する情報は、外部から適宜取得するようにしてもよいし、予めシステム状況解析部803に与えられてもよい。
 状況データベース804は、対話状況解析部801、環境情報解析部802およびシステム状況解析部803から解析結果をそれぞれ受け取って格納する。状況データベース804は、図3Aに示す状況ID、図7のベクトルの数値などを解析結果として格納してもよい。
 状況取得部805は、状況データベース804から現在の状況として考慮すべき解析結果を取得する。
 なお、対話状況解析部801での解析処理に、環境情報解析部802の解析結果およびシステム状況解析部803の解析結果を用いてもよい。
 以上に示した第2の実施形態によれば、状況データベースに蓄積される情報を参照することにより、より正確な状況情報を取得することができるので、より正確な意図理解を行うことができる。
 (第3の実施形態) 
 第3の実施形態では、ユーザと意図理解装置とが音声対話を行う場合を想定する。
 第3の実施形態に係る意図理解装置について図9のブロック図を参照して説明する。 
 第3の実施形態に係る意図理解装置900は、第1の実施形態とほぼ同様であるが、自然文取得部101が、発話取得部901(第3取得部ともいう)および音声認識部902を含み、出力部107が、対話制御部903、応答生成部904および音声合成部905を含む点が異なる。
 発話取得部901は、ユーザの発話を音声信号として取得する。
 音声認識部902は、発話取得部901から音声信号を受け取り、音声信号に対して音声認識処理を行い、音声認識結果となる自然文を生成する。
 対話制御部903は、意図理解部106から推定値および推定意図情報を受け取り、推定値および推定意図情報に基づいて、次の対話システムの処理および応答内容を決定する。なお、対話制御部903の処理は、一般的な対話システムにおける対話制御処理であればよく、ここでの詳細な説明は省略する。
 応答生成部904は、対話制御部903から対話システムの処理及び応答内容を受け取り、応答内容に基づく自然文である応答文を生成する。
 音声合成部905は、応答生成部904から応答文を受け取り、応答文について音声合成処理を行い、応答文の合成音声を出力する。
 第3の実施形態に係る意図理解装置900は、第1の実施形態に係る意図理解装置100と同様の動作を行うので、ここでの説明は省略する。
 以上に示した第3の実施形態によれば、ユーザは自由な発話を行っても、意図理解部によって正確に意図情報を生成できるので、対話システムと音声により、より円滑な対話処理を行うことができる。
 上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した意図理解装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、Blu-ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の意図理解装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。 
 また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。 
 さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。 
 また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
 なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。 
 また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
 本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,800,900・・・意図理解装置、101・・・自然文取得部、102・・・自然文解析部、103,805・・・状況取得部、104・・・第1知識データベース、105・・・第2知識データベース、106・・・意図理解部、107・・・出力部、301・・・状況情報、302・・・状況ID、303・・・意図情報、304・・・意図ID、305・・・意味表現、306,401・・・値、400・・・テーブル、801・・・対話状況解析部、802・・・環境情報解析部、803・・・システム状況解析部、804・・・状況データベース、901・・・発話取得部、902・・・音声認識部、903・・・対話制御部、904・・・応答生成部、905・・・音声合成部。

Claims (17)

  1.  予め想定される状況に関する第1状況情報と、ユーザからの入力として想定される文の意味を表す第1意味表現と、推定すべき意図を示す意図情報と、該第1意味表現が該第1状況情報および該意図情報に対して該当する度合いを表す第1値とを対応付けて格納する第1格納部と、
     自然文を取得する第1取得部と、
     前記自然文を取得するときの状況に関する第2状況情報を取得する第2取得部と、
     前記自然文を解析し、該自然文の意味を表す第2意味表現を生成する第1解析部と、
     前記第1格納部から、前記第2状況情報と前記第2意味表現とに対応する第1状況情報と第1意味表現とに対応づく前記第1値から推定値を得る理解部と、を具備することを特徴とする意図理解装置。
  2.  前記理解部は、前記第1格納部から、前記推定値に対応付けられる意図情報を推定意図情報として取得することを特徴とする請求項1に記載の意図理解装置。
  3.  前記推定値および前記推定意図情報を用いて、前記ユーザへの応答内容を決定する制御部と、
     前記応答内容に基づいて応答文を生成する生成部と、をさらに具備することを特徴とする請求項2に記載の意図理解装置。
  4.  前記応答文を音声合成し、合成音声を生成する音声合成部をさらに具備することを特徴とする請求項3に記載の意図理解装置。
  5.  前記ユーザからの発話を取得する第3取得部と、
     前記発話を音声認識し、前記自然文を生成する音声認識部と、をさらに具備することを特徴とする請求項1から請求項4のいずれか1項に記載の意図理解装置。
  6.  前記第1状況情報と、前記意図情報と、該意図情報が該第1状況情報に対して該当する度合いを表す第2値とを対応付けて格納する第2格納部をさらに具備することを特徴とする請求項1から請求項5のいずれか1項に記載の意図理解装置。
  7.  前記理解部は、前記第1格納部を参照して、前記意図情報ごとに前記第2状況情報と前記第2意味表現とを用いて第1モデルを生成し、前記第2格納部を参照して、前記意図情報ごとに該第2状況情報を用いて第2モデルを生成し、該第1モデルおよび該第2モデルを用いて前記推定値を計算することを特徴とする請求項6に記載の意図理解装置。
  8.  前記ユーザとの対話履歴を解析する第2解析部と、
     前記ユーザの周囲の状況を計測して解析する第3解析部と、
     前記ユーザが利用するシステムの機能および状態を解析する第4解析部と、をさらに具備し、
     前記第2取得部は、前記第2解析部、前記第3解析部および前記第4解析部の少なくともいずれか1つの解析結果を前記第2状況情報として取得することを特徴とする請求項1から請求項7のいずれか1項に記載の意図理解装置。
  9.  前記第1意味表現および前記第2意味表現は、名詞と動詞との対または述語項構造に基づいて生成されることを特徴とする請求項1から請求項8のいずれか1項に記載の意図理解装置。
  10.  前記第1意味表現および前記第2意味表現は、前記ユーザが発話する際の態度である発話行為に関する情報を含むことを特徴とする請求項1から請求項9のいずれか1項に記載の意図理解装置。
  11.  前記第1意味表現および前記第2意味表現は、語の意味を補足する情報を含むことを特徴とする請求項1から請求項9のいずれか1項に記載の意図理解装置。
  12.  前記第2状況情報は、複数の状況のそれぞれの確からしさを示す確信度のベクトルで表されることを特徴とする請求項1から請求項11のいずれか1項に記載の意図理解装置。
  13.  前記第1解析部は、複数の第2意味表現を生成することを特徴とする請求項1から請求項12のいずれか1項に記載の意図理解装置。
  14.  前記第1格納部は、同義語辞書または同一の概念のまとまりである概念クラスを用いた第1意味表現を格納することを特徴とする請求項1から請求項13のいずれか1項に記載の意図理解装置。
  15.  前記第1解析部は、前記概念クラスを含む第2意味表現を生成することを特徴とする請求項14に記載の意図理解装置。
  16.  予め想定される状況に関する第1状況情報と、ユーザからの入力として想定される文の意味を表す第1意味表現と、推定すべき意図を示す意図情報と、該第1意味表現が該第1状況情報および該意図情報に対して該当する度合いを表す第1値とを対応付けて第1格納部に格納し、
     自然文を取得し、
     前記自然文を取得するときの状況に関する第2状況情報を取得し、
     前記自然文を解析し、該自然文の意味を表す第2意味表現を生成し、
     前記第1格納部から、前記第2状況情報と前記第2意味表現とに対応する第1状況情報と第1意味表現とに対応づく前記第1値から推定値を得ることを特徴とする意図理解方法。
  17.  コンピュータを、
     予め想定される状況に関する第1状況情報と、ユーザからの入力として想定される文の意味を表す第1意味表現と、推定すべき意図を示す意図情報と、該第1意味表現が該第1状況情報および該意図情報に対して該当する度合いを表す第1値とを対応付けて格納する第1格納手段と、
     自然文を取得する第1取得手段と、
     前記自然文を取得するときの状況に関する第2状況情報を取得する第2取得手段と、
     前記自然文を解析し、該自然文の意味を表す第2意味表現を生成する第1解析手段と、
     前記第1格納手段から、前記第2状況情報と前記第2意味表現とに対応する第1状況情報と第1意味表現とに対応づく前記第1値から推定値を得る理解手段として機能させるための意図理解プログラム。
PCT/JP2015/058565 2015-03-20 2015-03-20 意図理解装置、方法およびプログラム WO2016151700A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017507166A JP6310150B2 (ja) 2015-03-20 2015-03-20 意図理解装置、方法およびプログラム
PCT/JP2015/058565 WO2016151700A1 (ja) 2015-03-20 2015-03-20 意図理解装置、方法およびプログラム
US15/433,316 US10360903B2 (en) 2015-03-20 2017-02-15 Spoken language understanding apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/058565 WO2016151700A1 (ja) 2015-03-20 2015-03-20 意図理解装置、方法およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/433,316 Continuation US10360903B2 (en) 2015-03-20 2017-02-15 Spoken language understanding apparatus, method, and program

Publications (1)

Publication Number Publication Date
WO2016151700A1 true WO2016151700A1 (ja) 2016-09-29

Family

ID=56979061

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/058565 WO2016151700A1 (ja) 2015-03-20 2015-03-20 意図理解装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US10360903B2 (ja)
JP (1) JP6310150B2 (ja)
WO (1) WO2016151700A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019030949A (ja) * 2017-08-09 2019-02-28 日本電信電話株式会社 ロボット制御装置、ロボット制御方法およびロボット制御プログラム
CN109800407A (zh) * 2017-11-15 2019-05-24 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
WO2019189489A1 (ja) * 2018-03-27 2019-10-03 日本電信電話株式会社 応答文生成装置、応答文生成方法、およびプログラム
CN111581361A (zh) * 2020-04-22 2020-08-25 腾讯科技(深圳)有限公司 一种意图识别方法及装置
JP2020134745A (ja) * 2019-02-21 2020-08-31 富士ゼロックス株式会社 情報処理装置及びプログラム
KR20210086436A (ko) * 2019-12-27 2021-07-08 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 질의 응답 처리 방법, 장치, 전자 기기 및 저장 매체
JP6954549B1 (ja) * 2021-06-15 2021-10-27 ソプラ株式会社 エンティティとインテントとコーパスの自動生成装置及びプログラム
JP2022500726A (ja) * 2018-09-27 2022-01-04 セールスフォース ドット コム インコーポレイティッド タスク指向型対話のためのグローバル−ローカルメモリポインタネットワーク

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6621776B2 (ja) * 2017-03-22 2019-12-18 株式会社東芝 検証システム、検証方法及びプログラム
JP2019008570A (ja) * 2017-06-26 2019-01-17 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
CN107240398B (zh) * 2017-07-04 2020-11-17 科大讯飞股份有限公司 智能语音交互方法及装置
US11023684B1 (en) * 2018-03-19 2021-06-01 Educational Testing Service Systems and methods for automatic generation of questions from text
CN109388802B (zh) * 2018-10-11 2022-11-25 北京轮子科技有限公司 一种基于深度学习的语义理解方法和装置
CN109325239A (zh) * 2018-11-05 2019-02-12 北京智启蓝墨信息技术有限公司 学生课堂表现管理方法及系统
JP7276448B2 (ja) * 2019-06-18 2023-05-18 日本電信電話株式会社 言語処理装置、言語処理方法及び言語処理プログラム
CN113157893B (zh) * 2021-05-25 2023-12-15 网易(杭州)网络有限公司 多轮对话中意图识别的方法、介质、装置和计算设备
CN113343713B (zh) * 2021-06-30 2022-06-17 中国平安人寿保险股份有限公司 意图识别方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001209662A (ja) * 2000-01-25 2001-08-03 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
JP2006503328A (ja) * 2002-10-16 2006-01-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ディレクトリアシスタント方法及び装置
JP2006163631A (ja) * 2004-12-03 2006-06-22 Csk Holdings Corp 自然言語解析装置、自然言語解析方法、及び、自然言語解析プログラム
JP2006317573A (ja) * 2005-05-11 2006-11-24 Xanavi Informatics Corp 情報端末
JP2007148118A (ja) * 2005-11-29 2007-06-14 Infocom Corp 音声対話システム
JP2013073355A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 対話支援装置、方法及びプログラム

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4156080B2 (ja) * 1998-06-30 2008-09-24 株式会社デンソー 要求推定装置
JP2000020520A (ja) 1998-07-07 2000-01-21 Keiichi Kato 言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体方法
US20020198714A1 (en) * 2001-06-26 2002-12-26 Guojun Zhou Statistical spoken dialog system
US8190436B2 (en) * 2001-12-07 2012-05-29 At&T Intellectual Property Ii, L.P. System and method of spoken language understanding in human computer dialogs
JP2005149329A (ja) 2003-11-18 2005-06-09 Fuji Xerox Co Ltd 意図抽出支援装置およびこれを用いた操作性評価システムならびにこれらに用いられるプログラム
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US9495358B2 (en) * 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US8510467B2 (en) * 2007-01-11 2013-08-13 Ept Innovation Monitoring a message associated with an action
JP4715805B2 (ja) * 2007-05-10 2011-07-06 トヨタ自動車株式会社 車載情報検索装置
JP2010034695A (ja) 2008-07-25 2010-02-12 Toshiba Corp 音声応答装置及び方法
US8290989B2 (en) * 2008-11-12 2012-10-16 Sap Ag Data model optimization
US8504374B2 (en) * 2009-02-02 2013-08-06 Jerry Lee Potter Method for recognizing and interpreting patterns in noisy data sequences
WO2011083571A1 (ja) 2010-01-06 2011-07-14 株式会社東芝 情報検索装置、情報検索方法、および情報検索プログラム
KR101178310B1 (ko) * 2011-02-24 2012-08-29 포항공과대학교 산학협력단 대화 관리 방법 및 이를 실행하는 시스템
US20120330869A1 (en) * 2011-06-25 2012-12-27 Jayson Theordore Durham Mental Model Elicitation Device (MMED) Methods and Apparatus
US9495331B2 (en) * 2011-09-19 2016-11-15 Personetics Technologies Ltd. Advanced system and method for automated-context-aware-dialog with human users
KR101850026B1 (ko) 2011-11-07 2018-04-24 한국전자통신연구원 음성 인식 단문 메시지 서비스 기반의 사용자 맞춤 광고 장치, 및 음성 인식 단문 메시지 서비스 기반의 사용자 맞춤 광고 노출 방법
EP2639792A1 (en) * 2012-03-16 2013-09-18 France Télécom Voice control of applications by associating user input with action-context idendifier pairs
US10096316B2 (en) * 2013-11-27 2018-10-09 Sri International Sharing intents to provide virtual assistance in a multi-person dialog
US20150314454A1 (en) * 2013-03-15 2015-11-05 JIBO, Inc. Apparatus and methods for providing a persistent companion device
US20170206064A1 (en) * 2013-03-15 2017-07-20 JIBO, Inc. Persistent companion device configuration and deployment platform
US10079013B2 (en) * 2013-11-27 2018-09-18 Sri International Sharing intents to provide virtual assistance in a multi-person dialog
US9633004B2 (en) * 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9582496B2 (en) * 2014-11-03 2017-02-28 International Business Machines Corporation Facilitating a meeting using graphical text analysis
US9911412B2 (en) * 2015-03-06 2018-03-06 Nuance Communications, Inc. Evidence-based natural language input recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001209662A (ja) * 2000-01-25 2001-08-03 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
JP2006503328A (ja) * 2002-10-16 2006-01-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ディレクトリアシスタント方法及び装置
JP2006163631A (ja) * 2004-12-03 2006-06-22 Csk Holdings Corp 自然言語解析装置、自然言語解析方法、及び、自然言語解析プログラム
JP2006317573A (ja) * 2005-05-11 2006-11-24 Xanavi Informatics Corp 情報端末
JP2007148118A (ja) * 2005-11-29 2007-06-14 Infocom Corp 音声対話システム
JP2013073355A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 対話支援装置、方法及びプログラム

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019030949A (ja) * 2017-08-09 2019-02-28 日本電信電話株式会社 ロボット制御装置、ロボット制御方法およびロボット制御プログラム
CN109800407B (zh) * 2017-11-15 2021-11-16 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
CN109800407A (zh) * 2017-11-15 2019-05-24 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
US11429784B2 (en) 2018-03-27 2022-08-30 Nippon Telegraph And Telephone Corporation Response sentence generation device, response sentence generation method, and program
JP2019175011A (ja) * 2018-03-27 2019-10-10 日本電信電話株式会社 応答文生成装置、応答文生成方法、およびプログラム
JP7073839B2 (ja) 2018-03-27 2022-05-24 日本電信電話株式会社 応答文生成装置、応答文生成方法、およびプログラム
WO2019189489A1 (ja) * 2018-03-27 2019-10-03 日本電信電話株式会社 応答文生成装置、応答文生成方法、およびプログラム
JP7209806B6 (ja) 2018-09-27 2023-02-28 セールスフォース インコーポレイテッド タスク指向型対話のためのグローバル-ローカルメモリポインタネットワーク
JP2022500726A (ja) * 2018-09-27 2022-01-04 セールスフォース ドット コム インコーポレイティッド タスク指向型対話のためのグローバル−ローカルメモリポインタネットワーク
JP7209806B2 (ja) 2018-09-27 2023-01-20 セールスフォース ドット コム インコーポレイティッド タスク指向型対話のためのグローバル-ローカルメモリポインタネットワーク
JP2020134745A (ja) * 2019-02-21 2020-08-31 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7334420B2 (ja) 2019-02-21 2023-08-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
KR20210086436A (ko) * 2019-12-27 2021-07-08 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 질의 응답 처리 방법, 장치, 전자 기기 및 저장 매체
KR102431232B1 (ko) 2019-12-27 2022-08-10 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 질의 응답 처리 방법, 장치, 전자 기기 및 저장 매체
CN111581361A (zh) * 2020-04-22 2020-08-25 腾讯科技(深圳)有限公司 一种意图识别方法及装置
CN111581361B (zh) * 2020-04-22 2023-09-15 腾讯科技(深圳)有限公司 一种意图识别方法及装置
JP6954549B1 (ja) * 2021-06-15 2021-10-27 ソプラ株式会社 エンティティとインテントとコーパスの自動生成装置及びプログラム
JP2022190845A (ja) * 2021-06-15 2022-12-27 ソプラ株式会社 エンティティとインテントとコーパスの自動生成装置及びプログラム
WO2022264435A1 (ja) * 2021-06-15 2022-12-22 ソプラ株式会社 エンティティとインテントとコーパスの自動生成装置及びプログラム

Also Published As

Publication number Publication date
US20170162190A1 (en) 2017-06-08
JP6310150B2 (ja) 2018-04-11
US10360903B2 (en) 2019-07-23
JPWO2016151700A1 (ja) 2017-07-06

Similar Documents

Publication Publication Date Title
JP6310150B2 (ja) 意図理解装置、方法およびプログラム
US5930746A (en) Parsing and translating natural language sentences automatically
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
JP2004355483A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
van Esch et al. Future directions in technological support for language documentation
JP2017125921A (ja) 発話選択装置、方法、及びプログラム
JP7400112B2 (ja) 自動音声認識のための英数字列のバイアス付加
Deepak et al. An artificially intelligent approach for automatic speech processing based on triune ontology and adaptive tribonacci deep neural networks
KR20170008357A (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
JP4653598B2 (ja) 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
SG193995A1 (en) A method, an apparatus and a computer-readable medium for indexing a document for document retrieval
CN113362809B (zh) 语音识别方法、装置和电子设备
Donaj et al. Context-dependent factored language models
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP4646078B2 (ja) 相互に関係する固有表現の組抽出装置及びその方法
JP2011008373A (ja) 自然言語処理装置及びプログラム
JP7115187B2 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15886257

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017507166

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15886257

Country of ref document: EP

Kind code of ref document: A1