CN105096942A - 语义分析方法和装置 - Google Patents

语义分析方法和装置 Download PDF

Info

Publication number
CN105096942A
CN105096942A CN201410138246.5A CN201410138246A CN105096942A CN 105096942 A CN105096942 A CN 105096942A CN 201410138246 A CN201410138246 A CN 201410138246A CN 105096942 A CN105096942 A CN 105096942A
Authority
CN
China
Prior art keywords
word
center
training
context
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410138246.5A
Other languages
English (en)
Inventor
金贵
赵祎
王力劭
赵峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN VCYBER TECHNOLOGY Co Ltd
Tsinghua University
Original Assignee
SHENZHEN VCYBER TECHNOLOGY Co Ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN VCYBER TECHNOLOGY Co Ltd, Tsinghua University filed Critical SHENZHEN VCYBER TECHNOLOGY Co Ltd
Priority to CN201410138246.5A priority Critical patent/CN105096942A/zh
Publication of CN105096942A publication Critical patent/CN105096942A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种语义分析方法和装置,涉及语言处理技术。为解决现有技术易造成信息丢失的问题而发明。本发明实施例提供的技术方案包括:对用户输入语音对应的文本进行分词,得到L个词语,所述L≥1;分别获取所述L个词语的特性;根据所述特性分别确定所述L个词语包含的信息量,并从所述L个词语中选取包含信息量多的至少一个词语作为中心词语;分别以所述中心词语为中心做窗口,确定所述中心词语的上下文词语;将所述上下文词语与预先训练得到的语义模型进行匹配,得到匹配结果;根据所述匹配结果分析语义。该方案可以应用在导航、订票、天气查询、酒店预订等领域。

Description

语义分析方法和装置
技术领域
本发明涉及自然语言处理技术,尤其涉及一种语义分析方法和装置。
背景技术
近年来,语音识别技术的发展较大程度的提高了人机交互水平,而语义分析技术作为理解自然语言的关键部分,对于人机交互的智能化程度起到了决定性作用。
现有的语义分析方法包括:对句子进行分词,得到M个词语;分别对M个词语进行语义角色标注,寻找并定位该句子中的谓语;对该谓语的施与者和接受者进行标注,得到句子的语义。
然而,当句子中包含多个信息时,由于仅对谓语的施与者和接受者进行标注以确定句子的语义,使得无法标注句子中的其他重要信息,易造成信息丢失。此外,当句子为口语化语句时,语义分析过程中可能无法寻找到句子中的谓语,进而难以实现语义分析。
发明内容
本发明的实施例提供一种语义分析方法和装置,能够分析句子包含的多个信息。
为达到上述目的,本发明的实施例采用如下技术方案:
一种语义分析方法,包括:对用户输入语音对应的文本进行分词,得到L个词语,所述L≥1;分别获取所述L个词语的特性;根据所述特性分别确定所述L个词语包含的信息量,并从所述L个词语中选取包含信息量多的至少一个词语作为中心词语;分别以所述中心词语为中心做窗口,确定所述中心词语的上下文词语;将所述上下文词语与预先训练得到的语义模型进行匹配,得到匹配结果;根据所述匹配结果分析语义。
一种语义分析装置,包括:
第一分词模块,用于对用户输入语音对应的文本进行分词,得到L个词语,所述L≥1;
第一标注模块,与所述第一分词模块相连,用于分别获取所述第一分词模块得到的L个词语的特性;
第一中心词语选取模块,与所述第一分词模块和所述第一标注模块相连,用于根据所述第一标注模块标注的特性分别确定所述L个词语包含的信息量,并从所述L个词语中选取包含信息量多的至少一个词语作为中心词语;
第一上下文获取模块,与所述第一中心词语选取模块相连,用于分别以所述第一中心词语选取模块选取的中心词语为中心做窗口,确定所述中心词语的上下文词语;
模型匹配模块,与所述第一上下文获取模块相连,用于将所述第一上下文获取模块得到的上下文词语与预先训练得到的语义模型进行匹配,得到匹配结果;
语义分析模块,与所述模型匹配模块相连,用于根据所述模型匹配模块得到的匹配结果分析语义。
本发明实施例提供的语义分析方法和装置,由于将包含信息量多的至少一个词语作为中心词语,并做窗口分别确定中心词语的上下文词语,使得该方案能够标注句子中信息量较大的信息,从而实现重要信息的语义分析;该方案解决了现有技术中当句子中包含多个信息时,由于仅对谓语的施与者和接受者进行标注以确定句子的语义,使得无法标注句子中的其他重要信息,易造成信息丢失的问题。此外,由于根据中心词语进行语义分析,无需考虑句子的句法,使得本发明实施例提供的方案能够实现没有谓语的口语化语句的语义分析;解决了现有技术中当句子为口语化语句时,语义分析过程中可能无法寻找到句子中的谓语,进而难以实现语义分析的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的语义分析方法的流程图;
图2为本发明实施例二提供的语义分析方法的流程图一;
图3为本发明实施例二提供的语义分析方法的流程图二;
图4为本发明实施例三提供的语义分析装置的结构示意图一;
图5为本发明实施例三提供的语义分析装置的结构示意图二;
图6为本发明实施例三提供的语义分析装置的结构示意图三;
图7为图6所示的语义分析装置中概率统计模块的结构示意图;
图8为图4所示的语义分析装置中第一上下文获取模块的结构示意图一;
图9为图4所示的语义分析装置中第一上下文获取模块的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决现有技术易造成信息丢失的问题,本发明提供一种语义分析方法和装置。
实施例一:
如图1所示,本发明实施例提供的语义分析方法,包括:
步骤101,对用户输入语音对应的文本进行分词,得到L个词语。
在本实施例中,可以首先对用户输入语音进行语音识别,将用户输入语音转换为文本。其中,可以采用HTK/ATK工具对用户输入语音进行语音识别;也可以采用非特定人语音识别方式对用户输入语音进行语音识别,在此不作限制。通过上述方式对用户输入语音进行语音识别后,可以输出多候选的识别结果,并且可以确定每个识别结果对应的置信度。其中,通过步骤101分词得到的L个词语,该L≥1。
在本实施例中,用户输入语音为汉语时,可以采用汉语分词系统,如ICTCLAS等对用户输入语音对应的文本进行分词;用户输入语音为其他语言时,可以采用该语言对应的分词系统进行分词,在此不再一一赘述。
步骤102,分别获取该L个词语的特性。
在本实施例中,可以通过预设的标注规则对该L个词语进行标注,从而获取该L个词语的特性。该预设的标注规则可以根据需要进行在全领域范围内设置;预设的标注规则也可以与用户输入语音所属的使用领域对应,可以根据需要预先设置。以使用领域为订票系统为例,标注规则可以包括:人名、地名、航空公司、舱位、时间/日期、数字、形容词、副词、语气词、助词、连词等;对于其他使用领域,标注规则可以根据该使用领域相应的情况制定,在此不再一一赘述。
在本实施例中,也可以通过其他方式获取该L个词语的特性。该特性可以反应词语特有的的词性、代表意义等命名实体特征。
步骤103,根据该特性分别确定该L个词语包含的信息量,并从L个词语中选取包含信息量多的至少一个词语作为中心词语。
在本实施例中,不同特性的词语包含的信息多少不同,为了便于衡量,可以预设每种特性对应的信息量;从而当通过步骤102获取L个词语的特性后,可以直接根据特性分别确定L个词语包含的信息量。以使用领域为订票系统为例,信息量大的词语可以为名词和副词;如“从北京到上海最便宜的机票是什么时间”,这类问话中往往谓语只是一些系动词(“是”,“有”),代表意思仅仅希望获取信息,而名词“北京”、“上海”,以及程度副词短语“最便宜”才是系统需要识别理解的。
在本实施例中,可以设置信息量门限,把包含信息量多于该门限的所有词语都作为中心词语;也可以设置中心词语个数门限,把包含信息量最多的门限个数个词语都作为中心词语;还可以通过其他方式从L个词语中选取包含信息量多的至少一个词语作为中心词语,在此不再一一赘述。
步骤104,分别以该中心词语为中心做窗口,确定该中心词语的上下文词语。
在本实施例中,步骤104确定中心词语的上下文词语的过程,可以包括:以L个词语中第一个中心词语为中心,预设个数的上下文词语做窗口,确定该第一个中心词语的上下文词语;L个词语中中心词语的个数大于1时,该窗口滑动到第二个中心词语,确定该第二个中心词语的上下文词语后,再次滑动窗口,直至L个词语中最后一个中心词语。
在本实施例中,为了防止口语性词汇造成语义分析的不准确,步骤104中确定该中心词语的上下文词语,可以包括:根据窗口获取中心词语的上文词语和下文词语;判断该上文词语和下文词语是否为非口语性词汇;如果是,根据该上文词语和下文词语确定中心词语的上下文词语。特别的,如果中心词语的上文词语或下文词语为口语性词汇,可以跳过口语性词汇的上文词语或下文词语,直至非口语性词汇的词语,并根据非口语性词汇的词语确定中心词语的上下文词语。
步骤105,将该上下文词语与预先训练得到的语义模型进行匹配,得到匹配结果。
步骤106,根据匹配结果分析语义。
在本实施例中,预先训练得到的语义模型可以包括中心词语及上下文词语包括的内容,以及该内容对应的语义。因此,当通过步骤105得到匹配结果时,可以直接根据匹配结果对应的语义进行语义分析。
本发明实施例提供的语义分析方法,由于将包含信息量多的至少一个词语作为中心词语,并做窗口分别确定中心词语的上下文词语,使得该方案能够标注句子中信息量较大的信息,从而实现重要信息的语义分析;该方案解决了现有技术中当句子中包含多个信息时,由于仅对谓语的施与者和接受者进行标注以确定句子的语义,使得无法标注句子中的其他重要信息,易造成信息丢失的问题。此外,由于根据中心词语进行语义分析,无需考虑句子的句法,使得本发明实施例提供的方案能够实现没有谓语的口语化语句的语义分析;解决了现有技术中当句子为口语化语句时,语义分析过程中可能无法寻找到句子中的谓语,进而难以实现语义分析的问题。
实施例二:
如图2所示,本发明实施例提供的语义分析方法,包括:
步骤201,对用户输入语音对应的文本进行分词,得到L个词语。该步骤与图1所示的步骤101相似,在此不再一一赘述。
步骤202,获取用户输入语音所涉及的使用领域。
在本实施例中,可以通过对话的方式获取用户输入语音所涉及的使用领域;也可以根据用户输入语音中的关键词获取用户输入语音所涉及的使用领域,还可以通过其他方式获取,在此不再一一赘述。
步骤203,根据该使用领域分别获取该L个词语的特性。
在本实施例中,可以通过预设的使用领域对应的标注规则对该L个词语进行标注,从而获取该L个词语的特性。以使用领域为订票系统为例,标注规则可以包括:人名、地名、航空公司、舱位、时间/日期、数字、形容词、副词、语气词、助词、连词等;对于其他使用领域,标注规则可以根据该使用领域相应的情况制定,在此不再一一赘述。
步骤204,根据使用领域和特性确定L个词语包含的信息量,并从该L个词语中选取包含信息量多的至少一个词语作为中心词语。该步骤与图1所示的步骤103相似,在此不再一一赘述。
步骤205至步骤207,确定中心词语的上下文词语,并与语义模型进行匹配,根据匹配结果分析语义。该过程与图1所示的步骤104至步骤106相似,在此不再一一赘述。
进一步的,如图3所示,本实施例中语义分析方法还可以包括:
步骤208,获取预设的训练语句集和该训练语句集中每个训练语句的语义。
步骤209,分别对训练语句集中每个训练语句进行分词,得到每个训练语句包含的训练词语后,获取每个训练词语的特性。
在本实施例中,当训练语句集为汉语时,可以采用汉语分词系统,如ICTCLAS等对用户输入语音对应的文本进行分词;训练语句集为其他语言时,可以采用该语言对应的分词系统进行分词,在此不再一一赘述。步骤209中获取每个训练词语的特性的过程,与步骤203相似,在此不再一一赘述。
步骤210,根据每个训练词语的特性分别确定每个训练词语包含的信息量,并选取包含信息量多的至少一个训练词语作为中心训练词语。
步骤211,分别统计每个中心训练词语的上下文训练词语出现的概率。
在本实施例中,步骤211可以分别统计每个中心训练词语的上下文训练词语同时出现的概率。为解决上下文词语同时出现进行统计数据的稀疏严重的问题,步骤211也可以分别统计每个中心训练词语的上下文训练词语分别出现的概率。其中,分别统计上下文训练词语分别出现的概率的公式可以如下所示:
p + = p ( c + 1 | c ) = p ( c , c + 1 ) p ( c )
p - = p ( c - 1 | c ) = p ( c , c - 1 ) p ( c )
其中,p+代表下文训练词语出现的概率,p-1代表上文训练词语出现的概率。
在本实施例中,为了防止上下文词语中口语性词汇较多,影响用户模型的建立。步骤211可以首先判断每个中心训练词语的上下文训练词语是否为非口语性词汇;如果是,分别统计每个中心训练词语的上下文训练词语出现的概率。特别的,如果中心训练词语的上文训练词语或下文训练词语为口语性词汇,可以跳过口语性词汇的上文训练词语或下文训练词语,直至非口语性词汇的训练词语,并分别统计非口语性词汇的训练词语的概率。
为了有效解决用户话语中的口语化问题,分别统计上文训练词语和下文训练词语出现的概率的公式可以如下所示:
p + = max W p ( c o + [ W / 2 ] . . . c o + 2 c o + 1 | c o ) = p ( c o c o + 1 c o + 2 . . . c o + [ W / 2 ] ) p ( c o )
p - = max W p ( c o - [ W / 2 ] . . . c o - 2 c o - 1 | c o ) = p ( c o c o - 1 c o - 2 . . . c o - [ W / 2 ] ) p ( c o )
其中,o代表中心训练词语的位置,o+代表下文训练词语,o-代表上文训练词语。
步骤212,根据统计得到的概率和每个语句的语义生成语义模型。
在本实施例中,通过上述过程建立语义模型后,可以根据实验测试结果进行手动调整,从而提高该语义模型的匹配效率。
在本实施例中,当语义分析过程如图1所示时,语义模型的生成过程可以与步骤208至步骤212提供的相似,在此不再一一赘述。
本发明实施例提供的语义分析方法,由于将包含信息量多的至少一个词语作为中心词语,并做窗口分别确定中心词语的上下文词语,使得该方案能够标注句子中信息量较大的信息,从而实现重要信息的语义分析;该方案解决了现有技术中当句子中包含多个信息时,由于仅对谓语的施与者和接受者进行标注以确定句子的语义,使得无法标注句子中的其他重要信息,易造成信息丢失的问题。此外,由于根据中心词语进行语义分析,无需考虑句子的句法,使得本发明实施例提供的方案能够实现没有谓语的口语化语句的语义分析;解决了现有技术中当句子为口语化语句时,语义分析过程中可能无法寻找到句子中的谓语,进而难以实现语义分析的问题。
实施例三:
如图4所示,本发明实施例提供的语义分析装置,包括:
第一分词模块401,用于对用户输入语音对应的文本进行分词,得到L个词语,L≥1;
第一标注模块402,与第一分词模块相连,用于分别获取第一分词模块得到的L个词语的特性;
第一中心词语选取模块403,与第一分词模块和第一标注模块相连,用于根据第一标注模块标注的特性分别确定L个词语包含的信息量,并从L个词语中选取包含信息量多的至少一个词语作为中心词语;
第一上下文获取模块404,与第一中心词语选取模块相连,用于分别以第一中心词语选取模块选取的中心词语为中心做窗口,确定中心词语的上下文词语;
模型匹配模块405,与第一上下文获取模块相连,用于将第一上下文获取模块得到的上下文词语与预先训练得到的语义模型进行匹配,得到匹配结果;
语义分析模块406,与模型匹配模块相连,用于根据模型匹配模块得到的匹配结果分析语义。
在本实施例中,通过第一分词模块401至语义分析模块406实现语义分析的过程,与本发明实施例一提供的过程相似,在此不再一一赘述。
进一步的,如图5所示,本实施例中语义分析装置还可以包括:
领域获取模块407,用于获取用户输入语音所涉及的使用领域;
此时,第一标注模块402,还与领域获取模块相连,还用于根据使用领域分别获取L个词语的特性;
第一中心词语选取模块403,还与领域获取模块相连,还用于根据使用领域和特性确定L个词语包含的信息量,并从L个词语中选取包含信息量多的至少一个词语作为中心词语。
在本实施例中,语义分析装置还包含领域获取模块407时,语义分析得过程,与图2所示的相似,在此不再一一赘述。
进一步的,如图6所示,该语义分析装置,还可以包括:
语句集获取模块408,用于获取预设的训练语句集和所述训练语句集中每个训练语句的语义;
第二分词模块409,与语句集获取模块相连,用于分别对语句集获取模块获取的训练语句集中每个训练语句进行分词,得到每个训练语句包含的训练词语后,获取每个训练词语的特性;
第二中心词语选取模块410,与第二分词模块相连,用于根据第二标注模块标注的每个训练词语的特性分别确定每个训练词语包含的信息量,并选取包含信息量多的至少一个训练词语作为中心训练词语;
概率统计模块411,与第二中心词语选取模块相连,用于分别统计第二中心词语选取模块选取的每个中心训练词语的上下文训练词语出现的概率;
模型建立模块412,与概率统计模块和模型匹配模块相连,用于根据概率统计模块统计得到的概率和每个训练语句的语义生成所述语义模型。
在本实施例中,语义分析装置包含语句集获取模块408至模型建立模块412时,实现语义分析的过程与图3所示的相似,在此不再一一赘述。当语义分析装置还包括领域获取模块407时,语义分析装置的结构域图6所示的相似,在此不再一一赘述。
其中,如图7所示,概率统计模块411,可以包括:
第二判断子模块4111,用于判断每个中心训练词语的上下文训练词语是否为非口语性词汇;
统计子模块4112,与第二判断子模块相连,用于如果第二判断子模块确定每个中心训练词语的上下文训练词语是非口语性词汇,分别统计每个中心训练词语的上下文训练词语出现的概率。
该概率统计模块411,可以包括:第一统计子模块或第二统计子模块。其中,第一统计子模块,用于分别统计每个中心训练词语的上下文训练词语同时出现的概率;第二统计子模块,用于分别统计每个中心训练词语的上下文训练词语分别出现的概率。
进一步的,如图8所示,本实施例中第一上下文获取模块404,包括:
初始获取子模块4041,用于以L个词语中第一个中心词语为中心,预设个数的上下文词语做窗口,确定第一个中心词语的上下文词语;
滑动获取子模块4042,与初始获取子模块相连,用于L个词语中中心词语的个数大于1时,窗口滑动到第二个中心词语,确定第二个中心词语的上下文词语后,再次滑动窗口,直至L个词语中的最后一个中心词语。
在本实施例中,通过初始获取子模块4041和滑动获取子模块4042实现中心词语确定的过程,与图1所示的步骤104相似,在此不再一一赘述。
进一步的,如图9所示,本实施例中第一上下文获取模块404,还可以包括:
上下文获取子模块4043,用于根据窗口获取中心词语的上文词语和下文词语;
第一判断子模块4044,与上下文获取子模块相连,用于判断上下文获取子模块获取的上文词语和下文词语是否为非口语性词汇;
上下文确定子模块4045,与第一判断子模块相连,用于如果第一判断子模块确定上下文获取子模块获取的上文词语和下文词语为非口语性词汇,根据上下文获取子模块获取的上文词语和下文词语确定中心词语的上下文词语。
在本实施例中,通过上下文获取子模块4043、第一判断子模块4044和上下文确定子模块4045实现中心词语的确定的过程,与图1所示的步骤104相似,在此不再一一赘述。
本发明实施例提供的语义分析装置,由于将包含信息量多的至少一个词语作为中心词语,并做窗口分别确定中心词语的上下文词语,使得该方案能够标注句子中信息量较大的信息,从而实现重要信息的语义分析;该方案解决了现有技术中当句子中包含多个信息时,由于仅对谓语的施与者和接受者进行标注以确定句子的语义,使得无法标注句子中的其他重要信息,易造成信息丢失的问题。此外,由于根据中心词语进行语义分析,无需考虑句子的句法,使得本发明实施例提供的方案能够实现没有谓语的口语化语句的语义分析;解决了现有技术中当句子为口语化语句时,语义分析过程中可能无法寻找到句子中的谓语,进而难以实现语义分析的问题。
本发明实施例提供的语义分析方法和装置,可以用于导航、订票、天气查询、酒店预订等领域。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种语义分析方法,其特征在于,包括:
对用户输入语音对应的文本进行分词,得到L个词语,所述L≥1;
分别获取所述L个词语的特性;
根据所述特性分别确定所述L个词语包含的信息量,并从所述L个词语中选取包含信息量多的至少一个词语作为中心词语;
分别以所述中心词语为中心做窗口,确定所述中心词语的上下文词语;
将所述上下文词语与预先训练得到的语义模型进行匹配,得到匹配结果;
根据所述匹配结果分析语义。
2.根据权利要求1所述的语义分析方法,其特征在于,所述方法还包括:
获取所述用户输入语音所涉及的使用领域;
所述分别获取所述L个词语的特性,包括:根据所述使用领域分别获取所述L个词语的特性;
所述根据所述特性分别确定所述L个词语包含的信息量,包括:根据所述使用领域和所述特性分别确定所述L个词语包含的信息量。
3.根据权利要求1或2所述的语义分析方法,其特征在于,所述分别以所述中心词语为中心做窗口,确定所述中心词语的上下文词语,包括:
以所述L个词语中第一个中心词语为中心,预设个数的上下文词语做窗口,确定所述第一个中心词语的上下文词语;
所述L个词语中中心词语的个数大于1时,所述窗口滑动到第二个中心词语,确定所述第二个中心词语的上下文词语后,再次滑动窗口,直至所述L个词语中的最后一个中心词语。
4.根据权利要求1或2所述的语义分析方法,其特征在于,所述确定所述中心词语的上下文词语,包括:
根据所述窗口获取所述中心词语的上文词语和下文词语;
判断所述上文词语和下文词语是否为非口语性词汇;
如果是,根据所述上文词语和下文词语确定所述中心词语的上下文词语。
5.根据权利要求1或2所述的语义分析方法,其特征在于,所述方法还包括:
获取预设的训练语句集和所述训练语句集中每个训练语句的语义;
分别对所述训练语句集中每个训练语句进行分词,得到每个训练语句包含的训练词语后,获取每个训练词语的特性;
根据所述每个训练词语的特性分别确定每个训练词语包含的信息量,并选取包含信息量多的至少一个训练词语作为中心训练词语;
分别统计每个中心训练词语的上下文训练词语出现的概率;
根据统计得到的概率和所述每个训练语句的语义生成所述语义模型。
6.根据权利要求5所述的语义分析方法,其特征在于,所述分别统计每个中心训练词语的上下文训练词语出现的概率,包括:
分别统计每个中心训练词语的上下文训练词语同时出现的概率;或者
分别统计每个中心训练词语的上下文训练词语分别出现的概率。
7.根据权利要求5所述的语义分析方法,其特征在于,所述分别统计每个中心训练词语的上下文训练词语出现的概率,包括:
判断所述每个中心训练词语的上下文训练词语是否为非口语性词汇;
如果是,分别统计每个中心训练词语的上下文训练词语出现的概率。
8.一种语义分析装置,其特征在于,包括:
第一分词模块,用于对用户输入语音对应的文本进行分词,得到L个词语,所述L≥1;
第一标注模块,与所述第一分词模块相连,用于分别获取所述第一分词模块得到的L个词语的特性;
第一中心词语选取模块,与所述第一分词模块和所述第一标注模块相连,用于根据所述第一标注模块标注的特性分别确定所述L个词语包含的信息量,并从所述L个词语中选取包含信息量多的至少一个词语作为中心词语;
第一上下文获取模块,与所述第一中心词语选取模块相连,用于分别以所述第一中心词语选取模块选取的中心词语为中心做窗口,确定所述中心词语的上下文词语;
模型匹配模块,与所述第一上下文获取模块相连,用于将所述第一上下文获取模块得到的上下文词语与预先训练得到的语义模型进行匹配,得到匹配结果;
语义分析模块,与所述模型匹配模块相连,用于根据所述模型匹配模块得到的匹配结果分析语义。
9.根据权利要求8所述的语义分析装置,其特征在于,所述装置还包括:
领域获取模块,用于获取所述用户输入语音所涉及的使用领域;
所述第一标注模块,还与所述领域获取模块相连,还用于根据所述使用领域分别获取所述L个词语的特性;
所述第一中心词语选取模块,还与所述领域获取模块相连,还用于根据所述使用领域和所述特性确定所述L个词语包含的信息量,并从所述L个词语中选取包含信息量多的至少一个词语作为中心词语。
10.根据权利要求8或9所述的语义分析装置,其特征在于,所述第一上下文获取模块,包括:
初始获取子模块,用于以所述L个词语中第一个中心词语为中心,预设个数的上下文词语做窗口,确定所述第一个中心词语的上下文词语;
滑动获取子模块,与所述初始获取子模块相连,用于所述L个词语中中心词语的个数大于1时,所述窗口滑动到第二个中心词语,确定所述第二个中心词语的上下文词语后,再次滑动窗口,直至所述L个词语中的最后一个中心词语。
11.根据权利要求8或9所述的语义分析装置,其特征在于,所述第一上下文获取模块,包括:
上下文获取子模块,用于根据所述窗口获取所述中心词语的上文词语和下文词语;
第一判断子模块,与所述上下文获取子模块相连,用于判断所述上下文获取子模块获取的上文词语和下文词语是否为非口语性词汇;
上下文确定子模块,与所述第一判断子模块相连,用于如果所述第一判断子模块确定所述上下文获取子模块获取的上文词语和下文词语为非口语性词汇,根据所述上下文获取子模块获取的上文词语和下文词语确定所述中心词语的上下文词语。
12.根据权利要求8或9所述的语义分析装置,其特征在于,所述装置还包括:
语句集获取模块,用于获取预设的训练语句集和所述训练语句集中每个训练语句的语义;
第二分词模块,与所述语句集获取模块相连,用于分别对所述语句集获取模块获取的训练语句集中每个训练语句进行分词,得到每个训练语句包含的训练词语后,获取每个训练词语的特性;
第二中心词语选取模块,与所述第二分词模块相连,用于根据所述第二标注模块标注的每个训练词语的特性分别确定每个训练词语包含的信息量,并选取包含信息量多的至少一个训练词语作为中心训练词语;
概率统计模块,与所述第二中心词语选取模块相连,用于分别统计第二中心词语选取模块选取的每个中心训练词语的上下文训练词语出现的概率;
模型建立模块,与所述概率统计模块和所述模型匹配模块相连,用于根据所述概率统计模块统计得到的概率和所述每个训练语句的语义生成所述语义模型。
13.根据权利要求12所述的语义分析装置,其特征在于,所述概率统计模块,包括:第一统计子模块或第二统计子模块;
所述第一统计子模块,用于分别统计每个中心训练词语的上下文训练词语同时出现的概率;
所述第二统计子模块,用于分别统计每个中心训练词语的上下文训练词语分别出现的概率。
14.根据权利要求12所述的语义分析装置,其特征在于,概率统计模块,包括:
第二判断子模块,用于判断所述每个中心训练词语的上下文训练词语是否为非口语性词汇;
统计子模块,与所述第二判断子模块相连,用于如果所述第二判断子模块确定所述每个中心训练词语的上下文训练词语是非口语性词汇,分别统计每个中心训练词语的上下文训练词语出现的概率。
CN201410138246.5A 2014-05-21 2014-05-21 语义分析方法和装置 Pending CN105096942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410138246.5A CN105096942A (zh) 2014-05-21 2014-05-21 语义分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410138246.5A CN105096942A (zh) 2014-05-21 2014-05-21 语义分析方法和装置

Publications (1)

Publication Number Publication Date
CN105096942A true CN105096942A (zh) 2015-11-25

Family

ID=54577228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410138246.5A Pending CN105096942A (zh) 2014-05-21 2014-05-21 语义分析方法和装置

Country Status (1)

Country Link
CN (1) CN105096942A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512105A (zh) * 2015-12-07 2016-04-20 百度在线网络技术(北京)有限公司 语义解析方法和装置
CN106294666A (zh) * 2016-08-04 2017-01-04 上海汽笛生网络科技有限公司 一种实现文本形象化动态展示的方法
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN108829757A (zh) * 2018-05-28 2018-11-16 广州麦优网络科技有限公司 一种聊天机器人的智能服务方法、服务器及存储介质
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
CN109033082A (zh) * 2018-07-19 2018-12-18 深圳创维数字技术有限公司 语义模型的学习训练方法、装置及计算机可读存储介质
CN109446527A (zh) * 2018-10-26 2019-03-08 广东小天才科技有限公司 一种无意义语料的分析方法及系统
CN109840320A (zh) * 2017-11-28 2019-06-04 微软技术许可有限责任公司 文本的定制化处理
CN110188327A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 文本去口语化方法及装置
CN110377905A (zh) * 2019-06-28 2019-10-25 北京百度网讯科技有限公司 语句的语义表示处理方法及装置、计算机设备及可读介质
CN111506705A (zh) * 2020-04-13 2020-08-07 北京奇艺世纪科技有限公司 一种信息查询方法、装置及电子设备
CN112071304A (zh) * 2020-09-08 2020-12-11 深圳市天维大数据技术有限公司 一种语意分析方法及装置
WO2022022049A1 (zh) * 2020-07-27 2022-02-03 平安科技(深圳)有限公司 文本长难句的压缩方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070033005A1 (en) * 2005-08-05 2007-02-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
CN101178705A (zh) * 2007-12-13 2008-05-14 中国电信股份有限公司 一种自然语言理解方法和人机交互智能系统
CN102629246A (zh) * 2012-02-10 2012-08-08 北京百纳信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
CN102681982A (zh) * 2012-03-15 2012-09-19 上海云叟网络科技有限公司 可让计算机理解的自然语言句子的自动语义识别的方法
CN103473317A (zh) * 2013-09-12 2013-12-25 百度在线网络技术(北京)有限公司 提取关键词的方法和设备
JP2014013549A (ja) * 2012-07-05 2014-01-23 Brainpad Inc 自然言語解析システムおよび自然言語解析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070033005A1 (en) * 2005-08-05 2007-02-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
CN101178705A (zh) * 2007-12-13 2008-05-14 中国电信股份有限公司 一种自然语言理解方法和人机交互智能系统
CN102629246A (zh) * 2012-02-10 2012-08-08 北京百纳信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
CN102681982A (zh) * 2012-03-15 2012-09-19 上海云叟网络科技有限公司 可让计算机理解的自然语言句子的自动语义识别的方法
JP2014013549A (ja) * 2012-07-05 2014-01-23 Brainpad Inc 自然言語解析システムおよび自然言語解析方法
CN103473317A (zh) * 2013-09-12 2013-12-25 百度在线网络技术(北京)有限公司 提取关键词的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李亚丽等: "语义类的提取及其在语音搜索系统中的应用", 《声学学报》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512105A (zh) * 2015-12-07 2016-04-20 百度在线网络技术(北京)有限公司 语义解析方法和装置
CN106294666A (zh) * 2016-08-04 2017-01-04 上海汽笛生网络科技有限公司 一种实现文本形象化动态展示的方法
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN108446286A (zh) * 2017-02-16 2018-08-24 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
TWI746690B (zh) * 2017-02-16 2021-11-21 香港商阿里巴巴集團服務有限公司 自然語言問句答案的產生方法、裝置及伺服器
CN109840320A (zh) * 2017-11-28 2019-06-04 微软技术许可有限责任公司 文本的定制化处理
CN109840320B (zh) * 2017-11-28 2023-08-25 微软技术许可有限责任公司 文本的定制化处理
CN108829757A (zh) * 2018-05-28 2018-11-16 广州麦优网络科技有限公司 一种聊天机器人的智能服务方法、服务器及存储介质
CN108829757B (zh) * 2018-05-28 2022-01-28 广州麦优网络科技有限公司 一种聊天机器人的智能服务方法、服务器及存储介质
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
CN109033082A (zh) * 2018-07-19 2018-12-18 深圳创维数字技术有限公司 语义模型的学习训练方法、装置及计算机可读存储介质
CN109033082B (zh) * 2018-07-19 2022-06-10 深圳创维数字技术有限公司 语义模型的学习训练方法、装置及计算机可读存储介质
CN109446527B (zh) * 2018-10-26 2023-10-20 广东小天才科技有限公司 一种无意义语料的分析方法及系统
CN109446527A (zh) * 2018-10-26 2019-03-08 广东小天才科技有限公司 一种无意义语料的分析方法及系统
CN110188327A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 文本去口语化方法及装置
CN110377905A (zh) * 2019-06-28 2019-10-25 北京百度网讯科技有限公司 语句的语义表示处理方法及装置、计算机设备及可读介质
CN111506705B (zh) * 2020-04-13 2023-07-21 北京奇艺世纪科技有限公司 一种信息查询方法、装置及电子设备
CN111506705A (zh) * 2020-04-13 2020-08-07 北京奇艺世纪科技有限公司 一种信息查询方法、装置及电子设备
WO2022022049A1 (zh) * 2020-07-27 2022-02-03 平安科技(深圳)有限公司 文本长难句的压缩方法、装置、计算机设备及存储介质
CN112071304A (zh) * 2020-09-08 2020-12-11 深圳市天维大数据技术有限公司 一种语意分析方法及装置
CN112071304B (zh) * 2020-09-08 2024-03-15 深圳市天维大数据技术有限公司 一种语意分析方法及装置

Similar Documents

Publication Publication Date Title
CN105096942A (zh) 语义分析方法和装置
CN107204184B (zh) 语音识别方法及系统
CN106777275B (zh) 基于多粒度语义块的实体属性和属性值提取方法
KR101678787B1 (ko) 자동질의응답 방법 및 그 장치
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
KR102316063B1 (ko) 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체
US8190628B1 (en) Phrase generation
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN103810998B (zh) 基于移动终端设备的离线语音识别方法以及实现方法
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
WO2020233386A1 (zh) 基于aiml的智能问答方法、装置、计算机设备及存储介质
CN104881402A (zh) 中文网络话题评论文本语义倾向分析的方法及装置
CN101887443A (zh) 一种文本的分类方法及装置
KR102267561B1 (ko) 음성 언어 이해 장치 및 방법
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
CN105389303B (zh) 一种异源语料自动融合方法
CN103186522A (zh) 电子设备及其自然语言分析方法
JP2013190985A (ja) 知識応答システム、方法およびコンピュータプログラム
Kleinert et al. Automated interpretation of air traffic control communication: The journey from spoken words to a deeper understanding of the meaning
Btoush et al. Rule based approach for Arabic part of speech tagging and name entity recognition
Kambarami et al. Computational modeling of agglutinative languages: the challenge for southern bantu languages
CN112863484B (zh) 韵律短语边界预测模型训练方法和韵律短语边界预测方法
CN108268443B (zh) 确定话题点转移以及获取回复文本的方法、装置
Hahn et al. A Comparison of Various Methods for Concept Tagging for Spoken Language Understanding.
CN116450799B (zh) 一种应用于交通管理服务的智能对话方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151125