CN109635278A - 语义表示方法及装置 - Google Patents
语义表示方法及装置 Download PDFInfo
- Publication number
- CN109635278A CN109635278A CN201811385567.XA CN201811385567A CN109635278A CN 109635278 A CN109635278 A CN 109635278A CN 201811385567 A CN201811385567 A CN 201811385567A CN 109635278 A CN109635278 A CN 109635278A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- sentences
- sentence element
- target sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 239000004615 ingredient Substances 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 15
- 230000000694 effects Effects 0.000 abstract description 8
- 238000004364 calculation method Methods 0.000 abstract description 7
- 230000001737 promoting effect Effects 0.000 abstract description 3
- 239000003607 modifier Substances 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000010287 polarization Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 241001201614 Prays Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语义表示方法及装置,涉及语义表示领域,该方法包括根据目标文字的文字词性,确定所述目标文字的句子成分;接收目标句子,根据所述目标文字在所述目标句子中对应的所述句子成分,得到所述目标句子的语法结构;根据所述目标句子的语法结构,得到所述目标句子中的语义关键字;采用根据目标文字的文字词性,确定目标文字的句子成分的方式,通过目标文字在目标句子中对应的句子成分,得到目标句子的语法结构,达到了根据目标句子的语法结构,提取语义关键字的目的,从而实现了提升语义表示准确率的技术效果,进而解决了相关技术中采用根据权重计算关键字并提取的语义表示技术准确率低下的问题。
Description
技术领域
本申请涉及语义表示领域,具体而言,涉及一种语义表示方法及装置。
背景技术
相关技术中在进行语义计算时往往采用根据权重计算关键字并提取的技术,比如在进行以下两句话语的语义计算时,“你是做什么的啊”和“你是做什么的”,两句话只差一个字“啊”,但是如果不做关键字提取或者如果把“啊”当关键字就会认为这两句语义不同,语义表示的结果与实际结果不符。
针对相关技术中采用根据权重计算关键字并提取的语义表示技术准确率低下的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种语义表示方法及装置,以解决相关技术中采用根据权重计算关键字并提取的语义表示技术准确率低下的问题。
为了实现上述目的,根据本申请的第一方面,本申请实施例提供了一种语义表示方法方法,所述方法包括:根据目标文字的文字词性,确定所述目标文字的句子成分;接收目标句子,根据所述目标文字在所述目标句子中对应的所述句子成分,得到所述目标句子的语法结构;根据所述目标句子的语法结构,得到所述目标句子中的语义关键字。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述根据目标文字的文字词性,确定所述目标文字的句子成分包括:获取相邻两个所述目标文字的文字词性;根据预设汉语语法规则和相邻两个所述目标文字的文字词性,得到所述目标文字的第一句子成分。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述根据目标文字在所述目标句子中对应的所述句子成分,得到所述目标句子的语法结构包括:根据所述目标句子中多个所述目标文字之间的组合关系和所述目标文字的第一句子成分,确定所述目标文字的第二句子成分;根据每个所述目标文字在所述目标句子中的所述第二句子成分,得到所述目标句子的语法结构。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述根据目标句子的语法结构,得到所述目标句子中的语义关键字包括:根据所述目标句子的语法结构,确定所述目标句子的每个所述句子成分;提取所述句子成分对应的所述目标文字,得到所述语义关键字。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述根据目标句子的语法结构,得到所述目标句子中的语义关键字之后包括:根据所述语义关键字,得到所述目标句子的主干信息;判断两个所述目标句子的所述主干信息是否相同;如果判定两个所述目标句子的所述主干信息相同,则返回语义相同判定信号。
为了实现上述目的,根据本申请的第二方面,本申请实施例提供了一种语义表示装置,包括:句子成分获取单元,用于根据目标文字的文字词性,确定所述目标文字的句子成分;语法结构获取单元,用于接收目标句子,根据所述目标文字在所述目标句子中对应的所述句子成分,得到所述目标句子的语法结构;关键词提取单元,用于根据所述语法结构获取单元得到的目标句子的语法结构,得到所述目标句子中的语义关键字。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述句子成分获取单元包括:词性获取模块,用于获取相邻两个所述目标文字的文字词性;第一句子成分获取模块,用于根据预设汉语语法规则和相邻两个所述目标文字的文字词性,得到所述目标文字的第一句子成分。
结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述语法结构获取单元包括:第二句子成分获取模块,用于根据所述目标句子中多个所述目标文字之间的组合关系和所述目标文字的第一句子成分,确定所述目标文字的第二句子成分;语法结构分析模块,用于根据每个所述目标文字在所述目标句子中的所述第二句子成分,得到所述目标句子的语法结构。
结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中,所述关键词提取单元包括:句子成分确定模块,用于根据所述目标句子的语法结构,确定所述目标句子的每个所述句子成分;提取模块,用于提取所述句子成分对应的所述目标文字,得到所述语义关键字。
结合第二方面,本申请实施例提供了第二方面的第四种可能的实施方式,其中,所述关键词提取单元之后包括:主干信息获取模块,用于根据所述语义关键字,得到所述目标句子的主干信息;主干信息判断模块,用于判断两个所述目标句子的所述主干信息是否相同;判定信号返回模块,用于如果判定两个所述目标句子的所述主干信息相同,则返回语义相同判定信号。
在本申请实施例中,采用根据目标文字的文字词性,确定目标文字的句子成分的方式,通过目标文字在目标句子中对应的句子成分,得到目标句子的语法结构,达到了根据目标句子的语法结构,提取语义关键字的目的,从而实现了提升语义表示准确率的技术效果,进而解决了相关技术中采用根据权重计算关键字并提取的语义表示技术准确率低下的问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例一提供的一种语义表示方法的流程图;
图2是本申请图1中步骤S101的详细流程图;
图3是本申请图1中步骤S102的详细流程图;
图4是本申请图1中步骤S103的详细流程图;
图5是本申请图1中步骤S103之后的详细流程图;以及
图6是根据本申请提供的一种语义表示装置的示意图;
图7是本申请图1中所述句子成分获取单元10的详细示意图;
图8是本申请图1中所述语法结构获取单元20的详细示意图;
图9是本申请图1中所述关键词提取单元30的详细示意图;以及
图10是本申请图1中所述关键词提取单元30之后的详细示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
考虑到:相关技术中在进行语义计算时往往采用根据权重计算关键字并提取的技术,比如在进行以下两句话语的语义计算时,“你是做什么的啊”和“你是做什么的”,两句话只差一个字“啊”,但是如果不做关键字提取或者如果把“啊”当关键字就会认为这两句语义不同,语义表示的结果与实际结果不符,本申请提供了一种语义表示方法及装置。
如图1所示,该方法包括如下的步骤S101至步骤S103:
步骤S101,根据目标文字的文字词性,确定所述目标文字的句子成分;
优选的,现代汉语的文字词性可以分为12类,具体的,实词包括:名词、动词、形容词、数词、量词和代词,虚词包括:副词、介词、连词、助词、叹词、拟声词。
优选的,每一种类型的文字词性在句子中都可以承担至少一种句子成分,其中,所述句子成分即为句子的组成成分,也可以叫做句法成分,在句子中,词与词之间有一定的组合关系,按照不同的关系,可以把句子分为不同的组成成分,具体的,句子成分由词或词组充当,具体的,现代汉语里一般的句子成分有八种,即主语、谓语、宾语、动语,定语、状语,补语和中心语,在英语中句子的组成部分包括:主语、谓语、宾语、表语、定语、状语、补足语和同位语八种。
以名词“学生”为例,可以担当的句子的主语,主语是句子陈述或说明的对象,说明是谁或什么,表示句子说的是"什么人"或“什么事”,主语是执行句子的行为或动作的主体,一般由名词、代词和名词性短语担当;同时名词“学生”也可以担当句子的宾语,宾语表示谓语动词的涉及对象的语言单位,一般表示谓语“怎么样”或“是什么”,经常由名词、代词、名词性短语充当。
优选的,将目标文字与其可以担当的句子成分建立关联关系并存储至数据库中,其中,每个所述目标文字可以对应至少一个能够担当的句子成分,比如目标文字“我”,其相对的句子成分包括但不限于:主语和宾语。
步骤S102,接收目标句子,根据所述目标文字在所述目标句子中对应的所述句子成分,得到所述目标句子的语法结构;
优选的,句子是由词或短语构成的语言单位,能表达一个相对完整的意思,能完成一次简单的交际任务,在语音上有一定的语调,表示陈述、疑问、祈使、感叹的语气,在书面上用句号、问号、感叹号表示出来,每个句子都有符合汉语语法要求的语法结构,比如“我们学生一定要学好专业课程”,其语法结构为“(定)主+[状]谓<补>+(定)宾”,具体可按照汉语语法规则标注为“(我们)学生[一定][要]学<好>(专业)课程”。
具体的,当接收到目标句子时,比如“我们学生一定要学好专业课程”,其中的目标文字如果为“学生”,则根据预设数据库中目标文字与其可以担当的句子成分的关联关系可知所述目标文字“学生”既可以担当句子的主语,也可以担当句子的宾语,但结合与所述目标文字“学生”相邻的文字“我们”和“一定”的句子成分,可知所述目标文字“学生”在所述目标句子中应该担当的句子成分为“主语”,同时结合所述目标句子中各个目标文字的句子成分,可以得到所述目标句子的语法结构为“(我们)学生[一定][要]学<好>(专业)课程”。
步骤S103,根据所述目标句子的语法结构,得到所述目标句子中的语义关键字。
优选的,根据所述目标句子的语法结构,能够得到所述目标句子的主干信息,具体的,在构成句子过程中,各种句子成分所起的作用不完全一样,其中有些成分决定着句子的基本结构,它们是句子的主干,有些成分是附着在主干上的“枝叶”,对主干起修饰、限制、补充等作用,提取所述目标句子中的主语、谓语和宾语所分别对应的所述目标文字,即得到所述语义关键字。
具体的,所谓句子的主干,是指把句子中的定语、状语、补语(即“枝叶”成分)逐层压缩掉之后剩下的部分,句子的主干一般是由主语或主语中心语、谓语或谓语中心语和宾语或宾语中心语组成的,比如,如果目标句子为“统筹方法,是一种安排工作进程的数学方法”,这是一个主谓句,主语由偏正短语充当,包含中心语“方法”和定语“统筹”;谓语由动宾短语充当,而宾语又是一个偏正短语,其中包含着中心语“方法”和“一种”“安排工作进程”“数学”三个定语,只要把这些定语逐层压缩掉,剩下的部分“方法是方法”就是这个句子的主干。
实施例一:
首先,将目标文字与其可以担当的句子成分建立关联关系并存储至数据库中,其中,每个所述目标文字可以对应至少一个能够担当的句子成分,比如目标文字“学生”,其相对的句子成分可以为主语和宾语,当接收到目标句子“我们学生一定要学好专业课程”时,对目标文字“学生”相邻的目标文字“我们”和“一定”进行词性分析,由于目标文字“我们”可以作为定语,目标文字“一定”可以作为状语,所以所述目标文字“学生”在目标句子中的词性应该为“主语”,同时得到所述目标句子的语法结构“(我们)学生[一定][要]学<好>(专业)课程”,然后获取所述目标句子的主干信息,即提取主语、谓语和宾语,得到的主干信息为“学生、学、课程”,同时提取与主干信息对应的目标文字“学生”、“学”和“课程”作为语义关键字,用于后续语义对比。
从以上的描述中,可以看出,本发明实现了如下技术效果:
在本申请实施例中,采用根据目标文字的文字词性,确定目标文字的句子成分的方式,通过目标文字在目标句子中对应的句子成分,得到目标句子的语法结构,达到了根据目标句子的语法结构,提取语义关键字的目的,从而实现了提升语义表示准确率的技术效果,进而解决了相关技术中采用根据权重计算关键字并提取的语义表示技术准确率低下的问题。
根据本发明实施例,作为本申请实施例中的优选,如图2所示,所述根据目标文字的文字词性,确定所述目标文字的句子成分包括如下的步骤S201至步骤S202:
步骤S201,获取相邻两个所述目标文字的文字词性;
优选的,比如目标文字“学生”,其相对的句子成分可以为主语和宾语,当接收到目标句子“我们学生一定要学好专业课程”时,对目标文字“学生”相邻的目标文字“我们”和“一定”进行词性分析。
步骤S202,根据预设汉语语法规则和相邻两个所述目标文字的文字词性,得到所述目标文字的第一句子成分。
优选的,由于目标文字“我们”可以作为定语,目标文字“一定”可以作为状语,所以所述目标文字“学生”在目标句子中的词性应该为“主语”。
根据本发明实施例,作为本申请实施例中的优选,如图3所示,所述根据目标文字在所述目标句子中对应的所述句子成分,得到所述目标句子的语法结构包括如下的步骤S301至步骤S302:
步骤S301,根据所述目标句子中多个所述目标文字之间的组合关系和所述目标文字的第一句子成分,确定所述目标文字的第二句子成分;
优选的,当接收到目标句子时,比如“我们学生一定要学好专业课程”,其中的目标文字如果为“学生”,则根据预设数据库中目标文字与其可以担当的句子成分的关联关系可知所述目标文字“学生”既可以担当句子的主语,也可以担当句子的宾语,但结合与所述目标文字“学生”相邻的文字“我们”和“一定”的句子成分,可知所述目标文字“学生”在所述目标句子中应该担当的句子成分为“主语”。
步骤S302,根据每个所述目标文字在所述目标句子中的所述第二句子成分,得到所述目标句子的语法结构。
优选的,结合所述目标句子中各个目标文字的句子成分,可以得到所述目标句子的语法结构为“(我们)学生[一定][要]学<好>(专业)课程”。
根据本发明实施例,作为本申请实施例中的优选,如图4所示,所述根据目标句子的语法结构,得到所述目标句子中的语义关键字包括如下的步骤S401至步骤S402:
步骤S401,根据所述目标句子的语法结构,确定所述目标句子的每个所述句子成分;
优选的,根据所述目标句子的语法结构,能够得到所述目标句子的主干信息,具体的,在构成句子过程中,各种句子成分所起的作用不完全一样,其中有些成分决定着句子的基本结构,它们是句子的主干,有些成分是附着在主干上的“枝叶”,对主干起修饰、限制、补充等作用。
步骤S402,提取所述句子成分对应的所述目标文字,得到所述语义关键字。
优选的,提取所述目标句子中的主语、谓语和宾语所分别对应的所述目标文字,即得到所述语义关键字。
根据本发明实施例,作为本申请实施例中的优选,如图5所示,所述根据目标句子的语法结构,得到所述目标句子中的语义关键字之后包括如下的步骤S501至步骤S503:
步骤S501,根据所述语义关键字,得到所述目标句子的主干信息;
优选的,所谓句子的主干,是指把句子中的定语、状语、补语(即“枝叶”成分)逐层压缩掉之后剩下的部分,句子的主干一般是由主语或主语中心语、谓语或谓语中心语和宾语或宾语中心语组成的,具体的,获取将要对比语义的两个目标句子的主干信息。
步骤S502,判断两个所述目标句子的所述主干信息是否相同;
优选的,根据获取得到的两个目标句子的主干信息,判断所述主干信息是否相同。
步骤S503,如果判定两个所述目标句子的所述主干信息相同,则返回语义相同判定信号。
优选的,如果判定两个所述目标句子的所述主干信息相同,则判定两个目标句子在语义上相同,同时向预设网络访问地址返回语义相同判定信号。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述语义表示方法的装置,如图6所示,该装置包括:句子成分获取单元10,用于根据目标文字的文字词性,确定所述目标文字的句子成分;语法结构获取单元20,用于接收目标句子,根据所述目标文字在所述目标句子中对应的所述句子成分,得到所述目标句子的语法结构;关键词提取单元30,用于根据所述语法结构获取单元得到的目标句子的语法结构,得到所述目标句子中的语义关键字。
根据本申请实施例所述的句子成分获取单元10用于根据目标文字的文字词性,确定所述目标文字的句子成分,优选的,将目标文字与其可以担当的句子成分建立关联关系并存储至数据库中,其中,每个所述目标文字可以对应至少一个能够担当的句子成分,比如目标文字“我”,其相对的句子成分包括但不限于:主语和宾语。
根据本申请实施例所述的语法结构获取单元20用于接收目标句子,根据所述目标文字在所述目标句子中对应的所述句子成分,得到所述目标句子的语法结构,优选的,句子是由词或短语构成的语言单位,能表达一个相对完整的意思,能完成一次简单的交际任务,在语音上有一定的语调,表示陈述、疑问、祈使、感叹的语气,在书面上用句号、问号、感叹号表示出来,每个句子都有符合汉语语法要求的语法结构,比如“我们学生一定要学好专业课程”,其语法结构为“(定)主+[状]谓<补>+(定)宾”,具体可按照汉语语法规则标注为“(我们)学生[一定][要]学<好>(专业)课程”。
根据本申请实施例所述的关键词提取单元30用于根据所述语法结构获取单元得到的目标句子的语法结构,得到所述目标句子中的语义关键字,优选的,根据所述目标句子的语法结构,能够得到所述目标句子的主干信息,具体的,在构成句子过程中,各种句子成分所起的作用不完全一样,其中有些成分决定着句子的基本结构,它们是句子的主干,有些成分是附着在主干上的“枝叶”,对主干起修饰、限制、补充等作用,提取所述目标句子中的主语、谓语和宾语所分别对应的所述目标文字,即得到所述语义关键字。
根据本发明实施例,作为本申请实施例中的优选,如图7所示,所述句子成分获取单元10包括:词性获取模块11,用于获取相邻两个所述目标文字的文字词性;第一句子成分获取模块12,用于根据预设汉语语法规则和相邻两个所述目标文字的文字词性,得到所述目标文字的第一句子成分。
根据本申请实施例所述的词性获取模块11用于获取相邻两个所述目标文字的文字词性,优选的,比如目标文字“学生”,其相对的句子成分可以为主语和宾语,当接收到目标句子“我们学生一定要学好专业课程”时,对目标文字“学生”相邻的目标文字“我们”和“一定”进行词性分析。
根据本申请实施例所述的第一句子成分获取模块12用于根据预设汉语语法规则和相邻两个所述目标文字的文字词性,得到所述目标文字的第一句子成分,优选的,由于目标文字“我们”可以作为定语,目标文字“一定”可以作为状语,所以所述目标文字“学生”在目标句子中的词性应该为“主语”。
根据本发明实施例,作为本申请实施例中的优选,如图8所示,所述语法结构获取单元20包括:第二句子成分获取模块21,用于根据所述目标句子中多个所述目标文字之间的组合关系和所述目标文字的第一句子成分,确定所述目标文字的第二句子成分;语法结构分析模块22,用于根据每个所述目标文字在所述目标句子中的所述第二句子成分,得到所述目标句子的语法结构。
根据本申请实施例所述的第二句子成分获取模块21用于根据所述目标句子中多个所述目标文字之间的组合关系和所述目标文字的第一句子成分,确定所述目标文字的第二句子成分,优选的,当接收到目标句子时,比如“我们学生一定要学好专业课程”,其中的目标文字如果为“学生”,则根据预设数据库中目标文字与其可以担当的句子成分的关联关系可知所述目标文字“学生”既可以担当句子的主语,也可以担当句子的宾语,但结合与所述目标文字“学生”相邻的文字“我们”和“一定”的句子成分,可知所述目标文字“学生”在所述目标句子中应该担当的句子成分为“主语”。
根据本申请实施例所述的语法结构分析模块22用于根据每个所述目标文字在所述目标句子中的所述第二句子成分,得到所述目标句子的语法结构,优选的,结合所述目标句子中各个目标文字的句子成分,可以得到所述目标句子的语法结构为“(我们)学生[一定][要]学<好>(专业)课程”。
根据本发明实施例,作为本申请实施例中的优选,如图9所示,所述关键词提取单元30包括:句子成分确定模块31,用于根据所述目标句子的语法结构,确定所述目标句子的每个所述句子成分;提取模块32,用于提取所述句子成分对应的所述目标文字,得到所述语义关键字。
根据本申请实施例所述的句子成分确定模块31用于根据所述目标句子的语法结构,确定所述目标句子的每个所述句子成分,优选的,根据所述目标句子的语法结构,能够得到所述目标句子的主干信息,具体的,在构成句子过程中,各种句子成分所起的作用不完全一样,其中有些成分决定着句子的基本结构,它们是句子的主干,有些成分是附着在主干上的“枝叶”,对主干起修饰、限制、补充等作用。
根据本申请实施例所述的提取模块32用于提取所述句子成分对应的所述目标文字,得到所述语义关键字,优选的,提取所述目标句子中的主语、谓语和宾语所分别对应的所述目标文字,即得到所述语义关键字。
根据本发明实施例,作为本申请实施例中的优选,如图10所示,所述关键词提取单元30之后包括:主干信息获取模块33,用于根据所述语义关键字,得到所述目标句子的主干信息;主干信息判断模块34,用于判断两个所述目标句子的所述主干信息是否相同;判定信号返回模块35,用于如果判定两个所述目标句子的所述主干信息相同,则返回语义相同判定信号。
根据本申请实施例所述的主干信息获取模块33用于根据所述语义关键字,得到所述目标句子的主干信息,优选的,所谓句子的主干,是指把句子中的定语、状语、补语(即“枝叶”成分)逐层压缩掉之后剩下的部分,句子的主干一般是由主语或主语中心语、谓语或谓语中心语和宾语或宾语中心语组成的,具体的,获取将要对比语义的两个目标句子的主干信息。
根据本申请实施例所述的主干信息判断模块34用于判断两个所述目标句子的所述主干信息是否相同,优选的,根据获取得到的两个目标句子的主干信息,判断所述主干信息是否相同。
根据本申请实施例所述的判定信号返回模块35用于如果判定两个所述目标句子的所述主干信息相同,则返回语义相同判定信号,优选的,如果判定两个所述目标句子的所述主干信息相同,则判定两个目标句子在语义上相同,同时向预设网络访问地址返回语义相同判定信号。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语义表示方法,其特征在于,所述方法包括:
根据目标文字的文字词性,确定所述目标文字的句子成分;
接收目标句子,根据所述目标文字在所述目标句子中对应的所述句子成分,得到所述目标句子的语法结构;以及
根据所述目标句子的语法结构,得到所述目标句子中的语义关键字。
2.根据权利要求1所述的语义表示方法,其特征在于,所述根据目标文字的文字词性,确定所述目标文字的句子成分包括:
获取相邻两个所述目标文字的文字词性;
根据预设汉语语法规则和相邻两个所述目标文字的文字词性,得到所述目标文字的第一句子成分。
3.根据权利要求2所述的语义表示方法,其特征在于,所述根据目标文字在所述目标句子中对应的所述句子成分,得到所述目标句子的语法结构包括:
根据所述目标句子中多个所述目标文字之间的组合关系和所述目标文字的第一句子成分,确定所述目标文字的第二句子成分;
根据每个所述目标文字在所述目标句子中的所述第二句子成分,得到所述目标句子的语法结构。
4.根据权利要求1所述的语义表示方法,其特征在于,所述根据目标句子的语法结构,得到所述目标句子中的语义关键字包括:
根据所述目标句子的语法结构,确定所述目标句子的每个所述句子成分;
提取所述句子成分对应的所述目标文字,得到所述语义关键字。
5.根据权利要求2所述的语义表示方法,其特征在于,所述根据目标句子的语法结构,得到所述目标句子中的语义关键字之后包括:
根据所述语义关键字,得到所述目标句子的主干信息;
判断两个所述目标句子的所述主干信息是否相同;以及
如果判定两个所述目标句子的所述主干信息相同,则返回语义相同判定信号。
6.一种语义表示装置,其特征在于,包括:
句子成分获取单元,用于根据目标文字的文字词性,确定所述目标文字的句子成分;
语法结构获取单元,用于接收目标句子,根据所述目标文字在所述目标句子中对应的所述句子成分,得到所述目标句子的语法结构;
关键词提取单元,用于根据所述语法结构获取单元得到的目标句子的语法结构,得到所述目标句子中的语义关键字。
7.根据权利要求6所述的语义表示装置,其特征在于,所述句子成分获取单元包括:
词性获取模块,用于获取相邻两个所述目标文字的文字词性;
第一句子成分获取模块,用于根据预设汉语语法规则和相邻两个所述目标文字的文字词性,得到所述目标文字的第一句子成分。
8.根据权利要求6所述的语义表示装置,其特征在于,所述语法结构获取单元包括:
第二句子成分获取模块,用于根据所述目标句子中多个所述目标文字之间的组合关系和所述目标文字的第一句子成分,确定所述目标文字的第二句子成分;
语法结构分析模块,用于根据每个所述目标文字在所述目标句子中的所述第二句子成分,得到所述目标句子的语法结构。
9.根据权利要求6所述的语义表示装置,其特征在于,所述关键词提取单元包括:
句子成分确定模块,用于根据所述目标句子的语法结构,确定所述目标句子的每个所述句子成分;
提取模块,用于提取所述句子成分对应的所述目标文字,得到所述语义关键字。
10.根据权利要求6所述的语义表示装置,其特征在于,所述关键词提取单元之后包括:
主干信息获取模块,用于根据所述语义关键字,得到所述目标句子的主干信息;
主干信息判断模块,用于判断两个所述目标句子的所述主干信息是否相同;以及
判定信号返回模块,用于如果判定两个所述目标句子的所述主干信息相同,则返回语义相同判定信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811385567.XA CN109635278A (zh) | 2018-11-20 | 2018-11-20 | 语义表示方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811385567.XA CN109635278A (zh) | 2018-11-20 | 2018-11-20 | 语义表示方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109635278A true CN109635278A (zh) | 2019-04-16 |
Family
ID=66068794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811385567.XA Pending CN109635278A (zh) | 2018-11-20 | 2018-11-20 | 语义表示方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635278A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263312A (zh) * | 2019-06-19 | 2019-09-20 | 北京百度网讯科技有限公司 | 文章生成方法、装置、服务器和计算机可读介质 |
CN111048073A (zh) * | 2019-12-16 | 2020-04-21 | 北京明略软件系统有限公司 | 一种音频处理方法、装置、电子设备及可读存储介质 |
CN113221797A (zh) * | 2021-05-24 | 2021-08-06 | 厦门科路德科技有限公司 | 一种印刷文件的防伪识别方法、装置以及设备 |
CN115618852A (zh) * | 2022-11-22 | 2023-01-17 | 山东天成书业有限公司 | 一种文本数字化自动校对系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004287680A (ja) * | 2003-03-20 | 2004-10-14 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN104166462A (zh) * | 2013-05-17 | 2014-11-26 | 北京搜狗科技发展有限公司 | 一种文字的输入方法和系统 |
CN106503101A (zh) * | 2016-10-14 | 2017-03-15 | 五邑大学 | 电商客服自动问答系统语句关键词提取方法 |
CN108334490A (zh) * | 2017-04-07 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
-
2018
- 2018-11-20 CN CN201811385567.XA patent/CN109635278A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004287680A (ja) * | 2003-03-20 | 2004-10-14 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN104166462A (zh) * | 2013-05-17 | 2014-11-26 | 北京搜狗科技发展有限公司 | 一种文字的输入方法和系统 |
CN106503101A (zh) * | 2016-10-14 | 2017-03-15 | 五邑大学 | 电商客服自动问答系统语句关键词提取方法 |
CN108334490A (zh) * | 2017-04-07 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
Non-Patent Citations (3)
Title |
---|
常忆辛: "《现代汉语常识简易问答》", 30 September 1986, 南宁:广西民族出版社 * |
张静: "《新编现代汉语 上》", 30 June 1980, 上海教育出版社 * |
黄图其: "基于神经网络翻译模型的事件文本特征提取系统", 《中国优秀硕士学位论文全文数据库 (基础科学辑)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263312A (zh) * | 2019-06-19 | 2019-09-20 | 北京百度网讯科技有限公司 | 文章生成方法、装置、服务器和计算机可读介质 |
CN110263312B (zh) * | 2019-06-19 | 2023-09-12 | 北京百度网讯科技有限公司 | 文章生成方法、装置、服务器和计算机可读介质 |
CN111048073A (zh) * | 2019-12-16 | 2020-04-21 | 北京明略软件系统有限公司 | 一种音频处理方法、装置、电子设备及可读存储介质 |
CN113221797A (zh) * | 2021-05-24 | 2021-08-06 | 厦门科路德科技有限公司 | 一种印刷文件的防伪识别方法、装置以及设备 |
CN113221797B (zh) * | 2021-05-24 | 2024-01-19 | 厦门科路德科技有限公司 | 一种印刷文件的防伪识别方法、装置以及设备 |
CN115618852A (zh) * | 2022-11-22 | 2023-01-17 | 山东天成书业有限公司 | 一种文本数字化自动校对系统 |
CN115618852B (zh) * | 2022-11-22 | 2023-04-07 | 山东天成书业有限公司 | 一种文本数字化自动校对系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635278A (zh) | 语义表示方法及装置 | |
US9342499B2 (en) | Round-trip translation for automated grammatical error correction | |
Lee et al. | Automatic grammar correction for second-language learners. | |
Baten | Processability Theory and German case acquisition | |
CN105320644B (zh) | 一种基于规则的自动汉语句法分析方法 | |
Derwojedowa et al. | Words, concepts and relations in the construction of Polish WordNet | |
CN112560510B (zh) | 翻译模型训练方法、装置、设备及存储介质 | |
KR20040032355A (ko) | 문서에서 이벤트 문장을 추출하는 장치 및 그 방법 | |
JP2006039353A (ja) | 多肢選択言語試験問題自動作成装置およびコンピュータプログラム | |
Jurkiewicz-Rohrbacher et al. | Clitic climbing, finiteness and the Raising-Control distinction. a corpus–based study | |
KR100474823B1 (ko) | 자연어의품사태깅장치및그방법 | |
Akeel et al. | Divergence and ambiguity control in an English to Arabic machine translation | |
Tran et al. | Improve effectiveness resolving some inter-sentential anaphoric pronouns indicating human objects in Vietnamese paragraphs using finding heuristics with priority | |
Guerrieri et al. | A tourist advisor based on a question answering system | |
Abd-Rabbo | Sound plural and broken plural assignment in Classical Arabic | |
Boitet | Automated translation | |
Nou et al. | Khmer POS tagger: a transformation-based approach with hybrid unknown word handling | |
Mahyoob et al. | Towards Developing a Morphological Analyzer for Arabic Noun Forms | |
Irigoyen Ciriza | Linguistic Ambiguity: Comparing Ambiguity in Standard Mandarin Chinese and Spanish | |
Karimova | THE ROLE OF SEMANTICS IN LINGUISTIC COMPETENCE | |
Murtazaev | Modeling Lexical Tools in Determining the Synonymy of Simple Sentences in Scientific Texts is A Topical Issue | |
Mille et al. | Creating an MTT Tree Bank of Spanish | |
Gurbanova | Segmentation of Phrases in the deep and surface structure concepts | |
Grinstead | Non-compositional forms and the continuity assumption | |
Murata et al. | Indirect reference in Japanese sentences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |