CN110929501A - 文本分析方法和装置 - Google Patents
文本分析方法和装置 Download PDFInfo
- Publication number
- CN110929501A CN110929501A CN201911151216.7A CN201911151216A CN110929501A CN 110929501 A CN110929501 A CN 110929501A CN 201911151216 A CN201911151216 A CN 201911151216A CN 110929501 A CN110929501 A CN 110929501A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- analyzed
- semantics
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000004931 aggregating effect Effects 0.000 claims abstract description 29
- 230000002776 aggregation Effects 0.000 claims description 27
- 238000004220 aggregation Methods 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 10
- 230000000379 polymerizing effect Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 150000001412 amines Chemical class 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本分析方法和装置。其中,该方法包括:获取待分析文本;基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词;根据待分析文本中的提示词从至少一个词中确定指定类型词的语义,其中,指定类型词为预设词库中未包含的词;根据预设语法规则以及指定类型词的语义对至少一个词进行聚合,得到待分析文本对应的框架语义;基于框架语义对待分析文本进行语义分析,得到分析结果。本发明解决了现有技术无法对文本中包含的新词进行准确分析所导致的文本分析不准确的技术问题。
Description
技术领域
本发明涉及互联网领域,具体而言,涉及一种文本分析方法和装置。
背景技术
在众多的互联网应用场景,尤其是移动互联网的应用场景中,对文本进行语义分析是一项基本且意义重大的任务。准确的语义分析能力能极大地提升下游任务的效果。例如,在信息流场景中,对用户阅读的文章做语义分析能提高推荐的相关性;在智能问答场景中,对用户的发言做语义分析有助于生成更人性化的回答。
文本的语义表示方法有多重,其中,框架语义为文本的语义表示方法中的一种。现有的框架语义分析器基于传统的Pipeline模型,依次对文本进行切词、词性标注、依存分析,最后在依存分析的基础上做框架语义分析。
然而,Pipeline模型会对语义分析的精度造成损失。在实际使用中,尤其是中文场景中,也需要一个前导的切词工具首先对文本切词。而且,现有技术没有充分利用先验的语法知识和知识图谱。另外,Pipeline模型的灵活性和泛化性也不高。在真实文本中,存在大量的新词。现有的技术方案均未能很好解决新词发现问题;而使用深度学习模型的技术方案,无法确定新词对应的词向量,其必须设计某种机制为它们赋予词向量模型才能工作。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本分析方法和装置,以至少解决现有技术无法对文本中包含的新词进行准确分析所导致的文本分析不准确的技术问题。
根据本发明实施例的一个方面,提供了一种文本分析方法,包括:获取待分析文本;基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词;根据待分析文本中的提示词从至少一个词中确定指定类型词的语义,其中,指定类型词为预设词库中未包含的词;根据预设语法规则以及指定类型词的语义对至少一个词进行聚合,得到待分析文本对应的框架语义;基于框架语义对待分析文本进行语义分析,得到分析结果。
进一步地,待分析文本中的每个动词对应一个框架语义,其中,框架语义包含多个框架元素,每个框架元素对应的属性值为待分析文本中的词。
进一步地,文本分析方法还包括:在基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词之前,获取核心词,其中,核心词至少包括虚词以及动词;基于预设词典确定核心词对应的语法;基于核心词以及语法得到第一语义词典;基于互联网对第一语义词典进行名词扩充,得到第二语义词典;对第二语义词典中的名词进行聚类,得到聚类结果;基于聚类结果生成预设语义字典。
进一步地,文本分析方法还包括:检测至少一个词中是否存在预设词库未包含的词;在检测到至少一个词中存在预设词库未包含的词的情况下,确定预设词库未包含的词为指定类型词;根据指定类型词在待分析文本中的位置从至少一个词中确定提示词;根据提示词与指定类型词在待分析文本中的位置关系确定指定类型词的语义。
进一步地,文本分析方法还包括:步骤1:根据预设语法规则以及指定类型词的语义对至少一个词进行聚合,得到第一聚合词以及第一聚合词对应的概率;步骤2:对第一聚合词再次进行聚合,得到第二聚合词以及第二聚合词对应的概率;步骤3:重复执行步骤1至步骤2,直至完成对待分析文本所包含的全部词进行聚合,得到框架语义。
进一步地,文本分析方法还包括:在待分析文本对应的框架语义为多个的情况下,获取每个框架语义对应的概率;根据每个框架语义对应的概率从多个框架语义中确定目标框架语义。
进一步地,文本分析方法还包括:基于预设文本集确定每个框架语义所包含的框架元素的种类;基于每个框架元素的种类确定每个框架元素所对应的取值范围以及每个框架元素的值所对应的权重;基于每个框架元素所对应的权重得到每个框架语义对应的概率。
进一步地,文本分析方法还包括:基于框架语义以及知识图谱对待分析文本进行语义分析,得到分析结果。
根据本发明实施例的另一方面,还提供了一种文本分析方法,包括:从待分析文本中获取指定类型词,其中,指定类型词为预设词库中未包含的词;根据预设语法规则以及指定类型词的语义对待分析文本中的至少一个词进行聚合,得到待分析文本对应的框架语义;基于框架语义对待分析文本进行语义分析,得到分析结果。
根据本发明实施例的另一方面,还提供了一种文本分析装置,包括:获取模块,用于获取待分析文本;第一聚合模块,用于基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词;确定模块,用于根据待分析文本中的提示词从至少一个词中确定指定类型词的语义,其中,指定类型词为预设词库中未包含的词;第二聚合模块,用于根据预设语法规则以及指定类型词的语义对至少一个词进行聚合,得到待分析文本对应的框架语义;分析模块,用于基于框架语义对待分析文本进行语义分析,得到分析结果。
根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的文本分析方法。
根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述的文本分析方法。
在本发明实施例中,采用根据提示词确定指定类型词的语义,进而根据指定类型词的语义对待分析文本进行语义的方式,在获取待分析文本之后,基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词,然后根据待分析文本中的提示词从至少一个词中确定指定类型词的语义,并根据预设语法规则以及指定类型词的语义对至少一个词进行聚合,得到待分析文本对应的框架语义,最后基于框架语义对待分析文本进行语义分析,得到分析结果。
由上述内容可知,本申请所提供的方案可将切词、词性标注、新词发现、语义分析有机结合在一起,一次性完成多项自然理解任务,避免了将上述多项任务依次堆叠所产生的累积误差。而且,在进行文本切词时,无需前导的切词工具即可实现,进一步提高了语义分析的精度。另外,通过上述方案可以确定待分析文本中的新词(即指定类型词),解决了现有的新词发现问题,而且无需确定新词对应的词向量,提高了语义分析的灵活性。
由此可见,本申请所提供的方案达到了对文本进行分析的目的,从而实现了提高了文本分析准确度的技术效果,进而解决了现有技术无法对文本中包含的新词进行准确分析所导致的文本分析不准确的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文本分析方法的流程图;
图2是根据本发明实施例的一种可选的待分析文本聚合的框图;
图3是根据本发明实施例的一种文本分析方法的流程图;以及
图4是根据本发明实施例的一种文本分析装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种文本分析方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的文本分析方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取待分析文本。
需要说明的是,在本实施例中,执行文本分析方法的执行主体可以为服务器,其中,服务器可与客户端进行通信。
在一种可选的实施例中,在推荐产品的场景中,上述待分析文本可以为当前用户通过客户端输入的搜索的关键词或关键语句,在该场景下,客户端将待分析文本发送至服务器,服务器采用本实施例所提供的文本分析方法对待分析文本进行分析,并根据分析结果向用户推荐产品。
在另一种可选的实施例中,在推荐产品的场景中,上述待分析文本还可以为对使用该客户端的用户所输入的历史搜索词或关键语句。在该场景下,当客户端检测到用户对客户端上的某一网页进行浏览时,客户端将该浏览网页的相关信息(例如,网址)发送至服务器,服务器根据历史浏览该网页的用户输入的历史搜索词或关键语句进行分析,并根据分析结果向用户推荐产品。
步骤S104,基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词。
在步骤S104中,预设语义字典可以为包含语法、百科知识和相关统计信息的语义字典。在本申请中,服务器首先将待分析文本拆分为字,然后基于预设语义字典对待分析文本中的字进行聚合,得到至少一个词。例如,在待分析文本“我给阿明买手机”中,服务器将其拆分为“我”“给”“阿”“明”“买”“手”“机”几个字,然后再对字进行聚合得到词“我”“给”“阿明”“买”“手机”。
步骤S106,根据待分析文本中的提示词从至少一个词中确定指定类型词的语义。
在步骤S106中,指定类型词为预设词库中未包含的词,即新词。上述提示词可以为动词,例如,“说”、“给”、“买”等,例如,在待分析文本“阿明说他很满意”中,“阿明”为指定类型词,“说”为提示词,通过分析可确定“阿明”并不存在预设词库中,又由于“阿明”位于动词“说”之前,因此,可确定指定类型词“阿明”为代词。
需要说明的是,通过步骤S106无需使用Pipeline模型或深度学习模型即可确定指定类型词的语义,提高了文本分析的灵活性。
步骤S108,根据预设语法规则以及指定类型词的语义对至少一个词进行聚合,得到待分析文本对应的框架语义。
可选的,在步骤S108中,预设语法规则可以为自底向上的聚合-评估-淘汰算法。另外,待分析文本中的每个动词对应一个框架语义,其中,框架语义包含多个框架元素,每个框架元素对应的属性值为待分析文本中的词,同义词之间的框架语义可互为参考。
需要说明的是,框架语义的核心概念是框架,其中,一个框架上对应句子中的谓语(即动词),因此,可将一个框架看成一个名值对组成的列表,其中,一个名值对为一个框架元素(FE),或者语义角色,框架语义中必不可少的框架元素为核心元素,其他可有可无的框架元素为周边元素。例如对于“购买(Commerce_Buy)”这个框架,只有“购买人(Buyer)”和“购买物(Goods)”这两个元素为核心元素,“购买时间(Time)”、“受益人(Recipient)”,“价格(Money)”等为周边元素。对自然语言文本进行框架语义分析即是将其转化成一系列框架表示,例如,“小明昨天买了一只手表”这句话用框架语义可表示为:
框架:Commerce_Buy
Buyer:小明
Goods:一只手表
Time:昨天
可选的,在本申请中,可将框架元素合并精简成以下几种:
Agent:施动者
Patient:受动者
Beneficiary:收益者
Time:时间点
Place:地点
Manner:方式
Degree:程度
Purpose:目的
Duration:持续时长
Circumstances:发生的环境
Frequency:发生频率
Source:来源
Target:目标
Cause:原因
Stress:强调
Tense:时态
Attribute:其他修饰
此外,还需要说明的是,还可将框架语义扩展到其他词性,在此不再赘述。
步骤S110,基于框架语义对待分析文本进行语义分析,得到分析结果。
在步骤S110中,在确定了待分析文本的框架语义之后,可基于框架语义以及知识图谱对待分析文本进行语义分析,得到分析结果。需要说明的是,结合知识图谱对待分析文本进行语义分析,能够保证分析结果更加准确,提高了语义分析的准确度。
基于上述步骤S102至步骤S110所限定的方案,可以获知,采用根据提示词确定指定类型词的语义,进而根据指定类型词的语义对待分析文本进行语义的方式,在获取待分析文本之后,基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词,然后根据待分析文本中的提示词从至少一个词中确定指定类型词的语义,并根据预设语法规则以及指定类型词的语义对至少一个词进行聚合,得到待分析文本对应的框架语义,最后基于框架语义对待分析文本进行语义分析,得到分析结果。
容易注意到的是,本申请所提供的方案可将切词、词性标注、新词发现、语义分析有机结合在一起,一次性完成多项自然理解任务,避免了将上述多项任务依次堆叠所产生的累积误差。而且,在进行文本切词时,无需前导的切词工具即可实现,进一步提高了语义分析的精度。另外,通过上述方案可以确定待分析文本中的新词(即指定类型词),解决了现有的新词发现问题,而且无需确定新词对应的词向量,提高了语义分析的灵活性。
由此可见,本申请所提供的方案达到了对文本进行分析的目的,从而实现了提高了文本分析准确度的技术效果,进而解决了现有技术无法对文本中包含的新词进行准确分析所导致的文本分析不准确的技术问题。
在一种可选的实施例中,在基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词之前,服务器需要确定预设语义字典。具体的,服务器首先获取核心词,其中,核心词至少包括虚词以及动词。然后基于预设词典确定核心词对应的语法,并基于核心词以及语法得到第一语义词典,基于互联网对第一语义词典进行名词扩充,得到第二语义词典,最后,对第二语义词典中的名词进行聚类,得到聚类结果,基于聚类结果生成预设语义字典。
可选的,服务器可根据《现代汉语词典》对核心词的解释,依次编写核心词的语法。其中,核心词的语法的格式类似于产生式,同时包含了语法、语义角色、可搭配词的取值范围以及每个词的权重等信息。例如,核心词“给”解释为“引进动作的对象,跟“向”相同”,由此得到的语法为:
~[:GRM]{NP:TARGET}{VP:CORE}->{VP}
在上式中,GRM表示语法结构,NP表示名词短语,VP表示动词短语,~表示核心词,在上述举例中,~表示“给”。
通过上述步骤可以得到第一语义词典,然后基于互联网中的百科词条扩充第一语义词典中的名词,得到第二语义词典。最后,基于百科词条对第二语义词典进行聚类,得到18个大类,将第二语义词典的所有名词分到这18个大类下,即得到预设语义词典。
进一步地,在得到了预设语义词典之后,服务器即可基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词,然后再根据待分析文本中的提示词从至少一个词中确定指定类型词的语义。具体的,服务器首先检测至少一个词中是否存在预设词库未包含的词,其中,在检测到至少一个词中存在预设词库未包含的词的情况下,确定预设词库未包含的词为指定类型词,并根据指定类型词在待分析文本中的位置从至少一个词中确定提示词,最后根据提示词与指定类型词在待分析文本中的位置关系确定指定类型词的语义。例如,在待分析文本“阿明说他很满意”中,“阿明”并不存在预设词库中,则可确定“阿明”为指定类型词,然后再分析在待分析文本中指定类型词“阿明”之前或之后的词的词性,例如,在待分析文本“阿明说他很满意”中,指定类型词“阿明”位于待分析文本的句首,指定类型词“阿明”之后的词为动词,则可确定指定类型词“阿明”之后的“说”为指示词。又由于“阿明”位于动词“说”之前,因此,可确定指定类型词“阿明”为代词,在待分析文本中作为主语。
在一种可选的实施例中,服务器通过如下步骤来确定待分析文本对应的框架语义:
步骤1:根据预设语法规则以及指定类型词的语义对至少一个词进行聚合,得到第一聚合词以及第一聚合词对应的概率;
步骤2:对第一聚合词再次进行聚合,得到第二聚合词以及第二聚合词对应的概率;
步骤3:重复执行步骤1至步骤2,直至完成对待分析文本所包含的全部词进行聚合,得到框架语义。
以图2所示的待分析文本“我给阿明买手机”聚合的框图为例进行说明,首先将“我给阿明买手机”拆分为字,得到“我”“给”“阿”“明”“买”“手”“机”几个字,然后再对字进行聚合得到词“我”“给”“阿明”“买”“手机”,其中,词1为“阿明”,词2为“手机”,并确定指定类型词为词1“阿明”。然后再对“我”“给”“阿明”“买”“手机”进行聚合,得到词3“买手机”,再对“我”“给”“阿明”“买手机”进行聚合,得到词4“我”“给阿明买手机”,最后对“我”“给阿明买手机”进行聚合,得到词5“我给阿明买手机”,最终得到的框架语义如下:
CORE:买
AGENT:我
PATIENT:手机
GRAMMER_UNIT:给
BENEFICIARY:阿明
需要说明的是,在对词进行上述聚合的过程中,词与词之间可进行多种聚合,例如,“我”可以与“给”聚合,还可以与“买”聚合等。为了能够得到更加准确的框架语义,在对词进行聚合时,同时获取聚合词对应的概率,将聚合后概率最高的词作为最终的聚合词。
在一种可选的实施例中,在待分析文本对应的框架语义为多个的情况下,服务器获取每个框架语义对应的概率,并根据每个框架语义对应的概率从多个框架语义中确定目标框架语义。可选的,服务器基于预设文本集确定每个框架语义所包含的框架元素的种类,然后基于每个框架元素的种类确定每个框架元素所对应的取值范围以及每个框架元素的值所对应的权重,最后基于每个框架元素所对应的权重得到每个框架语义对应的概率。可选的,服务器从多个框架语义中选择概率大的框架语义作为目标框架语义。
在确定了待分析文本的框架语义之后,可基于框架语义以及知识图谱对待分析文本进行语义分析,得到分析结果。需要说明的是,结合知识图谱对待分析文本进行语义分析,能够保证分析结果更加准确,提高了语义分析的准确度。
需要说明的是,在本申请中,当确定了待分析文本中的新词(即指定类型词)之后,还可将指定类型词加入至预设语义字典中,以实现对预设语义字典的完善。
由上述内容可知,本申请所提供的方案可将切词、词性标注、新词发现、语义分析有机结合在一起,一次性完成多项自然理解任务,避免了将上述多项任务依次堆叠所产生的累积误差。同时,本申请所提供的方案可以通过不断优化词的语法,以及向预设语义字典中添加新词来不断适应层出不穷的新语法现象和新事物。
实施例2
根据本发明实施例,还提供了一种文本分析方法的实施例,其中,图3是根据本发明实施例的文本分析方法的流程图,如图3所示,该方法包括如下步骤:
步骤S302,从待分析文本中获取指定类型词,其中,指定类型词为预设词库中未包含的词。
可选的,服务器可以基于大数据技术直接从待分析文本中确定指定类型词。另外,服务器还可在获取待分析文本之后,基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词,然后根据待分析文本中的提示词从至少一个词中确定指定类型词的语义。
在步骤上述过程中,提示词可以为动词,例如,“说”、“给”、“买”等,例如,在待分析文本“阿明说他很满意”中,“阿明”为指定类型词,“说”为提示词,通过分析可确定“阿明”并不存在预设词库中,又由于“阿明”位于动词“说”之前,因此,可确定指定类型词“阿明”为代词。
在一种可选的实施例中,在基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词之前,服务器需要确定预设语义字典。具体的,服务器首先获取核心词,其中,核心词至少包括虚词以及动词。然后基于预设词典确定核心词对应的语法,并基于核心词以及语法得到第一语义词典,基于互联网对第一语义词典进行名词扩充,得到第二语义词典,最后,对第二语义词典中的名词进行聚类,得到聚类结果,基于聚类结果生成预设语义字典。
进一步地,在得到了预设语义词典之后,服务器即可基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词,然后再根据待分析文本中的提示词从至少一个词中确定指定类型词的语义。具体的,服务器首先检测至少一个词中是否存在预设词库未包含的词,其中,在检测到至少一个词中存在预设词库未包含的词的情况下,确定预设词库未包含的词为指定类型词,并根据指定类型词在待分析文本中的位置从至少一个词中确定提示词,最后根据提示词与指定类型词在待分析文本中的位置关系确定指定类型词的语义。
需要说明的是,通过步骤S302无需使用Pipeline模型或深度学习模型即可确定指定类型词的语义,提高了文本分析的灵活性。
步骤S304,根据预设语法规则以及指定类型词的语义对待分析文本中的至少一个词进行聚合,得到待分析文本对应的框架语义。
可选的,在步骤S304中,预设语法规则可以为自底向上的聚合-评估-淘汰算法。另外,待分析文本中的每个动词对应一个框架语义,其中,框架语义包含多个框架元素,每个框架元素对应的属性值为待分析文本中的词,同义词之间的框架语义可互为参考。
在一种可选的实施例中,服务器通过如下步骤来确定待分析文本对应的框架语义:
步骤1:根据预设语法规则以及指定类型词的语义对至少一个词进行聚合,得到第一聚合词以及第一聚合词对应的概率;
步骤2:对第一聚合词再次进行聚合,得到第二聚合词以及第二聚合词对应的概率;
步骤3:重复执行步骤1至步骤2,直至完成对待分析文本所包含的全部词进行聚合,得到框架语义。
在一种可选的实施例中,在待分析文本对应的框架语义为多个的情况下,服务器获取每个框架语义对应的概率,并根据每个框架语义对应的概率从多个框架语义中确定目标框架语义。可选的,服务器基于预设文本集确定每个框架语义所包含的框架元素的种类,然后基于每个框架元素的种类确定每个框架元素所对应的取值范围以及每个框架元素的值所对应的权重,最后基于每个框架元素所对应的权重得到每个框架语义对应的概率。可选的,服务器从多个框架语义中选择概率大的框架语义作为目标框架语义。
步骤S306,基于框架语义对待分析文本进行语义分析,得到分析结果。
在步骤S306中,在确定了待分析文本的框架语义之后,可基于框架语义以及知识图谱对待分析文本进行语义分析,得到分析结果。需要说明的是,结合知识图谱对待分析文本进行语义分析,能够保证分析结果更加准确,提高了语义分析的准确度。
由上述内容可知,本申请所提供的方案可将切词、词性标注、新词发现、语义分析有机结合在一起,一次性完成多项自然理解任务,避免了将上述多项任务依次堆叠所产生的累积误差。而且,在进行文本切词时,无需前导的切词工具即可实现,进一步提高了语义分析的精度。另外,通过上述方案可以确定待分析文本中的新词(即指定类型词),解决了现有的新词发现问题,而且无需确定新词对应的词向量,提高了语义分析的灵活性。
由此可见,本申请所提供的方案达到了对文本进行分析的目的,从而实现了提高了文本分析准确度的技术效果,进而解决了现有技术无法对文本中包含的新词进行准确分析所导致的文本分析不准确的技术问题。
实施例3
根据本发明实施例,还提供了一种文本分析装置的实施例,其中,图4是根据本发明实施例的文本分析装置的示意图,如图4所示,该装置包括:获取模块401、第一聚合模块403、确定模块405、第二聚合模块407以及分析模块409。
其中,获取模块401,用于获取待分析文本;第一聚合模块403,用于基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词;确定模块405,用于根据待分析文本中的提示词从至少一个词中确定指定类型词的语义,其中,指定类型词为预设词库中未包含的词;第二聚合模块407,用于根据预设语法规则以及指定类型词的语义对至少一个词进行聚合,得到待分析文本对应的框架语义;分析模块409,用于基于框架语义对待分析文本进行语义分析,得到分析结果。
此处需要说明的是,上述获取模块401、第一聚合模块403、确定模块405、第二聚合模块407以及分析模块409对应于上述实施例的步骤S102至步骤S110,五个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。
可选的,待分析文本中的每个动词对应一个框架语义,其中,框架语义包含多个框架元素,每个框架元素对应的属性值为待分析文本中的词。
在一种可选的实施例中,文本分析装置还包括:第一获取模块、第一确定模块、第一处理模块、扩充模块、聚类模块以及生成模块。其中,第一获取模块,用于在基于预设语义字典对待分析文本中所包含的字进行聚合,得到至少一个词之前,获取核心词,其中,核心词至少包括虚词以及动词;第一确定模块,用于基于预设词典确定核心词对应的语法;第一处理模块,用于基于核心词以及语法得到第一语义词典;扩充模块,用于基于互联网对第一语义词典进行名词扩充,得到第二语义词典;聚类模块,用于对第二语义词典中的名词进行聚类,得到聚类结果;生成模块,用于基于聚类结果生成预设语义字典。
在一种可选的实施例中,确定模块包括:检测模块、第二确定模块、第三确定模块以及第四确定模块。其中,检测模块,用于检测至少一个词中是否存在预设词库未包含的词;第二确定模块,用于在检测到至少一个词中存在预设词库未包含的词的情况下,确定预设词库未包含的词为指定类型词;第三确定模块,用于根据指定类型词在待分析文本中的位置从至少一个词中确定提示词;第四确定模块,用于根据提示词与指定类型词在待分析文本中的位置关系确定指定类型词的语义。
在一种可选的实施例中,第二聚合模块执行如下步骤:步骤1:根据预设语法规则以及指定类型词的语义对至少一个词进行聚合,得到第一聚合词以及第一聚合词对应的概率;步骤2:对第一聚合词再次进行聚合,得到第二聚合词以及第二聚合词对应的概率;步骤3:重复执行步骤1至步骤2,直至完成对待分析文本所包含的全部词进行聚合,得到框架语义。
在一种可选的实施例中,文本分析装置还包括:第二获取模块以及第五确定模块。其中,第二获取模块,用于在待分析文本对应的框架语义为多个的情况下,获取每个框架语义对应的概率;第五确定模块,用于根据每个框架语义对应的概率从多个框架语义中确定目标框架语义。
在一种可选的实施例中,第二获取模块包括:第六确定模块、第七确定模块以及第二处理模块。其中,第六确定模块,用于基于预设文本集确定每个框架语义所包含的框架元素的种类;第七确定模块,用于基于每个框架元素的种类确定每个框架元素所对应的取值范围以及每个框架元素的值所对应的权重;第二处理模块,用于基于每个框架元素所对应的权重得到每个框架语义对应的概率。
在一种可选的实施例中,分析模块还用于基于框架语义以及知识图谱对待分析文本进行语义分析,得到分析结果。
实施例4
根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述实施例1中的文本分析方法。
实施例5
根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述实施例1中的文本分析方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种文本分析方法,其特征在于,包括:
获取待分析文本;
基于预设语义字典对所述待分析文本中所包含的字进行聚合,得到至少一个词;
根据所述待分析文本中的提示词从所述至少一个词中确定指定类型词的语义,其中,所述指定类型词为预设词库中未包含的词;
根据预设语法规则以及所述指定类型词的语义对所述至少一个词进行聚合,得到所述待分析文本对应的框架语义;
基于所述框架语义对所述待分析文本进行语义分析,得到分析结果。
2.根据权利要求1所述的方法,其特征在于,所述待分析文本中的每个动词对应一个所述框架语义,其中,所述框架语义包含多个框架元素,每个框架元素对应的属性值为所述待分析文本中的词。
3.根据权利要求1所述的方法,其特征在于,在基于预设语义字典对所述待分析文本中所包含的字进行聚合,得到至少一个词之前,所述方法还包括:
获取核心词,其中,所述核心词至少包括虚词以及动词;
基于预设词典确定所述核心词对应的语法;
基于所述核心词以及所述语法得到第一语义词典;
基于互联网对所述第一语义词典进行名词扩充,得到第二语义词典;
对所述第二语义词典中的名词进行聚类,得到聚类结果;
基于所述聚类结果生成所述预设语义字典。
4.根据权利要求1所述的方法,其特征在于,根据所述待分析文本中的提示词从所述至少一个词中确定指定类型词的语义,包括:
检测所述至少一个词中是否存在所述预设词库未包含的词;
在检测到所述至少一个词中存在所述预设词库未包含的词的情况下,确定所述预设词库未包含的词为所述指定类型词;
根据所述指定类型词在所述待分析文本中的位置从所述至少一个词中确定所述提示词;
根据所述提示词与所述指定类型词在所述待分析文本中的位置关系确定所述指定类型词的语义。
5.根据权利要求1所述的方法,其特征在于,根据预设语法规则以及所述指定类型词的语义对所述至少一个词进行聚合,得到所述待分析文本对应的框架语义,包括:
步骤1:根据所述预设语法规则以及所述指定类型词的语义对所述至少一个词进行聚合,得到第一聚合词以及所述第一聚合词对应的概率;
步骤2:对所述第一聚合词再次进行聚合,得到第二聚合词以及所述第二聚合词对应的概率;
步骤3:重复执行所述步骤1至所述步骤2,直至完成对所述待分析文本所包含的全部词进行聚合,得到所述框架语义。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述待分析文本对应的框架语义为多个的情况下,获取每个框架语义对应的概率;
根据所述每个框架语义对应的概率从多个框架语义中确定目标框架语义。
7.根据权利要求6所述的方法,其特征在于,获取每个框架语义对应的概率,包括:
基于预设文本集确定所述每个框架语义所包含的框架元素的种类;
基于每个框架元素的种类确定所述每个框架元素所对应的取值范围以及每个框架元素的值所对应的权重;
基于所述每个框架元素所对应的权重得到所述每个框架语义对应的概率。
8.根据权利要求1所述的方法,其特征在于,基于所述框架语义对所述待分析文本进行语义分析,得到分析结果,包括:
基于所述框架语义以及知识图谱对所述待分析文本进行语义分析,得到分析结果。
9.一种文本分析方法,其特征在于,包括:
从待分析文本中获取指定类型词,其中,所述指定类型词为预设词库中未包含的词;
根据预设语法规则以及所述指定类型词的语义对所述待分析文本中的至少一个词进行聚合,得到所述待分析文本对应的框架语义;
基于所述框架语义对所述待分析文本进行语义分析,得到分析结果。
10.一种文本分析装置,其特征在于,包括:
获取模块,用于获取待分析文本;
第一聚合模块,用于基于预设语义字典对所述待分析文本中所包含的字进行聚合,得到至少一个词;
确定模块,用于根据所述待分析文本中的提示词从所述至少一个词中确定指定类型词的语义,其中,所述指定类型词为预设词库中未包含的词;
第二聚合模块,用于根据预设语法规则以及所述指定类型词的语义对所述至少一个词进行聚合,得到所述待分析文本对应的框架语义;
分析模块,用于基于所述框架语义对所述待分析文本进行语义分析,得到分析结果。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的文本分析方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的文本分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911151216.7A CN110929501B (zh) | 2019-11-21 | 2019-11-21 | 文本分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911151216.7A CN110929501B (zh) | 2019-11-21 | 2019-11-21 | 文本分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929501A true CN110929501A (zh) | 2020-03-27 |
CN110929501B CN110929501B (zh) | 2023-11-03 |
Family
ID=69851554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911151216.7A Active CN110929501B (zh) | 2019-11-21 | 2019-11-21 | 文本分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929501B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800778A (zh) * | 2021-02-07 | 2021-05-14 | 北京智通云联科技有限公司 | 一种基于词串长度的意图识别方法、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005557A (zh) * | 2015-08-06 | 2015-10-28 | 电子科技大学 | 一种基于依存分析的中文兼类词处理方法 |
CN109522418A (zh) * | 2018-11-08 | 2019-03-26 | 杭州费尔斯通科技有限公司 | 一种半自动的知识图谱构建方法 |
CN110287291A (zh) * | 2019-07-03 | 2019-09-27 | 桂林电子科技大学 | 一种无监督的英语短文句子跑题分析方法 |
-
2019
- 2019-11-21 CN CN201911151216.7A patent/CN110929501B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005557A (zh) * | 2015-08-06 | 2015-10-28 | 电子科技大学 | 一种基于依存分析的中文兼类词处理方法 |
CN109522418A (zh) * | 2018-11-08 | 2019-03-26 | 杭州费尔斯通科技有限公司 | 一种半自动的知识图谱构建方法 |
CN110287291A (zh) * | 2019-07-03 | 2019-09-27 | 桂林电子科技大学 | 一种无监督的英语短文句子跑题分析方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800778A (zh) * | 2021-02-07 | 2021-05-14 | 北京智通云联科技有限公司 | 一种基于词串长度的意图识别方法、系统及存储介质 |
CN112800778B (zh) * | 2021-02-07 | 2023-07-18 | 北京智通云联科技有限公司 | 一种基于词串长度的意图识别方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110929501B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN105989040B (zh) | 智能问答的方法、装置及系统 | |
US20180341871A1 (en) | Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains | |
US8370278B2 (en) | Ontological categorization of question concepts from document summaries | |
US20150066711A1 (en) | Methods, apparatuses and computer-readable mediums for organizing data relating to a product | |
CN111382255A (zh) | 用于问答处理的方法、装置、设备和介质 | |
US10032448B1 (en) | Domain terminology expansion by sensitivity | |
CN111507088A (zh) | 语句补全方法、设备及可读存储介质 | |
CN111563384A (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN111611791B (zh) | 一种文本处理的方法及相关装置 | |
CN111160041A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN113988057A (zh) | 基于概念抽取的标题生成方法、装置、设备及介质 | |
CN116662495A (zh) | 问答处理方法、训练问答处理模型的方法及装置 | |
CN111859974A (zh) | 一种结合知识图谱的语义消歧方法和装置、智能学习设备 | |
CN116719954B (zh) | 一种信息检索方法、电子设备及存储介质 | |
CN110929501B (zh) | 文本分析方法和装置 | |
CN114077834A (zh) | 确定相似文本的方法、装置以及存储介质 | |
CN105786794B (zh) | 一种问答对检索方法及社区问答检索系统 | |
US20230274161A1 (en) | Entity linking method, electronic device, and storage medium | |
US10296585B2 (en) | Assisted free form decision definition using rules vocabulary | |
CN110929513A (zh) | 基于文本的标签体系构建方法及装置 | |
CN110717029A (zh) | 一种信息处理方法和系统 | |
CN115544204A (zh) | 一种不良语料过滤方法以及系统 | |
Wang et al. | Contextual compositionality detection with external knowledge bases and word embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Dongjun Inventor after: Huang Yu Inventor after: Wang Fenglei Inventor before: Huang Yu Inventor before: Wang Fenglei Inventor before: Li Dongjun |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |