CN107748742A - 一种基于句法依存关系提取中心词的方法、终端以及设备 - Google Patents
一种基于句法依存关系提取中心词的方法、终端以及设备 Download PDFInfo
- Publication number
- CN107748742A CN107748742A CN201710458259.4A CN201710458259A CN107748742A CN 107748742 A CN107748742 A CN 107748742A CN 201710458259 A CN201710458259 A CN 201710458259A CN 107748742 A CN107748742 A CN 107748742A
- Authority
- CN
- China
- Prior art keywords
- word
- subtree
- node
- structure tree
- syntactic structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种基于句法依存关系提取中心词的方法、终端以及设备,其中所述方法包括:获取用户输入的文本信息;根据预设的句法依存规则确定所述文本信息的句法结构树;对所述句法结构树进行修剪;根据修剪后的句法结构树构建子树;计算所述子树中各词节点的初步分数;根据所述初步分数提取所述文本信息中的中心词。本发明充分理解用户所输入的文本信息并进行中心词提取,另外,利用句法依存规则针对性地构建子树,进一步提高了中心词提取的处理效果,并且操作方便、配置灵活。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于句法依存关系提取中心词的方法、终端以及设备。
背景技术
中心词提取,顾名思义,即是为一段自然语言文本提取出其中比较重要的、能够概括该段文本的内容的一些词语。目前,常用的中心词提取方法有TF-IDF方法、TextRank方法等,这些方法具备一定的通用性,但是上述常用的方法中存在以下缺点:利用用户所输入的文本本身的特征进行中心词提取的方式十分有限,对于各特定领域的应用而言,直接使用现有的方法进行中心词提取会导致提取的效果很不理想,无法满足应用的要求。
发明内容
本发明实施例提供一种基于句法依存关系提取中心词的方法、终端以及设备,可以充分理解用户所输入的文本信息并进行中心词提取,提高了中心词提取的处理效果,并且操作方便、配置灵活。
一方面,本发明实施例提供了一种基于句法依存关系提取中心词的方法,该方法包括:
获取用户输入的文本信息;
根据预设的句法依存规则确定所述文本信息的句法结构树;
对所述句法结构树进行修剪;
根据修剪后的句法结构树构建子树;
计算所述子树中各词节点的初步分数;
根据所述初步分数提取所述文本信息中的中心词。
进一步地,所述对所述句法结构树进行修剪,包括:
获取所述句法结构树中部分关系成分的词节点;
将部分关系成分的词节点删除。
进一步地,所述根据修剪后的句法结构树构建子树,包括:
获取修剪后的句法结构树中的核心词节点以及与所述核心词节点并列关系的其它词节点;
根据所述核心词节点以及与所述核心词节点并列关系的其它词节点构建子树。
进一步地,所述计算所述子树中各词节点的初步分数,包括:
根据所述子树中各个词节点的词性、句法关系角色、词长以及节点深度计算所述初步分数;
所述根据所述初步分数提取所述文本信息中的中心词,包括:
根据所述初步分数对所述子树中各词节点进行排序;
根据所述排序的结果提取所述文本信息中的中心词。
进一步地,在所述计算所述子树中各词节点的初步分数,包括:
判断所述子树中是否存在并列关系的词节点;
若所述子树中存在并列关系的词节点,根据预设分配规则计算所述子树中并列关系的各词节点的初步分数。
另一方面,本发明实施例还提供了一种基于句法依存关系提取中心词的终端,该终端包括:
第一获取单元,用于获取用户输入的文本信息;
确定单元,用于根据预设的句法依存规则确定所述文本信息的句法结构树;
修剪单元,用于对所述句法结构树进行修剪;
构建单元,用于根据修剪后的句法结构树构建子树;
计算单元,用于计算所述子树中各词节点的初步分数;
提取单元,用于根据所述初步分数提取所述文本信息中的中心词。
进一步地,所述修剪单元,包括:
第二获取单元,用于获取所述句法结构树中部分关系成分的词节点;
删除单元,用于将部分关系成分的词节点删除。
进一步地,所述构建单元,包括:
第三获取单元,用于获取修剪后的句法结构树中的核心词节点以及与所述核心词节点并列关系的其它词节点;
构建子单元,用于根据所述核心词节点以及与所述核心词节点并列关系的其它词节点构建子树。
进一步地,所述计算单元具体用于:
根据所述子树中各个词节点的词性、句法关系角色、词长以及节点深度计算所述初步分数;
所述提取单元,包括:
排序单元,用于根据所述初步分数对所述子树中各词节点进行排序;
提取子单元,用于根据所述排序的结果提取所述文本信息中的中心词;
所述计算单元,包括:
判断单元,用于判断所述子树中是否存在并列关系的词节点;
计算子单元,用于若所述子树中存在并列关系的词节点,根据预设分配规则计算所述子树中并列关系的各词节点的初步分数。
另一方面,本发明实施例还提供了一种基于句法依存关系提取中心词的设备,包括:
存储器,用于存储实现提取中心词的程序,以及
处理器,用于运行所述存储器中存储的实现提取中心词的程序,以执行以下操作:
获取用户输入的文本信息;
根据预设的句法依存规则确定所述文本信息的句法结构树;
对所述句法结构树进行修剪;
根据修剪后的句法结构树构建子树;
计算所述子树中各词节点的初步分数;
根据所述初步分数提取所述文本信息中的中心词。
综上所述,本发明具有以下有益效果:本发明实施例通过获取用户输入的文本信息,根据预设的句法依存规则确定所述文本信息的句法结构树,对所述句法结构树进行修剪,根据修剪后的句法结构树构建子树,计算所述子树中各词节点的初步分数,根据所述初步分数提取所述文本信息中的中心词,可以充分理解用户所输入的文本信息并进行中心词提取,另外,利用句法依存规则针对性地构建子树,进一步提高了中心词提取的处理效果,并且操作方便、配置灵活。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于句法依存关系提取中心词的方法的示意流程图。
图2是本发明实施例提供的一种基于句法依存关系提取中心词的方法的演示示意图。
图3是本发明实施例提供的一种基于句法依存关系提取中心词的方法的另一演示示意图。
图4是本发明实施例提供的一种基于句法依存关系提取中心词的方法的另一示意流程图。
图5是本发明实施例提供的一种基于句法依存关系提取中心词的方法的另一示意流程图。
图6是本发明实施例提供的一种基于句法依存关系提取中心词的方法的另一演示示意图。
图7是本发明实施例提供的一种基于句法依存关系提取中心词的方法的另一示意流程图。
图8是本发明另一实施例提供的一种基于句法依存关系提取中心词的方法的示意流程图。
图9是本发明实施例提供的一种基于句法依存关系提取中心词的终端的示意性框图。
图10是本发明实施例提供的一种基于句法依存关系提取中心词的终端的另一示意性框图。
图11是本发明实施例提供的一种基于句法依存关系提取中心词的终端的另一示意性框图。
图12是本发明实施例提供的一种基于句法依存关系提取中心词的终端的另一示意性框图。
图13是本发明实施例提供的一种基于句法依存关系提取中心词的终端的另一示意性框图。
图14是本发明实施例提供的一种基于句法依存关系提取中心词的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
请参阅图1,图1是本发明实施例提供的一种基于句法依存关系提取中心词的方法的示意流程图。该方法可以运行在智能手机(如Android手机、IOS手机等)、平板电脑、笔记本电脑以及智能设备等终端中。该方法主要是对用户输入的文本信息中的中心词进行提取,本发明的方法可以充分理解用户所输入的文本信息并进行中心词提取,另外,还可以提高中心词提取的处理效果,并且操作方便、配置灵活。如图1所示,该方法的步骤S101~S106。
S101,获取用户输入的文本信息。
在本发明实施例中,用户输入的文本信息可以是用户在终端的网页浏览器或者搜索引擎上输入的查询文本,例如用户输入的查询文本为“胃痛,舌苔厚、发白是什么原因”,终端的网页浏览器或者搜索引擎便会实时获取用户输入的查询文本,即“胃痛,舌苔厚,发白是什么原因”。
S102,根据预设的句法依存规则确定所述文本信息的句法结构树。
在本发明实施例中,所述预设的句法依存规则指的是通过分析语言单位内成分之间的依存关系揭示其句法结构,并指出词语之间在句法上的搭配关系。根据预设的句法依存规则确定所述文本信息的句法结构树,例如对于文本信息“胃痛,舌苔厚、发白是什么原因”,通过预设的句法依存规则分析之后可以得到如图2所示的句法结构树,其中“是”为该文本信息的核心关系,“胃痛”、“舌苔厚”、“舌苔发白”均为该文本信息的主语,并与核心关系“是”组成主谓关系,“原因”为该文本信息的宾语,“什么”与宾语“原因”组成定中关系;相同地,再例如,对于文本信息“颈椎动脉供血不足,牵引治疗还是手术治疗能彻底治愈?”,通过预设的句法依存规则分析之后可以得到如图3所示的句法结构树。
S103,对所述句法结构树进行修剪。
在本发明实施例中,在所述句法结构树中包括有多个词节点,对所述句法结构树进行修剪,例如对图3中的句法结构树进行修剪,修剪的内容包括去除停留词,以及不需要的关系成分的词节点,因此所去除的词节点可以根据具体领域应用再加以配置,对结构树并未构成影响;具体地,如图4所示,步骤S103中,对所述句法结构树进行修剪,包括如下步骤S201~S202:
S201,获取所述句法结构树中部分关系成分的词节点。
在本发明实施例中,例如图3所示,在图中的句法结构树中,部分的关系成分的词节点包括有标点符号的词节点、状中结构的词节点以及不需要的其它关系成分的词节点,其中,标点符号的词节点为“?”、“,”,状中结构的词节点为“还是”、“能”、“彻底”,另外,在图中的句法结构树中不需要的其它关系成分的词节点包括有“治疗”、“治愈”,具体地,本发明实施例中不需要的其它关系成分的词节点可以根据实际情况进行筛选,具体的筛选方法在此不作限制。
S202,将部分关系成分的词节点删除。
在本发明实施例中,将部分关系成分的词节点删除,即,直接在所述句法结构树中将部分关系成分的词节点删除即可,当删除部分关系成分的词节点后,其它存在关系成分的词节点将保持原来在该句法结构树中的相对层级关系。
S104,根据修剪后的句法结构树构建子树。
进一步地,如图5所示,步骤S104包括步骤S301~S302。
S301,获取修剪后的句法结构树中的核心词节点以及与所述核心词节点并列关系的其它词节点。
在本发明实施例中,例如图3所示的句法结构树中,核心词节点为“不足”,与该心词节点为并列关系的词节点为“牵引”。
S302,根据所述核心词节点以及与所述核心词节点并列关系的其它词节点构建子树。
在本发明实施例中,根据修剪后的句法结构树中的各节点的相对层级关系,以及所述核心词节点和与该核心词节点并列关系的其它词节点构建子树,例如图6所示,将修剪后的句法结构树构建如图中的子树,在后续的中心词提取过程中将以所构建的子树为单元进行处理。
S105,计算所述子树中各词节点的初步分数。
在本发明实施例中,根据其词性、句法关系角色、词长、节点深度等因素计算所述子树中每个词节点的初步分数。
需要说明的是,由于中心词通常都是名词、动词、形容词等,故词性因素中这些词性的分数较高;通常而言,词语长度越长,其信息量越大,是中心词的可能性更高,分数较高;句法关系角色因素中,核心关系、主谓关系、动宾关系等是中心词的可能性比较高,分数较高;例如,在在线医疗问诊文本场景中,在修剪后的句法结构树中深度较大的词节点通常都是重要的词,比如限定了某某症状出现的身体部位等等,因此词节点深度越大,分数越高,具体的,可以根据预设的加权规则加权组合这些特征因素的得分,为每个词节点得到综合的初步打分结果,其中,所述预设的加权规则可以由用户自行设置,具体的规则在此不作限定。
S106,根据所述初步分数提取所述文本信息中的中心词。
进一步地,如图7所示,步骤S106包括步骤S401~S402。
S401,根据所述初步分数对所述子树中各词节点进行排序。
S402,根据所述排序的结果提取所述文本信息中的中心词。
在本发明实施例中,例如将所述初步分数得分最高的词节点进行提取,并作为所述文本信息中的中心词。
由以上可见,本发明实施例通过获取用户输入的文本信息,根据预设的句法依存规则确定所述文本信息的句法结构树,对所述句法结构树进行修剪,根据修剪后的句法结构树构建子树,计算所述子树中各词节点的初步分数,根据所述初步分数提取所述文本信息中的中心词,可以充分理解用户所输入的文本信息并进行中心词提取,另外,利用句法依存规则针对性地构建子树,进一步提高了中心词提取的处理效果,并且操作方便、配置灵活。
请参阅图8,图8是本发明实施例提供的一种基于句法依存关系提取中心词的方法的示意流程图。该方法可以运行在智能手机(如Android手机、IOS手机等)、平板电脑、笔记本电脑以及智能设备等终端中。该方法主要是对用户输入的文本信息中的中心词进行提取,本发明的方法可以充分理解用户所输入的文本信息并进行中心词提取,另外,还可以提高中心词提取的处理效果,并且操作方便、配置灵活。如图8所示,该方法的步骤S501~S507。
S501,获取用户输入的文本信息。
在本发明实施例中,用户输入的文本信息可以是用户在终端的网页浏览器或者搜索引擎上输入的查询文本,例如用户输入的查询文本为“胃痛,舌苔厚、发白是什么原因”,终端的网页浏览器或者搜索引擎便会实时获取用户输入的查询文本,即“胃痛,舌苔厚,发白是什么原因”。
S502,根据预设的句法依存规则确定所述文本信息的句法结构树。
在本发明实施例中,所述预设的句法依存规则指的是通过分析语言单位内成分之间的依存关系揭示其句法结构,并指出词语之间在句法上的搭配关系。根据预设的句法依存规则确定所述文本信息的句法结构树,例如对于文本信息“胃痛,舌苔厚、发白是什么原因”,通过预设的句法依存规则分析之后可以得到如图2所示的句法结构树,其中“是”为该文本信息的核心关系,“胃痛”、“舌苔厚”、“舌苔发白”均为该文本信息的主语,并与核心关系“是”组成主谓关系,“原因”为该文本信息的宾语,“什么”与宾语“原因”组成定中关系;相同地,再例如,对于文本信息“颈椎动脉供血不足,牵引治疗还是手术治疗能彻底治愈?”,通过预设的句法依存规则分析之后可以得到如图3所示的句法结构树。
S503,对所述句法结构树进行修剪。
在本发明实施例中,在所述句法结构树中包括有多个词节点,对所述句法结构树进行修剪,例如对图3中的句法结构树进行修剪,修剪的内容包括去除停留词,以及不需要的关系成分的词节点,因此所去除的词节点可以根据具体领域应用再加以配置,对结构树并未构成影响。
S504,根据修剪后的句法结构树构建子树。
S505,判断所述子树中是否存在并列关系的词节点。
在本发明实施例中,由于并列关系意味着这些词之间的语义作用比较类似,在得到初步分数之后,对每一组并列关系的词节点,根据词长来调整组内各词的得分。
S506,若所述子树中存在并列关系的词节点,根据预设分配规则计算所述子树中并列关系的各词节点的初步分数。
在本发明实施例中,若所述子树中存在并列关系的词节点,根据预设分配规则计算所述子树中并列关系的各词节点的初步分数,具体的,将每一组具有并列关系的词节点,在组内对各词节点的初步分数进行求和,并将总分数根据各词的词长占组内所有词词长之和的比重来分配。
S507,根据所述初步分数提取所述文本信息中的中心词。
由以上可见,本发明实施例通过判断所述子树中是否存在并列关系的词节点,若所述子树中存在并列关系的词节点,根据预设分配规则重新计算所述子树中并列关系的各词节点的初步分数,根据所述初步分数提取所述文本信息中的中心,可以保证更加准确的提取到所需要的中心词。
本领域普通技术员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
请参阅图9,对应上述一种基于句法依存关系提取中心词的方法,本发明实施例还提出一种基于句法依存关系提取中心词的终端,该终端100包括:第一获取单元101、确定单元102、修剪单元103、构建单元104、计算单元105、提取单元106。
其中,所述第一获取单元101,用于获取用户输入的文本信息。
确定单元102,用于根据预设的句法依存规则确定所述文本信息的句法结构树。
修剪单元103,用于对所述句法结构树进行修剪。
构建单元104,用于根据修剪后的句法结构树构建子树。
计算单元105,用于计算所述子树中各词节点的初步分数。
提取单元106,用于根据所述初步分数提取所述文本信息中的中心词。
如图10所示,所述修剪单元103,包括:
第二获取单元1031,用于获取所述句法结构树中部分关系成分的词节点。
删除单元1032,用于将部分关系成分的词节点删除。
如图11所示,所述构建单元104,包括:
第三获取单元1041,用于获取修剪后的句法结构树中的核心词节点以及与所述核心词节点并列关系的其它词节点。
构建子单元1042,用于根据所述核心词节点以及与所述核心词节点并列关系的其它词节点构建子树。
如图12所示,所述提取单元106,包括:
排序单元1061,用于根据所述初步分数对所述子树中各词节点进行排序。
提取子单元1062,用于根据所述排序的结果提取所述文本信息中的中心词。
请参阅图13,对应上述一种基于句法依存关系提取中心词的方法,本发明实施例还提出一种基于句法依存关系提取中心词的终端,该终端200包括:第一获取单元201、确定单元202、修剪单元203、构建单元204、判断单元205、计算子单元206、提取单元207。
其中,所述第一获取单元201,用于获取用户输入的文本信息。
确定单元202,用于根据预设的句法依存规则确定所述文本信息的句法结构树。
修剪单元203,用于对所述句法结构树进行修剪。
构建单元204,用于根据修剪后的句法结构树构建子树。
判断单元205,用于判断所述子树中是否存在并列关系的词节点。
计算子单元206,用于若所述子树中存在并列关系的词节点,根据预设分配规则计算所述子树中并列关系的各词节点的初步分数。
提取单元207,用于根据所述初步分数提取所述文本信息中的中心词。
在硬件实现上,以上第一获取单元101、确定单元102、修剪单元103、构建单元104、计算单元105、提取单元106等可以以硬件形式内嵌于或独立于数据处理的装置中,也可以以软件形式存储于数据处理装置的存储器中,以便处理器调用执行以上各个单元对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
图14为本发明一种基于句法依存关系提取中心词的设备的结构组成示意图。如图14所示,该设备300可包括:输入装置301、输出装置302、收发装置303、存储器304以及处理器305,其中:
所述输入装置301,用于接收外部访问控制设备的输入数据。具体实现中,本发明实施例所述的输入装置301可包括键盘、鼠标、光电输入装置、声音输入装置、触摸式输入装置、扫描仪等。
所述输出装置302,用于对外输出访问控制设备的输出数据。具体实现中,本发明实施例所述的输出装置302可包括显示器、扬声器、打印机等。
所述收发装置303,用于通过通信链路向其他设备发送数据或者从其他设备接收数据。具体实现中,本发明实施例的收发装置303可包括射频天线等收发器件。
所述存储器304,用于存储实现提取中心词的程序。本发明实施例的存储器304可以是系统存储器,比如,挥发性的(诸如RAM),非易失性的(诸如ROM,闪存等),或者两者的结合。具体实现中,本发明实施例的存储器304还可以是系统之外的外部存储器,比如,磁盘、光盘、磁带等。
所述处理器305,用于运行所述存储器304中存储的实现提取中心词的程序,以执行如下操作:
获取用户输入的文本信息;
根据预设的句法依存规则确定所述文本信息的句法结构树;
对所述句法结构树进行修剪;
根据修剪后的句法结构树构建子树;
计算所述子树中各词节点的初步分数;
根据所述初步分数提取所述文本信息中的中心词。
进一步地,所述对所述句法结构树进行修剪,包括:
获取所述句法结构树中部分关系成分的词节点;
将部分关系成分的词节点删除。
进一步地,所述根据修剪后的句法结构树构建子树,包括:
获取修剪后的句法结构树中的核心词节点以及与所述核心词节点并列关系的其它词节点;
根据所述核心词节点以及与所述核心词节点并列关系的其它词节点构建子树。
进一步地,所述计算所述子树中各词节点的初步分数,包括:
根据所述子树中各个词节点的词性、句法关系角色、词长以及节点深度计算所述初步分数。
进一步地,所述根据所述初步分数提取所述文本信息中的中心词,包括:
根据所述初步分数对所述子树中各词节点进行排序;
根据所述排序的结果提取所述文本信息中的中心词。
进一步地,所述计算所述子树中各词节点的初步分数,包括:
判断所述子树中是否存在并列关系的词节点;
若所述子树中存在并列关系的词节点,根据预设分配规则计算所述子树中并列关系的各词节点的初步分数。
本领域技术人员可以理解,图14中示出的基于句法依存关系提取中心词的设备的实施例并不构成对基于句法依存关系提取中心词的设备具体构成的限定,在其他实施例中,基于句法依存关系提取中心词的设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,基于句法依存关系提取中心词的设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图14所示实施例一致,在此不再赘述。
本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现以下步骤:
获取用户输入的文本信息;
根据预设的句法依存规则确定所述文本信息的句法结构树;
对所述句法结构树进行修剪;
根据修剪后的句法结构树构建子树;
计算所述子树中各词节点的初步分数;
根据所述初步分数提取所述文本信息中的中心词。
进一步地,所述对所述句法结构树进行修剪,包括:
获取所述句法结构树中部分关系成分的词节点;
将所述部分关系成分的词节点删除。
进一步地,所述根据修剪后的句法结构树构建子树,包括:
获取修剪后的句法结构树中的核心词节点以及与所述核心词节点并列关系的其它词节点;
根据所述核心词节点以及与所述核心词节点并列关系的其它词节点构建子树。
进一步地,所述计算所述子树中各词节点的初步分数,包括:
根据所述子树中各个词节点的词性、句法关系角色、词长以及节点深度计算所述初步分数。
进一步地,所述根据所述初步分数提取所述文本信息中的中心词,包括:
根据所述初步分数对所述子树中各词节点进行排序;
根据所述排序的结果提取所述文本信息中的中心词。
进一步地,所述计算所述子树中各词节点的初步分数,包括:
判断所述子树中是否存在并列关系的词节点;
若所述子树中存在并列关系的词节点,根据预设分配规则计算所述子树中并列关系的各词节点的初步分数。
本发明前述的存储介质包括:磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等各种可以存储程序代码的介质。
本发明所有实施例中的单元可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例终端中的单元可以根据实际需要进行合并、划分和删减。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于句法依存关系提取中心词的方法,其特征在于,所述方法包括:
获取用户输入的文本信息;
根据预设的句法依存规则确定所述文本信息的句法结构树;
对所述句法结构树进行修剪;
根据修剪后的句法结构树构建子树;
计算所述子树中各词节点的初步分数;
根据所述初步分数提取所述文本信息中的中心词。
2.如权利要求1所述的方法,其特征在于,所述对所述句法结构树进行修剪,包括:
获取所述句法结构树中部分关系成分的词节点;
将部分关系成分的词节点删除。
3.如权利要求1所述的方法,其特征在于,所述根据修剪后的句法结构树构建子树,包括:
获取修剪后的句法结构树中的核心词节点以及与所述核心词节点并列关系的其它词节点;
根据所述核心词节点以及与所述核心词节点并列关系的其它词节点构建子树。
4.如权利要求1所述的方法,其特征在于,所述计算所述子树中各词节点的初步分数,包括:
根据所述子树中各个词节点的词性、句法关系角色、词长以及节点深度计算所述初步分数;
所述根据所述初步分数提取所述文本信息中的中心词,包括:
根据所述初步分数对所述子树中各词节点进行排序;
根据所述排序的结果提取所述文本信息中的中心词。
5.如权利要求1所述的方法,其特征在于,所述计算所述子树中各词节点的初步分数,包括:
判断所述子树中是否存在并列关系的词节点;
若所述子树中存在并列关系的词节点,根据预设分配规则计算所述子树中并列关系的各词节点的初步分数。
6.一种基于句法依存关系提取中心词的终端,其特征在于,所述终端包括:
第一获取单元,用于获取用户输入的文本信息;
确定单元,用于根据预设的句法依存规则确定所述文本信息的句法结构树;
修剪单元,用于对所述句法结构树进行修剪;
构建单元,用于根据修剪后的句法结构树构建子树;
计算单元,用于计算所述子树中各词节点的初步分数;
提取单元,用于根据所述初步分数提取所述文本信息中的中心词。
7.如权利要求6所述的终端,其特征在于,所述修剪单元,包括:
第二获取单元,用于获取所述句法结构树中部分关系成分的词节点;
删除单元,用于将部分关系成分的词节点删除。
8.如权利要求6所述的终端,其特征在于,所述构建单元,包括:
第三获取单元,用于获取修剪后的句法结构树中的核心词节点以及与所述核心词节点并列关系的其它词节点;
构建子单元,用于根据所述核心词节点以及与所述核心词节点并列关系的其它词节点构建子树。
9.如权利要求6所述的终端,其特征在于,
所述计算单元具体用于:
根据所述子树中各个词节点的词性、句法关系角色、词长以及节点深度计算所述初步分数;
所述提取单元,包括:
排序单元,用于根据所述初步分数对所述子树中各词节点进行排序;
提取子单元,用于根据所述排序的结果提取所述文本信息中的中心词;
所述计算单元,包括:
判断单元,用于判断所述子树中是否存在并列关系的词节点;
计算子单元,用于若所述子树中存在并列关系的词节点,根据预设分配规则计算所述子树中并列关系的各词节点的初步分数。
10.一种基于句法依存关系提取中心词的设备,其特征在于,包括:
存储器,用于存储实现提取中心词的程序;以及
处理器,用于运行所述存储器中存储的实现提取中心词的程序,以执行以下操作:
获取用户输入的文本信息;
根据预设的句法依存规则确定所述文本信息的句法结构树;
对所述句法结构树进行修剪;
根据修剪后的句法结构树构建子树;
计算所述子树中各词节点的初步分数;
根据所述初步分数提取所述文本信息中的中心词。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710458259.4A CN107748742A (zh) | 2017-06-16 | 2017-06-16 | 一种基于句法依存关系提取中心词的方法、终端以及设备 |
PCT/CN2018/077142 WO2018227995A1 (zh) | 2017-06-16 | 2018-02-24 | 基于句法依存关系提取中心词的方法、终端、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710458259.4A CN107748742A (zh) | 2017-06-16 | 2017-06-16 | 一种基于句法依存关系提取中心词的方法、终端以及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107748742A true CN107748742A (zh) | 2018-03-02 |
Family
ID=61255414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710458259.4A Pending CN107748742A (zh) | 2017-06-16 | 2017-06-16 | 一种基于句法依存关系提取中心词的方法、终端以及设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107748742A (zh) |
WO (1) | WO2018227995A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033073A (zh) * | 2018-06-28 | 2018-12-18 | 中国科学院自动化研究所 | 文本蕴含识别方法及装置 |
CN109190115A (zh) * | 2018-08-14 | 2019-01-11 | 重庆邂智科技有限公司 | 一种文本匹配方法、装置、服务器及存储介质 |
CN110069624A (zh) * | 2019-04-28 | 2019-07-30 | 北京小米智能科技有限公司 | 文本处理方法及装置 |
CN110569494A (zh) * | 2018-06-05 | 2019-12-13 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN112487801A (zh) * | 2020-10-23 | 2021-03-12 | 南京航空航天大学 | 一种面向安全关键软件的术语推荐方法及系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985232B (zh) * | 2020-08-10 | 2024-04-19 | 南京航空航天大学 | 基于nlp的机载显控系统需求的领域模型提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6374209B1 (en) * | 1998-03-19 | 2002-04-16 | Sharp Kabushiki Kaisha | Text structure analyzing apparatus, abstracting apparatus, and program recording medium |
CN101246492A (zh) * | 2008-02-26 | 2008-08-20 | 华中科技大学 | 基于自然语言的全文检索系统 |
CN103020148A (zh) * | 2012-11-23 | 2013-04-03 | 复旦大学 | 一种将中文短语结构树库转化为依存结构树库的系统和方法 |
CN106528531A (zh) * | 2016-10-31 | 2017-03-22 | 北京百度网讯科技有限公司 | 基于人工智能的意图分析方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221B (zh) * | 2009-02-17 | 2012-05-30 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
-
2017
- 2017-06-16 CN CN201710458259.4A patent/CN107748742A/zh active Pending
-
2018
- 2018-02-24 WO PCT/CN2018/077142 patent/WO2018227995A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6374209B1 (en) * | 1998-03-19 | 2002-04-16 | Sharp Kabushiki Kaisha | Text structure analyzing apparatus, abstracting apparatus, and program recording medium |
CN101246492A (zh) * | 2008-02-26 | 2008-08-20 | 华中科技大学 | 基于自然语言的全文检索系统 |
CN103020148A (zh) * | 2012-11-23 | 2013-04-03 | 复旦大学 | 一种将中文短语结构树库转化为依存结构树库的系统和方法 |
CN106528531A (zh) * | 2016-10-31 | 2017-03-22 | 北京百度网讯科技有限公司 | 基于人工智能的意图分析方法及装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569494A (zh) * | 2018-06-05 | 2019-12-13 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN109033073A (zh) * | 2018-06-28 | 2018-12-18 | 中国科学院自动化研究所 | 文本蕴含识别方法及装置 |
CN109033073B (zh) * | 2018-06-28 | 2020-07-28 | 中国科学院自动化研究所 | 基于词汇依存三元组的文本蕴含识别方法及装置 |
CN109190115A (zh) * | 2018-08-14 | 2019-01-11 | 重庆邂智科技有限公司 | 一种文本匹配方法、装置、服务器及存储介质 |
CN109190115B (zh) * | 2018-08-14 | 2023-05-26 | 重庆邂智科技有限公司 | 一种文本匹配方法、装置、服务器及存储介质 |
CN110069624A (zh) * | 2019-04-28 | 2019-07-30 | 北京小米智能科技有限公司 | 文本处理方法及装置 |
CN110069624B (zh) * | 2019-04-28 | 2021-05-04 | 北京小米智能科技有限公司 | 文本处理方法及装置 |
US11551008B2 (en) | 2019-04-28 | 2023-01-10 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for text processing |
CN112487801A (zh) * | 2020-10-23 | 2021-03-12 | 南京航空航天大学 | 一种面向安全关键软件的术语推荐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2018227995A1 (zh) | 2018-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107748742A (zh) | 一种基于句法依存关系提取中心词的方法、终端以及设备 | |
US10289618B2 (en) | Third party search applications for a search system | |
US20210271824A1 (en) | Context Saliency-Based Deictic Parser for Natural Language Processing | |
CN106571139B (zh) | 基于人工智能的语音搜索结果处理方法及装置 | |
JP6759308B2 (ja) | 保守装置 | |
CN108108094A (zh) | 一种信息处理方法、终端及计算机可读介质 | |
CN110427491A (zh) | 一种基于电子病历的医学知识图谱构建方法及装置 | |
JP2015506515A (ja) | タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体 | |
TW200900966A (en) | Client input method | |
CN106844341A (zh) | 基于人工智能的新闻摘要提取方法及装置 | |
WO2021082086A1 (zh) | 机器阅读方法、系统、装置及存储介质 | |
CN110147433A (zh) | 一种基于字典树的文本模板提取方法 | |
CN107908657A (zh) | 业务报表的查询方法、装置、计算机设备及存储介质 | |
CN108845797A (zh) | 一种语音识别型编程方法、装置及计算机设备 | |
CN107798035A (zh) | 一种数据处理方法及终端 | |
CN107977357A (zh) | 基于用户反馈的纠错方法、装置及其设备 | |
CN107807915A (zh) | 基于纠错平台的纠错模型建立方法、装置、设备和介质 | |
CN104679642A (zh) | 日志分析系统中的日志的与语言无关的处理方法和系统 | |
CN107330014A (zh) | 一种数据表的创建方法与设备 | |
US20190384793A1 (en) | Methods, apparatuses, and computer storage media for data searching | |
CN112309587A (zh) | 线上问诊方法、系统、服务器及存储介质 | |
WO2023103914A1 (zh) | 文本情感分析方法、装置及计算机可读存储介质 | |
CN111161861A (zh) | 用于医院后勤运维的短文本数据处理方法、装置 | |
CN116414859A (zh) | 数据处理方法及其装置、电子设备、计算机可读存储介质 | |
CN109243612A (zh) | 健康评估方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180302 |