CN107562721B - 一种基于拓扑学的名词分类方法 - Google Patents

一种基于拓扑学的名词分类方法 Download PDF

Info

Publication number
CN107562721B
CN107562721B CN201710676789.6A CN201710676789A CN107562721B CN 107562721 B CN107562721 B CN 107562721B CN 201710676789 A CN201710676789 A CN 201710676789A CN 107562721 B CN107562721 B CN 107562721B
Authority
CN
China
Prior art keywords
professional
corpus
basic
neighborhood set
set class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710676789.6A
Other languages
English (en)
Other versions
CN107562721A (zh
Inventor
刘聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710676789.6A priority Critical patent/CN107562721B/zh
Publication of CN107562721A publication Critical patent/CN107562721A/zh
Application granted granted Critical
Publication of CN107562721B publication Critical patent/CN107562721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于拓扑学的名词分类方法,其主要包括以下步骤:建立专业语料库;建立基本语料库;为专业语料库的每一个专业名词分别建立基本邻域集类和专业邻域集类;分别在基本邻域集类和专业邻域集类中建立测度;按照测度将邻域集类中的集合进行良序化;通过良序化的集合和邻域集类的关系形成名词间的逻辑关系。本发明能够更加高效地实现汉语名词分类并判断不同名词间的逻辑关系,并且应用更加广泛。

Description

一种基于拓扑学的名词分类方法
技术领域
本发明涉及自然语言分析技术领域,具体涉及一种基于拓扑学的名词分类方法。
背景技术
当前的汉语名词分类主要依靠两种算法,第一种是基于马尔科夫过程或贝叶斯定理的分类算法,第二种是基于梯度下降的神经网络算法。但与此同时,这两种算法都有着固有的不足:对于第一种算法来说,其马尔科夫过程或贝叶斯定理具有很强的假设,但在现实的生产实践中这些假设很难完全满足,故而由此造成的误差难以避免;而对于第二种算法来说,其神经网络算法需要人为设计参数集,但参数集的设定需要大量的研究成本和时间,并且质量也难以保证。
发明内容
为克服以上现有技术的不足,本发明的目的在于提供一种基于拓扑学的名词分类方法,其能够更加高效地实现汉语名词分类并判断不同名词间的逻辑关系,并且应用更加广泛。
为实现上述目的,本发明采用如下技术方案:
一种基于拓扑学的名词分类方法,其包括以下步骤:
步骤S1:建立专业语料库,其中专业语料库包括了多个专业名词和与多个专业名词相关的词条语境;
步骤S2:建立基本语料库,其中基本语料库至少包括了专业语料库中的所有专业名词,以及对所有专业名词的词条解释;
步骤S3:为每一个专业名词分别建立基本邻域集类和专业邻域集类,其中基本邻域集类包括了基本语料库中的含有该专业名词的词条解释中所包含的所有名词,专业邻域集类包括了专业语料库中的含有该专业名词的词条语境中所包含的所有名词;
步骤S4:分别在基本邻域集类和专业邻域集类中建立测度;
步骤S5:按照测度将邻域集类中的集合进行良序化;
步骤S6:通过良序化的集合和邻域集类的关系形成名词间的逻辑关系。
上述名词分类方法,其中在步骤S4中,建立测度的具体方法为:
4.1)将基本邻域集类和专业邻域集类的任何一个集合中的所有名词视为无向图的顶点,若任何两个词在一个分句中出现,则认为两个词代表的顶点间存在边,且边长为1;
若任何两个词在同一个段落中出现,则认为两个词代表的顶点间存在边,且边长为2;
若任何两个词在同一个篇章中出现,则认为两个词代表的顶点间存在边,且边长为3;
若任何两个词不在同一个篇章中出现,则视为两个词代表的顶点间不存在边;
4.2)通过迪杰斯特拉方法为基本邻域集类和专业邻域集类的每一个集计算不同名词间的最短路径;
4.3)测度值取最短路径的算术平均值。
上述名词分类方法,其中在步骤S3中,专业邻域集类中的任意一个集元素都可以在基本邻域集类中找到一个集存在子集关系。
上述名词分类方法,其中在步骤S4中还包括了:
4.4)测度值以专业邻域集类为依据,若出现等值,则辅助以基本邻域集类形成的测度。
上述名词分类方法,其中基本语料库通过开放知识平台进行建立。
上述名词分类方法,其中建立基本语料库的开放知识平台包括但不限于百度百科和360百科。
上述名词分类方法,其中专业语料库通过权威期刊、报刊的新闻报道、专业论文进行建立。
上述名词分类方法,其中在专业语料库中,其中与专业名词相关的词条语境是指包含了该专业名词的专业论文和/或权威期刊、报刊的新闻报道。
本发明具有如下优点:通过采用以上方法,本发明在实施过程中不存在条件概率的假设,从而可适用于更广泛的场景,如广泛适用于人工智能、知识工程、数据管理、投融资等方面;同时,本发明还不需要人为设定参数集,从而可提高工作效率,提高工作质量,并且可复制性更强。
附图说明
图1是本发明的名词分类方法的流程图;
图2是本发明所示出的名词存储方式示意图;
图3是本发明所示出的词条语境存储方式示意图;
图4是本发明所示出的点边矩阵示意图;
图5是本发明所示出的逻辑关系示意图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
一种基于拓扑学的名词分类方法,其包括以下步骤:
步骤S1:建立专业语料库,其中专业语料库包括了多个专业名词和与多个专业名词相关的词条语境。
专业语料库的建立要求为:权威。进一步地,专业语料库通过权威期刊、报刊的新闻报道、专业论文进行建立。并且,在专业语料库中,其中与专业名词相关的词条语境是指包含了该专业名词的专业论文和/或权威期刊、报刊的新闻报道。
步骤S2:建立基本语料库,其中基本语料库至少包括了专业语料库中的所有专业名词,以及对所有专业名词的词条解释。
基本语料库的建立要求为:全面。进一步地,专业语料库的名词集为基本语料库的名词集的真子集。基本语料库通过开放知识平台进行建立,开放知识平台包括但不限于百度百科和360百科。
作为上述步骤的一种具体实施例,在专业语料库或者基本语料库的建立过程中,如图2所示,可采用txt文件对其中的多个名词进行存储,并且名词与名词之间以半角逗号分隔(采用半角逗号的原因是该符号几乎不会出现在一个完整的名词之中,便于查重和格式转化);而对于词条语境或者词条解释,则如图3所示,其均可通过以词条命名的txt格式文件存储。当语料库建立完成,或进入使用阶段时,再将txt格式的信息转存至数据库(对数据库无具体要求,MYSQL、SQLSERVER以及其他类型的数据库均可,可根据实际的需求情况和财务情况进行选择)。
需要说明的是,以上对名词、词条语境及词条解释的储存方式的说明仅仅是作为一种具体的实施例,用于保证本领域技术人员能够充分地实现本发明,而不应将其视为对本发明的一种限制。
步骤S3:为每一个专业名词分别建立基本邻域集类和专业邻域集类。其中,基本邻域集类包括了基本语料库中的含有该专业名词的词条解释中所包含的所有名词,如:“专利”词条在网络百科的描述中使用了专利权、专有技术、发明创造等词语,因此可以认为“专利”的基本邻域为[专利,专利权,专有技术,发明创造](在此仅做示意说明,并不是对“专利”的基本邻域的完备列举)。
专业邻域集类包括了专业语料库中的含有该专业名词的词条语境中所包含的所有名词,如:“专利”词条在专业学术文献的描述中使用了专利、审查制度、专利文献、审批程序等词语,因此可以认为“专利”的专业邻域为[专利,审查制度,专利文献,审批程序](同上,在此仅做示意说明,并不是对“专利”的专业邻域的完备列举)。
应当强调的是,无论是基本邻域还是专业邻域,其语料并非单一来源,而是复合来源。如网络百科有百度百科、360百科、互动百科等,专业文献有不同的学术文献。而最终形成的邻域则是不同来源语料中词语的合集。并且,进一步地,无论是基础语料库还是专业语料库,其内容应当标明时间和来源。时间和来源可以对语料库中的语料进行进一步细分,如基础语料库可以细分为来源于新华社的语料、来源于百度百科的语料等等,专业语料库可以细分为来源于SCI论文的语料、来源于社科基金课题论文的语料、来源于教科书的语料、来源于科普文章的语料等等。这样划分的意义有两点:第一,进一步将语境进行细分以求得到更匹配语境的语义分析结果;第二,在出现最短路径相等的情况下进行赋权调整(最短路径及其相等时的处理方法具体在“步骤S4”中描述),一般原则上,新语料的权重高于旧语料,权威度较高的语料权重高于权威度较低的语料。
针对专业语料库而言,存在划分标准的问题。在本发明的方法中,强调两点。第一点:当建立多个专业语料库时,各个专业语料库的划分应当能够覆盖社会生活的各个方面;第二点:各个专业语料库的划分应当具有内在的科学性。此处存在两个基本的划分方法:1)按照学术体系进行划分(如数学、物理学、经济学等,具体参见教育部学科分类标准)。2)按照行业体系进行划分(如农业、工业、建筑业等,具体参见国家统计局国民经济统计指标体系)。
此外,在语料到邻域的环节中,有一个关键过程是从语句中提取词语。在本发明的方法中,可不采用传统的分词引擎方法进行提取,而是可首先建立一个全面的基本语料库,在基本语料库中利用遍历的方法提取名词。如:百度百科的“专利”词条中,有“专利权”、“专利权人”等具有链接的词条。因此,设定“专利”为最初的词条后,可以找到“专利权”、“专利权人”等词条,而在“专利权”词条中又可以进一步发现其他词条。通过这样的遍历方式,可以逐步获得完备的基本语料库。而进一步地,在处理专业语料库中词语提取时,如果含有基本语料库形成的名词的集合中的词,则提取出。
上述这一方法有两个优点:1)不存在分词引擎,从而大大提高了提取效率。2)保证了专业邻域集类中的任何一个集元素都可以在基本邻域集类中找到一个对应的集元素使二者之间存在子集关系(因为这样的过程保证了基本邻域必然包含专业邻域),这一点在利用不动点定理进行深度分析时有很大作用(不动点定理是代数拓扑的一个重要定理,但具体的分析方法并不包含在本发明之中)。
步骤S4:分别在基本邻域集类和专业邻域集类中建立测度。进一步地,建立测度的具体方法为:
4.1)将基本邻域集类和专业邻域集类的任何一个集合中的所有名词视为无向图的顶点,若任何两个词在一个分句中出现,则认为两个词代表的顶点间存在边,且边长为1;
若任何两个词在同一个段落中出现,则认为两个词代表的顶点间存在边,且边长为2;
若任何两个词在同一个篇章中出现,则认为两个词代表的顶点间存在边,且边长为3;
若任何两个词不在同一个篇章中出现,则视为两个词代表的顶点间不存在边;
4.2)通过迪杰斯特拉方法为基本邻域集类和专业邻域集类的每一个集计算不同名词间的最短路径;
作为现有技术的迪杰斯特拉方法,其是由荷兰计算机科学家狄克斯特拉于1959年提出的,因此又叫狄克斯特拉方法。其是从一个顶点到其余各顶点的最短路径方法,解决的是有向图中最短路径问题。迪杰斯特拉方法主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止
如上文描述,在具体实施时,针对基本邻域集类和专业邻域集类的集元素形成点边矩阵后,就可以利用迪杰斯特拉方法进行最短路径的计算。作为一种示意性的具体实施例,点边矩阵的形式如图4所示。
4.3)测度值取最短路径的算术平均值。
进一步地,在步骤S4中还包括了:
4.4)测度值以专业邻域集类为依据,若出现等值,则辅助以基本邻域集类形成的测度。
如上所述,若出现等值,则对后续过程中的良序集的建立产生不利影响。因此应当尽量避免等值情况的出现。如图4所示,测度等于点边矩阵计算出的最短路径,因此不同的点边矩阵计算出的最短路径不同。基本邻域形成的点边矩阵和专业邻域形成的点边矩阵的顶点和边均不相同。因此两个点边矩阵形成的测度都相等的情况在概率上是小概率事件。如真的出现这样的小概率事件,可利用语境重新生成邻域(如在专业语料库中仅挑选获得国家级基金支持的科研论文形成语料库,在基本语料库中仅挑选新华社报道形成语料库)进行计算,也可将语料来源进行赋权后进行调整。
步骤S5:按照测度将邻域集类中的集合进行良序化;
在承认拓扑学选择公理的前提下,良序定理认为:所有集合都可以被良序排序。在本发明中,由邻域作为定义域,测度集合作为值域,以此构成的选择函数可以实现本发明所描述的邻域的良序化。这一良序化本质上是语义的良序化。
作为现有技术的良序定理,其是由zermelo在1904年证明。良序定理依赖于选择公理和选择函数。选择函数的存在性是通过数理逻辑证明的,不存在通用结构的选择函数。在本发明中,正是提出了通过最短路径来建立选择函数。
步骤S6:通过良序化的集合和邻域集类的关系形成名词间的逻辑关系。
经过上述良序化后,按照排序和测度范围均能够形成逻辑关系。作为一种示意性的实施例,如5部分示出了“智能交通”邻域相关的逻辑关系(该逻辑关系以思维导图的方式进行展示)。
以下示出在投融资领域应用本发明的场景实例:大企业往往通过战略投资行为收购小企业,且大企业的收购对象往往是与其主营业务相关(是其主营业务的组成部分或上下游部分)的小企业。因此,如果能够对一个行业的产业链、技术链、产品链进行准确的描述,则大大有助于这种战略投资行为的准确实施。本发明成果能够准确、快速的分析相关产业的产业链、技术链、产品链,且具备与时俱进的优点(因本发明的语料库可不断地进行更新),从而可为投融资行为提供助益。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (4)

1.一种基于拓扑学的名词分类方法,其特征在于,该方法包括以下步骤:
步骤S1:建立专业语料库,其中专业语料库包括了多个专业名词和与多个专业名词相关的词条语境,在所述专业语料库中,其中与专业名词相关的词条语境是指包含了该专业名词的专业论文和/或权威期刊、报刊的新闻报道;
步骤S2:建立基本语料库,其中基本语料库至少包括了专业语料库中的所有专业名词,以及对所有专业名词的词条解释;
步骤S3:为每一个专业名词分别建立基本邻域集类和专业邻域集类,其中基本邻域集类包括了基本语料库中的含有该专业名词的词条解释中所包含的所有名词,专业邻域集类包括了专业语料库中的含有该专业名词的词条语境中所包含的所有名词,所述专业邻域集类中的任意一个集元素都可以在基本邻域集类中找到一个集存在子集关系;
步骤S4:分别在基本邻域集类和专业邻域集类中建立测度;
步骤S5:按照测度将邻域集类中的集合进行良序化;
步骤S6:通过良序化的集合和邻域集类的关系形成名词间的逻辑关系;
在步骤S4中,建立测度的具体方法为:
4.1)将基本邻域集类和专业邻域集类的任何一个集合中的所有名词视为无向图的顶点,若任何两个词在一个分句中出现,则认为两个词代表的顶点间存在边,且边长为1;
若任何两个词在同一个段落中出现,则认为两个词代表的顶点间存在边,且边长为2;
若任何两个词在同一个篇章中出现,则认为两个词代表的顶点间存在边,且边长为3;
若任何两个词不在同一个篇章中出现,则视为两个词代表的顶点间不存在边;
4.2)通过迪杰斯特拉方法为基本邻域集类和专业邻域集类的每一个集计算不同名词间的最短路径;
4.3)测度值取最短路径的算术平均值;
4.4)测度值以专业邻域集类为依据,若出现等值,则辅助以基本邻域集类形成的测度。
2.如权利要求1所述的名词分类方法,其特征在于:基本语料库通过开放知识平台进行建立。
3.如权利要求2所述的名词分类方法,其特征在于:建立基本语料库的开放知识平台包括但不限于百度百科和360百科。
4.如权利要求1所述的名词分类方法,其特征在于:专业语料库通过权威期刊、报刊的新闻报道、专业论文进行建立。
CN201710676789.6A 2017-08-09 2017-08-09 一种基于拓扑学的名词分类方法 Active CN107562721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710676789.6A CN107562721B (zh) 2017-08-09 2017-08-09 一种基于拓扑学的名词分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710676789.6A CN107562721B (zh) 2017-08-09 2017-08-09 一种基于拓扑学的名词分类方法

Publications (2)

Publication Number Publication Date
CN107562721A CN107562721A (zh) 2018-01-09
CN107562721B true CN107562721B (zh) 2020-11-03

Family

ID=60975063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710676789.6A Active CN107562721B (zh) 2017-08-09 2017-08-09 一种基于拓扑学的名词分类方法

Country Status (1)

Country Link
CN (1) CN107562721B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254658B (zh) * 2021-07-07 2021-12-21 明品云(北京)数据科技有限公司 文本信息处理方法、系统、介质和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008092A (zh) * 2014-06-10 2014-08-27 复旦大学 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701083A (zh) * 2014-11-28 2016-06-22 国际商业机器公司 文本表示方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008092A (zh) * 2014-06-10 2014-08-27 复旦大学 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法

Also Published As

Publication number Publication date
CN107562721A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN111222305B (zh) 一种信息结构化方法和装置
CN111708773A (zh) 一种多源科创资源数据融合方法
CN111914558A (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN109145087B (zh) 一种基于表示学习和竞争理论的学者推荐及合作预测方法
US20170161255A1 (en) Extracting entities from natural language texts
CN110597870A (zh) 一种企业关系挖掘方法
CN109871955A (zh) 一种航空安全事故因果关系抽取方法
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
JP6061337B2 (ja) 規則生成装置及び抽出装置
CN110990529B (zh) 企业的行业明细划分方法及系统
CN112463774B (zh) 文本数据的去重方法、设备及存储介质
CN109508458A (zh) 法律实体的识别方法及装置
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
US20230081737A1 (en) Determining data categorizations based on an ontology and a machine-learning model
CN113449084A (zh) 基于图卷积的关系抽取方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
Antonio et al. Sentiment analysis for covid-19 in Indonesia on Twitter with TF-IDF featured extraction and stochastic gradient descent
JP7347179B2 (ja) ウェブページ内容を抽出する方法、装置及びコンピュータプログラム
CN115982379A (zh) 基于知识图谱的用户画像构建方法和系统
CN115238040A (zh) 一种钢铁材料学知识图谱构建方法及系统
CN107562721B (zh) 一种基于拓扑学的名词分类方法
US20100063966A1 (en) Method for fast de-duplication of a set of documents or a set of data contained in a file
Zhang et al. Similarity judgment of civil aviation regulations based on Doc2Vec deep learning algorithm
CN111966836A (zh) 知识图谱向量表示方法、装置、计算机设备及存储介质
Hu et al. The methods of big data fusion and semantic collision detection in Internet of Thing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant