CN110704613A - 词汇数据库构建及查询方法、数据库系统、设备及介质 - Google Patents
词汇数据库构建及查询方法、数据库系统、设备及介质 Download PDFInfo
- Publication number
- CN110704613A CN110704613A CN201910786380.9A CN201910786380A CN110704613A CN 110704613 A CN110704613 A CN 110704613A CN 201910786380 A CN201910786380 A CN 201910786380A CN 110704613 A CN110704613 A CN 110704613A
- Authority
- CN
- China
- Prior art keywords
- target
- vocabulary
- database
- data
- definition description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的词汇数据库构建及查询方法、数据库系统、设备及介质,通过从百科数据库获取与科技知识相关的词条数据及其第一定义描述数据;按照科技知识组织体系标准处理所获取的词条数据及其第一定义描述数据,以得到目标词汇及第二定义描述数据,并向量化以得到对应的目标词汇向量,且计算得到目标词汇间的相关度数据;构建用于存储与各领域类别分别关联的目标词汇的目标词汇数据库、用于存储各目标词汇间的相关度数据的目标词汇关系数据库、以及存储各第二定义描述数据的定义描述数据库;利用新的数据库架构,构建一套新的词汇补充体系,量化各词汇间关系、词汇层级关系以及领域间关系,自动快速的消化各领域产生的词汇,提升词汇数据库的实效性。
Description
技术领域
本申请涉及数据分析领域,尤其涉及词汇数据库构建及查询方法、数据库系统、设备及介质。
背景技术
随着时代的进步和技术的快速发展,各领域会快速产生相关的专业性词汇以及对应的新定义、新描述,而传统的科技知识组织体系(STKOS)词汇数据库,受限于其数据结构,导致其更新方式却无法对这些新知识进行快速吸收更新,这就会导致STKOS词库实用性受到很大影响。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供词汇数据库构建及查询方法、数据库系统、设备及介质,解决现有技术中现有科技词汇数据库的数据结构缺陷、更新难等问题。
为实现上述目标及其他相关目标,本申请提供一种词汇数据库构建方法,包括:从百科数据库获取与科技知识相关的词条数据及其第一定义描述数据;按照科技知识组织体系标准处理所获取的词条数据及其第一定义描述数据,以得到每个目标词汇及其所属的领域类别和第二定义描述数据;使用自然语言模型对各所述目标词汇及其领域类别的信息进行向量化以得到对应的目标词汇向量;根据不同目标词汇对应的第二定义描述数据间的信息重叠度、和/或不同目标词汇对应的目标词汇向量间的相关程度计算得到目标词汇间的相关度数据;构建用于存储与各领域类别分别关联的目标词汇的目标词汇数据库、用于存储各目标词汇间的相关度数据的目标词汇关系数据库、以及存储各目标词汇的第二定义描述数据的定义描述数据库。
于一或多个实施例中,所述的词汇数据库构建方法,包括:在满足扩展词汇与目标词汇间相关度条件的情况下,根据所述扩展词汇自动更新所述目标词汇数据库、目标词汇关系数据库、及定义描述数据库。
于一或多个实施例中,所述百科数据的数据源包括:百度百科、互动百科、维基百科、SOSO百科、360百科、搜狐百科、MBA智库百科、萌娘百科、易搜百科、及搜狗百科中的一种或多种。
于一或多个实施例中,所述按照科技知识组织体系标准处理所获取的词条数据及其第一定义描述数据,以得到每个目标词汇及其所属的领域类别和对应的第二定义描述数据,包括:
提取所述词条数据中的中/英文的目标词汇、及其第二定义描述数据;
提取目标词汇所属的领域类别、及该领域类别的第二定义描述数据;
提取与目标词汇间具有在领域类别下的层级关系的其它目标词汇、及该其它目标词汇的第二定义描述数据。
于一或多个实施例中,所述相关度数据展示以下中的一种或多种相关度:a)相同领域分类、或不同领域分类下目标词汇间的相关度;b)相同领域分类下具有层级关系的目标词汇间的相关度;c)由不同领域的一或多个层级中目标词汇集合间相关度所表示的该不同领域间的相关度。
于一或多个实施例中,所述自然语言模型的向量化包括:词向量方式;和/或,句/文档向量方式。
为实现上述目标及其他相关目标,本申请提供一种科技数据库系统,包括:用于存储与各领域类别分别关联的目标词汇的目标词汇数据库;用于存储各目标词汇间的相关度数据的目标词汇关系数据库;以及用于存储各目标词汇的第二定义描述数据的定义描述数据库;其中,所述目标词汇和第二定义描述数据获取自自从百科数据库获取与科技知识相关的词条数据及其第一定义描述数据;所述相关度数据是由不同目标词汇对应的第二定义描述数据间的信息重叠度、和/或不同目标词汇对应的目标词汇向量间的相关程度计算得到的。
于一或多个实施例中,在满足扩展词汇与目标词汇间相关度条件的情况下,所述目标词汇数据库、目标词汇关系数据库、及定义描述数据库自动得到依据所述扩展词汇的更新。
为实现上述目标及其他相关目标,本申请提供一种科技数据查询方法,包括:接收输入的待查询文本;根据所述待查询文本在所述科技数据库系统中查询相似的目标词汇;提供查询到的目标词汇的第二定义描述数据。
于一或多个实施例中,所述的科技数据查询方法还包括:根据所述相关度数据,提供与查询到的目标词汇间相关度满足预定阈值条件的其它目标词汇的第二定义描述数据。
为实现上述目标及其他相关目标,本申请提供一种计算机设备,包括:一或多个存储器、及一或多个处理器;所述一或多个存储器,存储有第一计算机程序或第二计算机程序;所述一或多个处理器,用于运行所述第一计算机程序以执行所述的词汇数据库构建方法;或者,运行所述第二计算机程序,以执行所述的科技数据查询方法。
为实现上述目标及其他相关目标,本申请提供一种计算机可读存储介质,存储有第一计算机程序或第二计算机程序;所述第一计算机程序被运行时,执行所述的词汇数据库构建方法;所述第二计算机程序被运行时,执行所述的科技数据查询方法。
如上所述,本申请的词汇数据库构建及查询方法、数据库系统、设备及介质,通过从百科数据库获取与科技知识相关的词条数据及其第一定义描述数据;按照科技知识组织体系标准处理所获取的词条数据及其第一定义描述数据,以得到目标词汇及第二定义描述数据,并向量化以得到对应的目标词汇向量,且计算得到目标词汇间的相关度数据;构建用于存储与各领域类别分别关联的目标词汇的目标词汇数据库、用于存储各目标词汇间的相关度数据的目标词汇关系数据库、以及存储各目标词汇的第二定义描述数据的定义描述数据库;利用这样的新的数据库架构,构建一套新的词汇补充体系,量化各词汇间关系、词汇层级关系以及领域间关系,自动快速的消化各领域产生的词汇,提升词汇数据库的实效性。
附图说明
图1显示为本申请实施例中词汇数据库构建方法的流程示意图。
图2显示为本申请实施例中科技数据查询方法的流程示意图。
图3显示为本申请实施例中计算机设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用系统,本说明书中的各项细节也可以基于不同观点与应用系统,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面以附图为参考,针对本申请的实施例进行详细说明,以便本申请所述技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限定于此处说明的实施例。
为了明确说明本申请,省略与说明无关的电路部件,对于通篇说明书中相同或类似的构成要素,赋予了相同的参照符号。
在通篇说明书中,当说某电路部件与另一电路部件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种电路部件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。
当说某电路部件在另一电路部件“之上”时,这可以是直接在另一电路部件之上,但也可以在其之间伴随着其它电路部件。当对照地说某电路部件“直接”在另一电路部件“之上”时,其之间不伴随其它电路部件。
虽然在一些实例中术语第一、第二等在本文中用来描述各种元件,但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第二接口等描述。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
此处使用的专业术语只用于言及特定实施例,并非意在限定本申请。此处使用的单数形态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化,并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。
表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一电路部件相对于另一电路部件的关系而使用。这种术语是指,不仅是在附图中所指的意义,还包括使用中的装置的其它意义或作业。例如,如果翻转附图中的装置,曾说明为在其它电路部件“下”的某电路部件则说明为在其它电路部件“上”。因此,所谓“下”的示例性术语,全部包括上与下方。装置可以旋转90°或其它角度,代表相对空间的术语也据此来解释。
虽然未不同地定义,但包括此处使用的技术术语及科学术语,所有术语均具有与本申请所述技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的内容相符的意义,只要未进行定义,不得过度解释为理想的或非常公式性的意义。
鉴于现有技术中STKOS词汇数据库在数据结构上存在缺陷,导致更新问题;因此,本申请对词汇数据库的构建方式进行了改进,使得词汇数据库的结构也相应改进。
如图1所示,展示本申请实施例中词汇数据库构建方法的流程示意图。
所述方法包括:
步骤S101:从百科数据库获取与科技知识相关的词条数据及其第一定义描述数据。
优选的,所述百科数据库的数据源是互联网网站。
于一或多个实施例中,所述百科数据的数据源包括:百度百科、互动百科、维基百科、SOSO百科、360百科、搜狐百科、MBA智库百科、萌娘百科、易搜百科、及搜狗百科中的一种或多种。
相应的,所述词条数据及其第一定义描述数据的获取方式,举例来说,可以是通过例如爬虫软件在百科数据库的网页爬取。
当然,在其它实施例中,所述数据源也可以是纸质文档,而词条数据和第一定义描述数据的获取也可以是
所述词条数据即百科数据库中的一个数据单位,例如“数学”等;关于每个词条数据会具有对应的第一定义描述数据对其进行定义、描述;例如“数学模型”,在维基百科中,其第一定义描述数据的内容为“什么是数学模型?数学模型是针对参照某种事物系统的特征或数量依存关系,采用数学语言,概括地或近似地表述出的一种数学结构,这种数学结构是借助于数学符号刻画出来的某种系统的纯关系结构。从广义理解,数学模型包括数学中的各种概念,各种公式和各种理论。因为它们都是由现实世界的原型抽象出来的,从这意义上讲,整个数学也可以说是一门关于数学模型的科学。从狭义理解,数学模型只指那些反映了特定问题或特定的具体事物系统的数学关系结构,这个意义上也可理解为联系一个系统中各变量间内的关系的数学表达......”等等,这一信息在网页上装载在一栏位中,我们将其称为消息盒(infobox)。
步骤S102:按照科技知识组织体系标准处理所获取的词条数据及其第一定义描述数据,以得到每个目标词汇及其所属的领域类别和第二定义描述数据。
在一些实施例中,所述目标词汇即提取出的符合需求的科技词汇,例如“高等数学”、“算法”等等。
于一或多个实施例中,步骤S102可具体包括:
提取所述词条数据中的中/英文的目标词汇、及其第二定义描述数据;
提取目标词汇所属的领域类别、及该领域类别的第二定义描述数据;
提取与目标词汇间具有在领域类别下的层级关系的其它目标词汇、及该其它目标词汇的第二定义描述数据。
所述第二定义描述数据取自第一定义描述数据,用于对目标词汇进行定义、描述;例如“高等数学”对应第二定义描述数据包括“在高等数学中,一次方程组(也称为“线性方程组”)发展成为线性代数理论;而二次以上的一元方程(也称为“多项式方程”)发展成为多项式理论。前者是向量空间、线性变换、型论、不变量论和张量代数等内容的一门高等数学分支学科,而后者是研究只含有一个未知量的任意次方程的一门高等数学分支学科。作为大学课程的高等数学,只研究它们的基础。高次方程组发展成为一门比较现代的数学理论-代数几何…..”;“算法”对应的第二定义描述数据包括例如“算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量……”。
所述领域类别可以自行定义,一般可以定义为最为宽泛的科学目录的名称,例如“数学”、“计算机”等,之前举例的“高等数学”是“数学领域”中的子集,与数学间有一或多层的层级关系,而“算法”则是“计算机”的子集,与计算机之间存在一或多层的层级关系。
关于该层级举例来说,目标词汇“数学”属于一个层级,而目标词汇“高等数学”从属于“数学”的下一层级,目标词汇“微积分”从属于“高等数学”,从中可以看到相同领域中目标词汇间的层级关系。
而有的目标词汇也可以在某个目标词汇集合中与其它目标词汇没有层级关系,那么就是独立词汇。
之后,通过目标词汇间的相关度数据计算可以将这些关系特征都记录下来。
步骤S103:使用自然语言模型对各所述目标词汇及其领域类别的信息进行向量化以得到对应的目标词汇向量。
自然语言模型即NLP,通过人工智能的NLP的识别技术,可以得到目标词汇和其领域类别信息结合的向量化表达。
NLP的向量化技术有几种,例如词向量方式(word embedding)技术和句/文档(sentence/document embedding)技术,对应的工具有例如Word2Vec,Document2Vec等。
举例来说,高等数学,向量化为(1,1,0,1,2);微积分,向量化为(1,1,2,1,2);软件工程,向量化为(3,2,2,3,3)等。
步骤S104:根据不同目标词汇对应的第二定义描述数据间的信息重叠度、和/或不同目标词汇对应的目标词汇向量间的相关程度计算得到目标词汇间的相关度数据。
在一些实施例中,所述信息重叠度,可以通过计算不同目标词汇的第二定义描述数据间相同的关键词(非的、我、大家等无效词)重复数量,例如“数学”和“高等数学”,它们的第二定义描述数据中重复出现“代数”、“计算”的数量较多,那么两者相关度会较高。
在一些实施例中,由于目标词汇向量记录了目标词汇的特点,则计算目标词汇向量间的相关度,也能反映出目标词汇间的相关度。
可以根据上述该信息重叠度、和目标词汇向量间相关程度的两种计算结果中的一种来作为目标词汇的相关度数据,优选的,也可以融合两种计算结果来得到相关度数据(例如通过加权和的方式来融合)。
于一或多个实施例中,所述相关度数据展示以下中的一种或多种相关度:
a)相同领域分类、或不同领域分类下目标词汇间的相关度;
举例来说,同一领域分类下的两个目标词汇的第二定义描述数据中相近的词汇相似度高,如应用统计与数理统计,则该两个目标词汇相关度越高;
又例如,不同领域分类下的两个目标词汇的第二定义描述数据中有共同引用的词汇或相近信息的相似度高,如计算机与数学,则该两个目标词汇相关度越高。
b)相同领域分类下具有层级关系的目标词汇间的相关度;
举例来说,有层级关系词汇:有从属关系的目标词汇间相关度高,如数学与高等代数。
c)由不同领域的一或多个层级中目标词汇集合间相关度所表示的该不同领域间的相关度。
例如,不同领域分类与不同领域分类之间的相关度,设领域分类A下一层级的所有目标词汇的目标词汇向量(其它实施例中,也可以采用目标词汇向量和信息重叠度的组合)构成代表领域分类A的向量集合a,领域分类B也按同样方式得到向量集合b,向量集合a、b间的相关度即为领域分类A与领域分类B间的相关度。
步骤S105:构建用于存储与各领域类别分别关联的目标词汇的目标词汇数据库、用于存储各目标词汇间的相关度数据的目标词汇关系数据库、以及存储各目标词汇的第二定义描述数据的定义描述数据库。
优选的,在其它实施例中,在满足扩展词汇与目标词汇间相关度条件的情况下,根据所述扩展词汇自动更新所述目标词汇数据库、目标词汇关系数据库、及定义描述数据库。
举例来说,可以对STKOS词汇数据库需要扩展词汇的领域分类进行设定,以及与此领域分类的相关性阈值,当发现有满足这个条件的待收入目标词汇时,更新到该设定的领域分类,即例如给待收入目标词汇赋予领域分类的标记,并可存入目标词汇数据库,并且将该待收入目标词汇和已有的目标词汇间的相关度重新计算后,更新目标词汇关系数据库,且将待收入目标词汇的第二定义描述数据更新至定义描述数据库。
根据上述可知,本申请实施例中还可以提供一种科技数据库系统,包括:
用于存储与各领域类别分别关联的目标词汇的目标词汇数据库;
用于存储各目标词汇间的相关度数据的目标词汇关系数据库;以及
用于存储各目标词汇的第二定义描述数据的定义描述数据库;
其中,所述目标词汇和第二定义描述数据获取自自从百科数据库获取与科技知识相关的词条数据及其第一定义描述数据;所述相关度数据是由不同目标词汇对应的第二定义描述数据间的信息重叠度、和/或不同目标词汇对应的目标词汇向量间的相关程度计算得到的。
该科技数据库系统可以搭载在计算机设备实现,例如服务器/服务器组、台式机电脑、笔记本电脑、智能手机或平板电脑等或其它处理设备。
在一些实施例中,还可以建立与该科技数据库系统通信或集成于该科技数据库系统的查询系统,从而实现根据输入的待查询文本在该科技数据库系统查找对应的文本。
举例来说,用户通过其手机登录网页,访问该查询系统,输入“算法”,查询系统在该科技数据库系统的目标词汇数据库匹配相似的目标词汇,例如查找到了相同的目标词汇“算法”(当然,在其它实施例中也可以是相似度较高的一或多个目标词汇,并非以此为限),然后从定义描述数据库查找关联于“算法”的第二定义描述数据提供给查询系统,查询系统反馈给用户的手机,以在手机显示关于“算法”的第二定义描述数据;优选的,根据目标词汇关系数据库中存放的目标词汇间的相关度数据,能找到“算法”相关度较高的上一层目标词汇“计算机”和下一层目标词汇“编程语言”等,将“计算机”和“编程语言”相关的第二定义描述数据也可以提供给用户,以供显示查看。
其中,可以通过一或多个相关度阈值来判断是否满足上述“相关度较高”的条件,如果满足条件的目标词汇有多个,可以进行相关度高低的排序,选择前一或多个。
对应此实例,如图2所示,展示本申请实施例中提供的科技数据查询方法,包括:
步骤S201:接收输入的待查询文本;
步骤S202:根据所述待查询文本在所述科技数据库系统中查询相似的目标词汇;
步骤S203:提供查询到的目标词汇的第二定义描述数据。
于一或多个实施例中,所述的科技数据查询方法还包括:根据所述相关度数据,提供与查询到的目标词汇间相关度满足预定阈值条件的其它目标词汇的第二定义描述数据。
其中,关于该预定阈值条件,即可以通过一或多个相关度阈值来判断是否满足上述“相关度较高”的条件,如果满足条件的目标词汇有多个,可以进行相关度高低的排序,选择前一或多个。
由于本申请实施例间实现的技术原理相通,因此,前述实施例中可以通用于本实施例的各种技术特征在此不作重复赘述。
如图3所示,展示本申请实施例中计算机设备的示意图。
所述计算机设备300包括:
一或多个存储器301,存储计算机程序;
一或多个处理器302,用于运行所述计算机程序,以执行例如图1实施例中的方法流程或图2实施例中的方法流程。
在可能的实现方式中,所述一或多个存储器301可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)和/或高速缓存存储器,还可以包括一个或多个非暂时的计算机可读存储介质诸如ROM、EEPROM、EPROM、闪存设备、磁盘等,和/或其组合。
在可能的实现方式中,所述计算机设备300还可包括:一或多个通信器303,用于与外部通信,其可包括有线和/或无线网络通信模块,其中,所述有线网络通信模块可以包括:有线网卡、USB模块等中的一种或多种,所述无线网络通信模块可以包括:2G/3G/4G/5G移动通信模块、WiFi、蓝牙、NB-IOT、LoRa、Zigbee中的一种或多种。
在可能的实现方式中,所述一个或多个处理器302能够是任何合适的处理元件(例如处理器核、微处理器、ASIC、FPGA、控制器、微控制器等),并且能够是一个处理器或操作地连接的多个处理器。
在可能的实现方式中,所述计算机设备可以实现于例如服务器/服务器组、台式机电脑、笔记本电脑、智能手机或平板电脑等或其它处理设备。
另外需说明的是,上述实施例中实现功能所涉及的计算机程序,例如实现图1、图2方法的计算机程序,皆可以装载在计算机可读存储介质,所计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是、但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
综上所述,本申请的词汇数据库构建及查询方法、数据库系统、设备及介质,通过从百科数据库获取与科技知识相关的词条数据及其第一定义描述数据;按照科技知识组织体系标准处理所获取的词条数据及其第一定义描述数据,以得到目标词汇及第二定义描述数据,并向量化以得到对应的目标词汇向量,且计算得到目标词汇间的相关度数据;构建用于存储与各领域类别分别关联的目标词汇的目标词汇数据库、用于存储各目标词汇间的相关度数据的目标词汇关系数据库、以及存储各目标词汇的第二定义描述数据的定义描述数据库;利用这样的新的数据库架构,构建一套新的词汇补充体系,量化各词汇间关系、词汇层级关系以及领域间关系,自动快速的消化各领域产生的词汇,提升词汇数据库的实效性。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所述技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (12)
1.一种词汇数据库构建方法,其特征在于,包括:
从百科数据库获取与科技知识相关的词条数据及其第一定义描述数据;
按照科技知识组织体系标准处理所获取的词条数据及其第一定义描述数据,以得到每个目标词汇及其所属的领域类别和第二定义描述数据;
使用自然语言模型对各所述目标词汇及其领域类别的信息进行向量化以得到对应的目标词汇向量;
根据不同目标词汇对应的第二定义描述数据间的信息重叠度、和/或不同目标词汇对应的目标词汇向量间的相关程度计算得到目标词汇间的相关度数据;
构建用于存储与各领域类别分别关联的目标词汇的目标词汇数据库、用于存储各目标词汇间的相关度数据的目标词汇关系数据库、以及存储各目标词汇的第二定义描述数据的定义描述数据库。
2.根据权利要求1所述的词汇数据库构建方法,其特征在于,包括:在满足扩展词汇与目标词汇间相关度条件的情况下,根据所述扩展词汇自动更新所述目标词汇数据库、目标词汇关系数据库、及定义描述数据库。
3.根据权利要求1所述的词汇数据库构建方法,其特征在于,所述百科数据的数据源包括:百度百科、互动百科、维基百科、SOSO百科、360百科、搜狐百科、MBA智库百科、萌娘百科、易搜百科、及搜狗百科中的一种或多种。
4.根据权利要求1所述的词汇数据库构建方法,其特征在于,所述按照科技知识组织体系标准处理所获取的词条数据及其第一定义描述数据,以得到每个目标词汇及其所属的领域类别和对应的第二定义描述数据,包括:
提取所述词条数据中的中/英文的目标词汇、及其第二定义描述数据;
提取目标词汇所属的领域类别、及该领域类别的第二定义描述数据;
提取与目标词汇间具有在领域类别下的层级关系的其它目标词汇、及该其它目标词汇的第二定义描述数据。
5.根据权利要求1所述的词汇数据库构建方法,其特征在于,所述相关度数据展示以下中的一种或多种相关度:
a)相同领域分类、或不同领域分类下目标词汇间的相关度;
b)相同领域分类下具有层级关系的目标词汇间的相关度;
c)由不同领域的一或多个层级中目标词汇集合间相关度所表示的该不同领域间的相关度。
6.根据权利要求1所述的词汇数据库构建方法,其特征在于,所述自然语言模型的向量化包括:词向量方式;和/或,句/文档向量方式。
7.一种科技数据库系统,其特征在于,包括:
用于存储与各领域类别分别关联的目标词汇的目标词汇数据库;
用于存储各目标词汇间的相关度数据的目标词汇关系数据库;以及
用于存储各目标词汇的第二定义描述数据的定义描述数据库;
其中,所述目标词汇和第二定义描述数据获取自自从百科数据库获取与科技知识相关的词条数据及其第一定义描述数据;所述相关度数据是由不同目标词汇对应的第二定义描述数据间的信息重叠度、和/或不同目标词汇对应的目标词汇向量间的相关程度计算得到的。
8.根据权利要求1所述的词汇数据库构建方法,其特征在于,在满足扩展词汇与目标词汇间相关度条件的情况下,所述目标词汇数据库、目标词汇关系数据库、及定义描述数据库自动得到依据所述扩展词汇的更新。
9.一种科技数据查询方法,其特征在于,包括:
接收输入的待查询文本;
根据所述待查询文本在如权利要求7或8的科技数据库系统中查询相似的目标词汇;
提供查询到的目标词汇的第二定义描述数据。
10.根据权利要求9所述的科技数据查询方法,其特征在于,还包括:根据所述相关度数据,提供与查询到的目标词汇间相关度满足预定阈值条件的其它目标词汇的第二定义描述数据。
11.一种计算机设备,其特征在于,包括:一或多个存储器、及一或多个处理器;
所述一或多个存储器,存储有第一计算机程序或第二计算机程序;
所述一或多个处理器,用于运行所述第一计算机程序以执行如权利要求1至6中任一项所述的词汇数据库构建方法;或者,运行所述第二计算机程序,以执行如权利要求9或10所述的科技数据查询方法。
12.一种计算机可读存储介质,其特征在于,存储有第一计算机程序或第二计算机程序;所述第一计算机程序被运行时,执行如权利要求1至6中任一项所述的词汇数据库构建方法;所述第二计算机程序被运行时,执行如权利要求9或10所述的科技数据查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910786380.9A CN110704613B (zh) | 2019-08-23 | 2019-08-23 | 词汇数据库构建及查询方法、数据库系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910786380.9A CN110704613B (zh) | 2019-08-23 | 2019-08-23 | 词汇数据库构建及查询方法、数据库系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110704613A true CN110704613A (zh) | 2020-01-17 |
CN110704613B CN110704613B (zh) | 2020-11-10 |
Family
ID=69193454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910786380.9A Active CN110704613B (zh) | 2019-08-23 | 2019-08-23 | 词汇数据库构建及查询方法、数据库系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704613B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667772A (zh) * | 2020-12-23 | 2021-04-16 | 深圳华大基因科技服务有限公司 | 一种基因关联程度确定方法及装置 |
CN117235380A (zh) * | 2023-10-07 | 2023-12-15 | 广州禧闻信息技术有限公司 | 一种文物数字云展全网普及度分析系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003345977A (ja) * | 2002-05-24 | 2003-12-05 | Sysmex Corp | 用語管理システム |
CN102201006A (zh) * | 2011-06-10 | 2011-09-28 | 互动在线(北京)科技有限公司 | 批量更新词条页面内容块的装置和方法 |
CN102395105A (zh) * | 2011-10-28 | 2012-03-28 | 宇龙计算机通信科技(深圳)有限公司 | 移动终端、服务器、词库更新方法和词汇推送方法 |
CN102622356A (zh) * | 2011-01-27 | 2012-08-01 | 腾讯科技(深圳)有限公司 | 一种关联地理位置信息的百科知识系统 |
CN102708100A (zh) * | 2011-03-28 | 2012-10-03 | 北京百度网讯科技有限公司 | 挖掘相关实体词的关系关键词的方法和装置及其应用 |
CN103455564A (zh) * | 2013-08-15 | 2013-12-18 | 复旦大学 | 一种根据维基百科中话题信息使查询词项多样化的方法 |
CN104408148A (zh) * | 2014-12-03 | 2015-03-11 | 复旦大学 | 一种基于通用百科网站的领域百科构建系统 |
KR101635275B1 (ko) * | 2014-10-21 | 2016-07-08 | 포항공과대학교 산학협력단 | 데이터베이스의 데이터 확장 방법 및 장치 |
CN107239481A (zh) * | 2017-04-12 | 2017-10-10 | 北京大学 | 一种面向多源网络百科的知识库构建方法 |
CN107506486A (zh) * | 2017-09-21 | 2017-12-22 | 北京航空航天大学 | 一种基于实体链接的关系扩充方法 |
CN107609052A (zh) * | 2017-08-23 | 2018-01-19 | 中国科学院软件研究所 | 一种基于语义三角的领域知识图谱的生成方法及装置 |
CN108363716A (zh) * | 2017-12-28 | 2018-08-03 | 广州索答信息科技有限公司 | 领域信息分类模型生成方法、分类方法、设备及存储介质 |
-
2019
- 2019-08-23 CN CN201910786380.9A patent/CN110704613B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003345977A (ja) * | 2002-05-24 | 2003-12-05 | Sysmex Corp | 用語管理システム |
CN102622356A (zh) * | 2011-01-27 | 2012-08-01 | 腾讯科技(深圳)有限公司 | 一种关联地理位置信息的百科知识系统 |
CN102708100A (zh) * | 2011-03-28 | 2012-10-03 | 北京百度网讯科技有限公司 | 挖掘相关实体词的关系关键词的方法和装置及其应用 |
CN102201006A (zh) * | 2011-06-10 | 2011-09-28 | 互动在线(北京)科技有限公司 | 批量更新词条页面内容块的装置和方法 |
CN102395105A (zh) * | 2011-10-28 | 2012-03-28 | 宇龙计算机通信科技(深圳)有限公司 | 移动终端、服务器、词库更新方法和词汇推送方法 |
CN103455564A (zh) * | 2013-08-15 | 2013-12-18 | 复旦大学 | 一种根据维基百科中话题信息使查询词项多样化的方法 |
KR101635275B1 (ko) * | 2014-10-21 | 2016-07-08 | 포항공과대학교 산학협력단 | 데이터베이스의 데이터 확장 방법 및 장치 |
CN104408148A (zh) * | 2014-12-03 | 2015-03-11 | 复旦大学 | 一种基于通用百科网站的领域百科构建系统 |
CN107239481A (zh) * | 2017-04-12 | 2017-10-10 | 北京大学 | 一种面向多源网络百科的知识库构建方法 |
CN107609052A (zh) * | 2017-08-23 | 2018-01-19 | 中国科学院软件研究所 | 一种基于语义三角的领域知识图谱的生成方法及装置 |
CN107506486A (zh) * | 2017-09-21 | 2017-12-22 | 北京航空航天大学 | 一种基于实体链接的关系扩充方法 |
CN108363716A (zh) * | 2017-12-28 | 2018-08-03 | 广州索答信息科技有限公司 | 领域信息分类模型生成方法、分类方法、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
刘春江等: "基于科技知识组织体系的标引框架研究与应用", 《图书馆理论与实践》 * |
马雨萌等: "STKOS中领域本体模型框架研究", 《图书情报工作》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667772A (zh) * | 2020-12-23 | 2021-04-16 | 深圳华大基因科技服务有限公司 | 一种基因关联程度确定方法及装置 |
CN117235380A (zh) * | 2023-10-07 | 2023-12-15 | 广州禧闻信息技术有限公司 | 一种文物数字云展全网普及度分析系统 |
CN117235380B (zh) * | 2023-10-07 | 2024-05-14 | 广州禧闻信息技术有限公司 | 一种文物数字云展全网普及度分析系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110704613B (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353310B (zh) | 基于人工智能的命名实体识别方法、装置及电子设备 | |
US10061766B2 (en) | Systems and methods for domain-specific machine-interpretation of input data | |
US9880999B2 (en) | Natural language relatedness tool using mined semantic analysis | |
KR20200094627A (ko) | 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체 | |
US12026462B2 (en) | Word embedding model parameter advisor | |
CN107391682B (zh) | 知识验证方法、知识验证设备以及存储介质 | |
US8751496B2 (en) | Systems and methods for phrase clustering | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
CN113761868B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN110704613B (zh) | 词汇数据库构建及查询方法、数据库系统、设备及介质 | |
US20230040412A1 (en) | Multi-language source code search engine | |
CN115455169B (zh) | 一种基于词汇知识和语义依存的知识图谱问答方法和系统 | |
KR102059743B1 (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
CN106776782B (zh) | 基于人工智能的语义相似度获取方法及装置 | |
US10719663B2 (en) | Assisted free form decision definition using rules vocabulary | |
Song et al. | Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media | |
CN110019670A (zh) | 一种文本检索方法及装置 | |
CN110765765A (zh) | 基于人工智能的合同关键条款提取方法、装置及存储介质 | |
US20220207087A1 (en) | Optimistic facet set selection for dynamic faceted search | |
Cífka et al. | Black-box language model explanation by context length probing | |
Yu et al. | Recommending features of mobile applications for developer | |
CN110175331B (zh) | 专业术语的识别方法、装置、电子设备及可读存储介质 | |
CN113297854A (zh) | 文本到知识图谱实体的映射方法、装置、设备及存储介质 | |
CN112579774A (zh) | 模型训练方法、模型训练装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |