CN110909128B - 一种利用词根表进行数据查询的方法、设备、及存储介质 - Google Patents

一种利用词根表进行数据查询的方法、设备、及存储介质 Download PDF

Info

Publication number
CN110909128B
CN110909128B CN201911090457.5A CN201911090457A CN110909128B CN 110909128 B CN110909128 B CN 110909128B CN 201911090457 A CN201911090457 A CN 201911090457A CN 110909128 B CN110909128 B CN 110909128B
Authority
CN
China
Prior art keywords
english
chinese
data
keywords
root
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911090457.5A
Other languages
English (en)
Other versions
CN110909128A (zh
Inventor
王国彬
徐晓波
胡鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tubatu Group Co Ltd
Original Assignee
Tubatu Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tubatu Group Co Ltd filed Critical Tubatu Group Co Ltd
Priority to CN201911090457.5A priority Critical patent/CN110909128B/zh
Publication of CN110909128A publication Critical patent/CN110909128A/zh
Application granted granted Critical
Publication of CN110909128B publication Critical patent/CN110909128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种利用词根表进行数据查询的方法、设备及存储介质。所述方法包括:接收用户输入的第一查询指令,获取所述第一查询指令的中文关键词;将所述中文关键词进行分词,得到至少一个中文词根;根据预设中英文对照的词根表,获取与所述多个中文词根对应的多个英文词根;将所述多个英文词根进行组合,生成英文关键字;根据所述英文关键字,生成第二查询指令,响应所述第二查询指令,获取数据库中与所述英文关键字相关的数据。本发明公开的利用词根表进行数据查询的方法有利于关键字的维护以及数据库的管理。

Description

一种利用词根表进行数据查询的方法、设备、及存储介质
技术领域
本发明涉及一种数据查询的方法,尤其涉及一种利用词根表进行数据查询的方法、设备及存储介质。
背景技术
数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。
目前在对数据库执行查询操作时,都要根据用户输入的中文关键字生成唯一对应的英文关键字。这样,随着用户输入的中文关键字越来越多,那么相应地需要生成的英文关键字也越来越多,从而不利于关键字的维护以及数据库的管理。
发明内容
本发明的主要目的是提供一种利用词根表进行数据查询的方法、设备及存储介质,旨在解决现有技术不利于关键字的维护以及数据库的管理。
为实现上述目的,本发明提供一种利用词根表进行数据查询的方法,包括:
接收用户输入的第一查询指令,获取所述第一查询指令的中文关键词;
将所述中文关键词进行分词,得到至少一个中文词根;
根据预设中英文对照的词根表,获取与所述多个中文词根对应的多个英文词根;
将所述多个英文词根进行组合,生成英文关键字;
根据所述英文关键字,生成第二查询指令;
响应所述第二查询指令,获取数据库中与所述英文关键字相关的数据。
优选地,基于字符串匹配的分词方法将所述中文关键词进行分词,或
基于统计以及预设机器学习的分词方法将所述中文关键词进行分词,得到至少一个中文词根。
优选地,根据每个中文词根对应的英文词根设置中英文对照的词根表,检测获取的多个中文词根与所述词根表中相同的多个中文词根,获取对应的多个英文词根。
优选地,预设Stopwords词汇表,所述Stopwords词汇表的作用是在全文检索过程中忽略非常常用的单词;
数据库中的数据经所述预设Stopwords词汇表过滤之后,保留有效文本数据。
优选地,遍历所述有效文本数据包含的每个字符;
判断所述有效文本数据与所述英文关键词的匹配度是否大于预设值;
当所述有效文本数据与所述英文关键词的匹配度大于预设值,则所述有效文本数据对应的数据作为与所述英文关键字相关的数据。
优选地,
其中,Aβ表示有效文本数据τ与英文关键词的匹配度的结果,ατ表示有效文本数据τ与英文关键词相同的字符数,γτ表示有效文本数据τ的总字符数,β表示英文关键字的字符数。
优选地,获取多个有效文本数据与所述英文关键词匹配度结果Aβ,判断所述多个匹配度结果Aβ是否大于预设值,将匹配度结果Aβ大于预设值的有效文本数据对应的数据作为与所述英文关键字相关的数据。
优选地,将数据库中与所述英文关键字相关的数据汇总;
提供一可视化界面,显示所述与所述英文关键字相关的数据。
本发明还提供一种数据查询的设备,包括存储器,处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述的利用词根表进行数据查询的方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的利用词根表进行数据查询的方法。
在本发明上述方案至少包括以下有益效果:
在本发明的具体实施例中,首先接收用户输入的第一查询指令,获取所述第一查询指令的中文关键词;再将所述中文关键词进行分词,得到至少一个中文词根;并根据预设中英文对照的词根表,获取与所述多个中文词根对应的多个英文词根;然后将所述多个英文词根进行组合,生成英文关键字;接着根据所述英文关键字,生成第二查询指令,最后响应所述第二查询指令,获取数据库中与所述英文关键字相关的数据。本发明公开的利用词根表进行数据查询的方法有利于关键字的维护以及数据库的管理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明提供的一种利用词根表进行数据查询的方法流程示意图;
图2为本发明提供的一种利用词根表进行数据查询的方法中设置中英文对照表的示意图;
图3为本发明提供的一种利用词根表进行数据查询的方法中将数据库中的数据与英文关键词进行匹配的流程示意图;
图4为本发明提供的一种利用词根表进行数据查询的方法中找到与英文关键词相关的数据将该数据进行管理的流程示意图;
图5为本发明提供的一种利用词根表进行数据查询的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。如图1所示,本发明的具体实施例提供了一种利用词根表进行数据查询的方法,该数据查询的方法包括:
步骤10:接收用户输入的第一查询指令,获取所述第一查询指令的中文关键词;
其中,在本发明的具体实施例中,服务器接收用户输入的第一查询指令,例如,用户输入“查找有关于专利代理人的资料数据”,的查询指令,经服务器过滤之后筛选出关键词“专利代理人”,服务器按照一定的策略(例如预先训练得到的)将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,获得查询指令中的关键词。
可以理解的是,除了上述获取查询指令关键词的方法,本发明还可以采用其他的方法来获取查询指令的关键词,例如,用户在查询指令中添加标识符,所述标识符用来标识关键词,例如,定义标识符“()”中的内容为关键词,举例来说,查询指令为“查找有关于(专利代理人)的资料数据”,标识符“()”中的内容为专利代理人,据此,将专利代理人作为改查询指令的关键词。
通过用户自己添加标识符来确定查询指令的关键词,获取的关键词要更准确些,能更准确的找到用户想要查询的数据。
进一步地,通过标识符确定了关键词之后,还可以将获取的关键词进行分类,例如可以用特殊符号作为标识符来标识关键词的类型,比如@代表历史类型、#代表科学类型、$代表地理类型等,可以理解的是,这些类型还可以根据用户的需要或服务器的功能进一步细分。标识符可以是服务器预先定义好的,也可以是用户根据自己的使用习惯自定义设置好的。
值得一提的是,通过上述方法获取查询指令的关键词,不仅准确快捷,还能在之后快速查询到对应的数据,省时省力。
步骤20:将所述中文关键词进行分词,得到至少一个中文词根;
其中,在本发明的具体实施例中,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,分词之后的各个词就作为改关键词的中文词根,例如:关键词为“”中国政府推出知识产权新举措,可划分以下词根:中、中国、中国政府、中国政府推、依次类推,遍历完“中”这个字符后,开始遍历“国”,可划分以下词根:国、国政、国政府、国政府推……依次类推,直至遍历完最后一个字符“措”,服务器对关键词进行分词时,与一个“充分大的”词典的词条进行配(也可以说服务器具备此功能),确定有效的词根,可获得中国、政府、中国政府、知识产权、举措等词根。减少分词时间、提高之后查询数据的效率。
步骤30:根据预设中英文对照的词根表,获取与所述多个中文词根对应的多个英文词根;
如图2所示,在本发明的具体实施例中,在服务器中预设中英文对照的词根表,该中英文对照的词根表可以是用户自己设置的,也可以是网上查找的,为了该利用词根表进行数据查询的方法的完善、强大,该中英文对照的词根表具有所有的中文词根对照的英文词根,从而将从中文关键词获得的中文词根在中英文对照的词根表中找到对应的英文词根。
值得一提的是,可以通过中英文对照的词根表对中文关键字进行拆分翻译,并获取对应的英文关键字进行数据查询。
步骤40:将所述多个英文词根进行组合,生成英文关键字;
其中,在本发明的具体实施例中,英语单词构词法的核心部分,在于词根,词的意义主要是由组成单词的词根体现出来的。词根可以单独构成词,也可以彼此组合成词,词根决定单词意思,将在中英文对照的词根表中找到中文词根对应的英文词根进行组合,从而生成英文关键字。
步骤50:根据所述英文关键字,生成第二查询指令;
步骤60:响应所述第二查询指令,获取数据库中与所述英文关键字相关的数据。
其中,在本发明的具体实施例中,通过上述英文词根生成的英文关键字,去查询数据库中的数据时,应当将上述英文关键字生成一查询指令进行数据查询,服务器响应该查询指令,在数据库中找到与该查询指令中的英文关键字相关的数据。
其中,在本发明的具体实施例中,上述步骤20:将所述中文关键词进行分词,得到至少一个中文词根的步骤,包括:
基于字符串匹配的分词方法将所述中文关键词进行分词,或
基于统计以及预设机器学习的分词方法将所述中文关键词进行分词,得到至少一个中文词根。
其中,在本发明的具体实施例中,基于字符串匹配的分词方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。
基于统计以及预设机器学习的分词方法,首先给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。我们知道,汉语中各个字单独作词语的能力是不同的,此外有的字常常作为前缀出现,有的字却常常作为后缀(“者”“性”),结合两个字相临时是否成词的信息,这样就得到了许多与分词有关的知识。这种方法就是充分利用汉语组词的规律来分词。
可以理解的是,服务器在对中文关键字进行分词时可以使用其中一种分词方法进行对关键词的分词,另一种分词方法可以用来对关键词的分词进行检测,看看是否有明显不符合实际的分词,当中文关键字分词后,即可将多个词作为该中文关键字的多个词根。
其中,在本发明的具体实施例中,上述步骤30:根据预设中英文对照的词根表,获取与所述多个中文词根对应的多个英文词根的步骤,包括:
根据每个中文词根对应的英文词根设置中英文对照的词根表,检测获取的多个中文词根与所述词根表中相同的多个中文词根,获取对应的多个英文词根。
其中,在本发明的具体实施例中,找到每个中文词根对应的英文词根,然后建立中英文对照的词根表,为了该利用词根表进行数据查询的方法的完善、强大,该中英文对照的词根表具有所有的中文词根对照的英文词根,当获得了中文关键词的多个中文词根,先确定该多个中文词根在词根表中相同的多个中文词根,再确定对应的多个英文词根,通过该中英文对照的词根表对中文关键字进行拆分翻译,并获取对应的英文关键字进行数据查询。
其中,在本发明的具体实施例中,将数据库中的数据与英文关键词进行匹配的步骤包括:
步骤31:预设Stopwords词汇表,所述Stopwords词汇表的作用是在全文检索过程中忽略非常常用的单词;
步骤32:数据库中的数据经所述预设Stopwords词汇表过滤之后,保留有效文本数据。
其中,在本发明的具体实施例中,Stopwords词汇表是停用词词汇表,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,常为冠词、介词、副词或连词等。如果查询引擎要将这些词都查询的话,也就是说工作量巨大。因为这些词在大多数文本中都存在,失去了索引的意义和价值;这些词被列在一个Stopwords词汇表中,做分词和全文检索的词语匹配时,就忽略这些单词,认为它们与任何单词都匹配。
数据库的数据经过Stopwords词汇表过滤之后,去除了不必要的字符,当然,也还可以去除类似于图片、线条等数据,最后保留数据的有效文本数据。
值得一提的是,将数据库中的数据去除不必要的数据,将最后保留有效文本数据与英文关键词进行匹配,大大的提高了数据查询方法的效率,省时省力。
步骤33:遍历所述有效文本数据包含的每个字符;
步骤34:判断所述有效文本数据与所述英文关键词的匹配度是否大于预设值;
步骤35:当所述有效文本数据与所述英文关键词的匹配度大于预设值,则所述有效文本数据对应的数据作为与所述英文关键字相关的数据。
其中,在本发明的具体实施例中,服务器以获取的英文关键字作为依据来查询数据库中与英文关键字有关的数据,上述已说明数据库中的数据经过过滤后剩下有效文本数据。可以理解的是,与英文关键字有关的有效文本数据肯定在该有效文本数据出现过该英文关键字,从而,遍历有效文本数据包含的每个字符,判断有效文本数据中的所有字符与英文关键词的匹配度是否大于预设值;该预设值可以由服务器设定的,也可以是用户根据自己的需求设定的。当有效文本数据中的所有字符与英文关键词的匹配度大于服务器或用户设定的预设值,那么,该有效文本数据对应的数据作为与英文关键字相关的数据。
其中,在本发明的具体实施例中,上述步骤34的匹配度是根据以下公式进行的:
其中,Aβ表示有效文本数据τ与英文关键词的匹配度的结果,ατ表示有效文本数据τ与英文关键词相同的字符数,γτ表示有效文本数据τ的总字符数,β表示英文关键字的字符数。
从而,根据上述公式,能够根据英文关键词将数据库中的所有数据与英文关键词进行匹配,根据多个匹配度结果准确地找出与英文关键字相关的数据,提高数据查询方法的效率,有效地避免了查询到与英文关键字无关的数据的情况发生。
其中,在本发明的具体实施例中,上述步骤35:当所述有效文本数据与所述英文关键词的匹配度大于预设值,则所述有效文本数据对应的数据作为与所述英文关键字相关的数据的步骤,包括:
获取多个有效文本数据与所述英文关键词匹配度结果Aβ,判断所述多个匹配度结果Aβ是否大于预设值,将匹配度结果Aβ大于预设值的有效文本数据对应的数据作为与所述英文关键字相关的数据。
服务器以获取的英文关键字作为依据来查询数据库中与英文关键字有关的数据,上述已说明数据库中的数据经过过滤后剩下有效文本数据。可以理解的是,与英文关键字有关的有效文本数据肯定在该有效文本数据出现过该英文关键字,从而,遍历有效文本数据包含的每个字符,根据上述公司计算的匹配度结果Aβ,判断有效文本数据中的所有字符与英文关键词的匹配度Aβ是否大于预设值;该预设值可以由服务器设定的,也可以是用户根据自己的需求设定的。当有效文本数据中的所有字符与英文关键词的匹配度Aβ大于服务器或用户设定的预设值,那么,将该有效文本数据对应的数据作为与英文关键字相关的数据。
其中,在本发明的具体实施例中,上述步骤60:获取数据库中与所述英文关键字相关的数据的步骤之后,所述方法还包括:
步骤一:将数据库中与所述英文关键字相关的数据汇总;
步骤二:提供一可视化界面,显示所述与所述英文关键字相关的数据。
如图4所示,其中,在本发明的具体实施例中,当在数据库中确定了与英文关键字相关的数据时,把所有的与英文关键字相关的数据进行汇总管理,还可以把所有的与英文关键字相关的数据生成多个链接,提供一可视化界面,显示上述多个链接,当用户需要阅读上述数据时,点开链接即可阅读用户所需的数据文本,也可以将其链接发给用户客户端进行阅读,或者发给其他客户端供他人阅读。
由此可见,在本发明的具体实施例中,首先接收用户输入的第一查询指令,获取所述第一查询指令的中文关键词;再将所述中文关键词进行分词,得到至少一个中文词根;并根据预设中英文对照的词根表,获取与所述多个中文词根对应的多个英文词根;然后将所述多个英文词根进行组合,生成英文关键字;接着根据所述英文关键字,生成第二查询指令;最后响应所述第二查询指令,获取数据库中与所述英文关键字相关的数据。本发明公开的利用词根表进行数据查询的方法有利于关键字的维护以及数据库的管理。
如图5所示,本发明还提供一种利用词根表进行数据查询的设备,包括存储器51,处理器53以及存储在存储器51上并可在处理器53上运行的计算机程序52,该处理器53执行计算机程序52时实现上述利用词根表进行数据查询的方法的步骤。
具体的,在本发明的具体实施例中,处理器53执行计算机程序52时实现以下步骤:接收用户输入的第一查询指令,获取所述第一查询指令的中文关键词;将所述中文关键词进行分词,得到至少一个中文词根;根据预设中英文对照的词根表,获取与所述多个中文词根对应的多个英文词根;将所述多个英文词根进行组合,生成英文关键字;根据所述英文关键字,生成第二查询指令;响应所述第二查询指令,获取数据库中与所述英文关键字相关的数据。
可选的,处理器53执行计算机程序52时实现以下步骤:基于字符串匹配的分词方法将所述中文关键词进行分词,或基于统计以及预设机器学习的分词方法将所述中文关键词进行分词,得到至少一个中文词根。
可选的,处理器53执行计算机程序52时实现以下步骤:根据每个中文词根对应的英文词根设置中英文对照的词根表,检测获取的多个中文词根与所述词根表中相同的多个中文词根,获取对应的多个英文词根。
可选的,处理器53执行计算机程序52时实现以下步骤:预设Stopwords词汇表,所述Stopwords词汇表的作用是在全文检索过程中忽略非常常用的单词;数据库中的数据经所述预设Stopwords词汇表过滤之后,保留有效文本数据。
可选的,处理器53执行计算机程序52时实现以下步骤:遍历所述有效文本数据包含的每个字符;判断所述有效文本数据与所述英文关键词的匹配度是否大于预设值;当所述有效文本数据与所述英文关键词的匹配度大于预设值,则所述有效文本数据对应的数据作为与所述英文关键字相关的数据。
可选的,处理器53执行计算机程序52时实现以下步骤:
其中,Aβ表示有效文本数据τ与英文关键词的匹配度的结果,ατ表示有效文本数据τ与英文关键词相同的字符数,γτ表示有效文本数据τ的总字符数,β表示英文关键字的字符数。
可选的,处理器53执行计算机程序52时实现以下步骤:获取多个有效文本数据与所述英文关键词匹配度结果Aβ,判断所述多个匹配度结果Aβ是否大于预设值,将匹配度结果Aβ大于预设值的有效文本数据对应的数据作为与所述英文关键字相关的数据。
可选的,处理器53执行计算机程序52时实现以下步骤:将数据库中与所述英文关键字相关的数据汇总;提供一可视化界面,显示所述与所述英文关键字相关的数据。
即,在本发明具体实施例中,数据查询设备5的处理器53执行计算机程序52时实现上述利用词根表进行数据查询的方法的步骤。通过中英文对照的词根表对中文关键字进行拆分翻译,并获取对应的英文关键字进行数据查询。
需要说明的是,由于数据查询设备5的处理器53执行计算机52时实现上述利用词根表进行数据查询的方法的步骤,因此上述利用词根表进行数据查询的方法的所有实施例均适用于该数据查询设备5,且均能达到相同或相似的有益效果。
此外,本发明的具体实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述的利用词根表进行数据查询的方法的步骤。
具体的,计算机程序被处理器执行时实现以下步骤:接收用户输入的第一查询指令,获取所述第一查询指令的中文关键词;将所述中文关键词进行分词,得到至少一个中文词根;根据预设中英文对照的词根表,获取与所述多个中文词根对应的多个英文词根;将所述多个英文词根进行组合,生成英文关键字;根据所述英文关键字,生成第二查询指令;响应所述第二查询指令,获取数据库中与所述英文关键字相关的数据。
可选的,计算机程序被处理器执行时实现以下步骤:基于字符串匹配的分词方法将所述中文关键词进行分词,或基于统计以及预设机器学习的分词方法将所述中文关键词进行分词,得到至少一个中文词根。
可选的,计算机程序被处理器执行时实现以下步骤:根据每个中文词根对应的英文词根设置中英文对照的词根表,检测获取的多个中文词根与所述词根表中相同的多个中文词根,获取对应的多个英文词根。
可选的,计算机程序被处理器执行时实现以下步骤:预设Stopwords词汇表,所述Stopwords词汇表的作用是在全文检索过程中忽略非常常用的单词;数据库中的数据经所述预设Stopwords词汇表过滤之后,保留有效文本数据。
可选的,计算机程序被处理器执行时实现以下步骤:遍历所述有效文本数据包含的每个字符;判断所述有效文本数据与所述英文关键词的匹配度是否大于预设值;当所述有效文本数据与所述英文关键词的匹配度大于预设值,则所述有效文本数据对应的数据作为与所述英文关键字相关的数据。
可选的,计算机程序被处理器执行时实现以下步骤:
其中,Aβ表示有效文本数据τ与英文关键词的匹配度的结果,ατ表示有效文本数据τ与英文关键词相同的字符数,γτ表示有效文本数据τ的总字符数,β表示英文关键字的字符数。
可选的,计算机程序被处理器执行时实现以下步骤:获取多个有效文本数据与所述英文关键词匹配度结果Aβ,判断所述多个匹配度结果Aβ是否大于预设值,将匹配度结果Aβ大于预设值的有效文本数据对应的数据作为与所述英文关键字相关的数据。
可选的,计算机程序被处理器执行时实现以下步骤:将数据库中与所述英文关键字相关的数据汇总;提供一可视化界面,显示所述与所述英文关键字相关的数据。
即,在本发明的具体实施例中,计算机程序被处理器执行时实现上述利用词根表进行数据查询的方法的步骤,有利于关键字的维护以及数据库的管理。
需要说明的是,由于计算机程序被处理器执行时实现上述利用词根表进行数据查询的方法的步骤,因此上述利用词根表进行数据查询的方法的所有实施例均适用于该计算机可读存储介质,且均能达到相同或相似的有益效果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是智能音箱,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (7)

1.一种利用词根表进行数据查询的方法,其特征在于,包括:
接收用户输入的第一查询指令,获取所述第一查询指令的中文关键词;
基于字符串匹配的分词方法将所述中文关键词进行分词,得到至少一个中文词根;基于统计以及预设机器学习的分词方法对所述至少一个中文词根进行检测,在未检测到不符合条件的分词后,根据预设中英文对照的词根表,获取与至少一个中文词根对应的多个英文词根;
将所述多个英文词根进行组合,生成英文关键字;
根据所述英文关键字,生成第二查询指令;
预设Stopwords词汇表,所述Stopwords词汇表的作用是在全文检索过程中忽略非常常用的单词;
数据库中的数据经所述预设Stopwords词汇表过滤之后,保留有效文本数据;
响应所述第二查询指令,遍历所述有效文本数据包含的每个字符;
判断所述有效文本数据与所述英文关键字的匹配度是否大于预设值;
当所述有效文本数据与所述英文关键字的匹配度大于预设值,则所述有效文本数据对应的数据作为与所述英文关键字相关的数据。
2.根据权利要求1所述的方法,其特征在于,所述根据预设中英文对照的词根表,获取与至少一个中文词根对应的多个英文词根的步骤,包括:
根据每个中文词根对应的英文词根设置中英文对照的词根表,检测获取的至少一个中文词根与所述词根表中相同的中文词根,获取对应的多个英文词根。
3.根据权利要求1所述的方法,其特征在于,所述匹配度是根据以下公式进行的:
其中,Aβ表示有效文本数据τ与英文关键字的匹配度的结果,ατ表示有效文本数据τ与英文关键字相同的字符数,γτ表示有效文本数据τ的总字符数,β表示英文关键字的字符数。
4.根据权利要求3所述的方法,其特征在于,所述当所述有效文本数据与所述英文关键字的匹配度大于预设值,则所述有效文本数据对应的数据作为与所述英文关键字相关的数据的步骤,包括:
获取多个有效文本数据与所述英文关键字匹配度结果Aβγ,判断匹配度结果Aβ是否大于预设值,将匹配度结果Aβ大于预设值的有效文本数据对应的数据作为与所述英文关键字相关的数据。
5.根据权利要求1所述的方法,其特征在于,所述当所述有效文本数据与所述英文关键词的匹配度大于预设值,则所述有效文本数据对应的数据作为与所述英文关键字相关的数据的步骤之后,所述方法还包括:
将数据库中与所述英文关键字相关的数据汇总;
提供一可视化界面,显示所述与所述英文关键字相关的数据。
6.一种数据查询的设备,包括存储器,处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的利用词根表进行数据查询的方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的利用词根表进行数据查询的方法。
CN201911090457.5A 2019-11-08 2019-11-08 一种利用词根表进行数据查询的方法、设备、及存储介质 Active CN110909128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911090457.5A CN110909128B (zh) 2019-11-08 2019-11-08 一种利用词根表进行数据查询的方法、设备、及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911090457.5A CN110909128B (zh) 2019-11-08 2019-11-08 一种利用词根表进行数据查询的方法、设备、及存储介质

Publications (2)

Publication Number Publication Date
CN110909128A CN110909128A (zh) 2020-03-24
CN110909128B true CN110909128B (zh) 2023-08-11

Family

ID=69817071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911090457.5A Active CN110909128B (zh) 2019-11-08 2019-11-08 一种利用词根表进行数据查询的方法、设备、及存储介质

Country Status (1)

Country Link
CN (1) CN110909128B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269627A (zh) * 2022-05-27 2022-11-01 上海迈伺通健康科技有限公司 使用中文指令操作数据库的方法、系统、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350013A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地理信息的搜索方法和系统
CN101788992A (zh) * 2009-05-06 2010-07-28 厦门东南融通系统工程有限公司 一种数据库查询语句的转换方法和转换系统
CN102760166A (zh) * 2012-06-12 2012-10-31 上海方正数字出版技术有限公司 一种支持多语言的xml数据库全文检索方法
WO2014000517A1 (zh) * 2012-06-26 2014-01-03 北京奇虎科技有限公司 一种用于搜索输入的推荐系统及方法
CN107169124A (zh) * 2017-05-31 2017-09-15 上海明数数字出版科技有限公司 一种双语双解词典的查询方法
CN107633081A (zh) * 2017-09-26 2018-01-26 浙江极赢信息技术有限公司 一种失信用户信息的查询方法及系统
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN108874956A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 海量文件检索方法、装置、计算机设备及存储介质
CN110287300A (zh) * 2019-06-27 2019-09-27 谷晓佳 中英文相关词汇获取方法及装置
CN110399436A (zh) * 2018-04-20 2019-11-01 北京搜狗科技发展有限公司 一种基于同义词根进行地图离线搜索的方法及装置
CN110737432A (zh) * 2019-09-20 2020-01-31 黄沙沙 一种基于词根表的脚本辅助设计方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350013A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地理信息的搜索方法和系统
CN101788992A (zh) * 2009-05-06 2010-07-28 厦门东南融通系统工程有限公司 一种数据库查询语句的转换方法和转换系统
CN102760166A (zh) * 2012-06-12 2012-10-31 上海方正数字出版技术有限公司 一种支持多语言的xml数据库全文检索方法
WO2014000517A1 (zh) * 2012-06-26 2014-01-03 北京奇虎科技有限公司 一种用于搜索输入的推荐系统及方法
CN107169124A (zh) * 2017-05-31 2017-09-15 上海明数数字出版科技有限公司 一种双语双解词典的查询方法
CN107633081A (zh) * 2017-09-26 2018-01-26 浙江极赢信息技术有限公司 一种失信用户信息的查询方法及系统
CN110399436A (zh) * 2018-04-20 2019-11-01 北京搜狗科技发展有限公司 一种基于同义词根进行地图离线搜索的方法及装置
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN108874956A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 海量文件检索方法、装置、计算机设备及存储介质
CN110287300A (zh) * 2019-06-27 2019-09-27 谷晓佳 中英文相关词汇获取方法及装置
CN110737432A (zh) * 2019-09-20 2020-01-31 黄沙沙 一种基于词根表的脚本辅助设计方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨晓军 等.一种GIS的中文分词算法研究.微电子学与计算机.2010,(第07期),173-176. *

Also Published As

Publication number Publication date
CN110909128A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
US11354356B1 (en) Video segments for a video related to a task
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
US7613602B2 (en) Structured document processing apparatus, structured document search apparatus, structured document system, method, and program
US6980976B2 (en) Combined database index of unstructured and structured columns
JP5540079B2 (ja) 知識ベース構築の方法および装置
US8135717B2 (en) Processor for fast contextual matching
CN111309877A (zh) 一种基于知识图谱的智能问答方法及系统
KR101223173B1 (ko) 정보 검색 시스템에서의 문구 기반 인덱싱
US20120130995A1 (en) Efficient forward ranking in a search engine
CN103365992B (zh) 一种基于一维线性空间实现Trie树的词典检索方法
KR20060048777A (ko) 문서 설명의 문구 기반 생성
KR20060048778A (ko) 정보 검색 시스템에서의 문구 기반 서치
KR20060048779A (ko) 정보 검색 시스템에서의 문구 식별
KR20100106464A (ko) 데이터 클러스터와 유의어의 탐색과 수정에 대한 방법 및 시스템
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
WO2014179409A1 (en) Systems and methods for parsing search queries
JP2003281186A (ja) 類似性判断のための例題ベース検索方法及び検索システム
CN102915381B (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
US11151317B1 (en) Contextual spelling correction system
CN110909128B (zh) 一种利用词根表进行数据查询的方法、设备、及存储介质
CN108733848B (zh) 一种搜索知识的方法及系统
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质
Sloan et al. Data preparation and fuzzy matching techniques for improved statistical modeling
JP3249743B2 (ja) 文書検索システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 R & D building 3501, block a, building 7, Vanke Cloud City Phase I, Xingke 1st Street, Xili community, Xili street, Nanshan, Shenzhen, Guangdong

Applicant after: Tubatu Group Co.,Ltd.

Address before: 1001-a, 10th floor, bike technology building, No.9, Keke Road, high tech Zone, Nanshan District, Shenzhen, Guangdong 518000

Applicant before: SHENZHEN BINCENT TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant