CN105843926A - 现实信息索引的建立方法和基于云平台的全文检索系统 - Google Patents
现实信息索引的建立方法和基于云平台的全文检索系统 Download PDFInfo
- Publication number
- CN105843926A CN105843926A CN201610181067.9A CN201610181067A CN105843926A CN 105843926 A CN105843926 A CN 105843926A CN 201610181067 A CN201610181067 A CN 201610181067A CN 105843926 A CN105843926 A CN 105843926A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- group
- paragraph
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种现实信息索引的建立方法和基于云平台的全文检索系统。该方法包括:对现实信息的数据库中的文本进行分词,以得到词库;词库中获取一个词语以得到第一词语;从除去第一词语的词库中获取N‑1个词语,并与第一词语共同构成一个词语组,采用以下公式计算词语组中每两个词语的总体相关性距离K,以得到个K,采用以下公式计算词语组的总体距离系数P:K=λ1K不同文本+λ2K同文本*[λ3K不同段落+λ4K同段落*(λ5K不同句子+λ6K同句子)],其中,获取M次N‑1个词语进行计算得到M个P;找出计算得到的P为最小时所获取的N‑1个词语与第一词语构成第一相关词语组;确定第一相关词语组中各词语之间的关系;根据第一相关词语组中各词语之间的关系构建现实信息的索引。通过本发明,能够更有效率的找寻有效数据。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,特别涉及一种现实信息索引的建立方法和基于云平台的全文检索系统。
背景技术
随着互联网发展,我们进入了数据爆炸的大数据时代。愈来愈多的数据影响着人们生活的方方面面,人们需要分类存储、调用、分析各类数据。但在调用分析中,存在着遍历数据效率低的问题。
针对现有技术中数据检索效率低的问题,目前尚未提出有效的解决方法。
发明内容
本发明的主要目的在于提供一种现实信息索引的建立方法和基于云平台的全文检索系统,以解决现有技术中数据检索效率低的问题。
依据本发明的一个方面,提供了一种现实信息索引的建立方法。该方法包括:步骤S1:对现实信息的数据库中的文本进行分词,以得到词库;步骤S2:词库中获取一个词语以得到第一词语;步骤S3:从除去第一词语的词库中获取N-1个词语,并与第一词语共同构成一个词语组,采用以下公式计算词语组中每两个词语的总体相关性距离K,以得到个K,采用以下公式计算词语组的总体距离系数P:
K=λ1K不同文本+λ2K同文本*[λ3K不同段落+λ4K同段落*(λ5K不同句子+λ6K同句子)],
其中,K不同文本为两个词语在不同文本中的距离,K同文本为两个词语在同一个文本中的距离,K不同段落为两个词语在同一文本中不同段落中的距离,K同段落为两个词语在同一段落中的距离,K不同句子为两个词语在同一段落中不同句子中的距离,K同句子为两个词语在同一句子中的距离,λ1至λ6为常量,Ky为个K中的第y个K;其中,在该方法中,执行M次步骤S3,每次执行步骤S3时,获取不同的N-1个词语,以得到M个P,M为预设值;步骤S4:找出计算得到的P 为最小时所获取的N-1个词语作为第一词语组,第一词语组与第一词语共同构成第一相关词语组;步骤S5:确定第一相关词语组中各词语之间的关系;以及步骤S6:根据第一相关词语组中各词语之间的关系构建现实信息的索引。
进一步地,在步骤S1中,对数据库中的一个文本进行分词具体包括:将文本与第一词典匹配到的词作为断点词;通过断点词将文本分割为多个文本段;以及将断点词、多个文本段中的每一个文本段与第二词典匹配到的词作为对文本进行分词的分词结果,其中,第一词典的词量小于第二词典的词量。
进一步地,在步骤S1中,对数据库中的一个文本进行分词具体包括:通过标点符号将文本分割为多个句子;对多个句子中的每个句子采用正向最大匹配法进行切分,以得到第一分词结果;对多个句子中的每个句子采用逆向最大匹配法进行切分,以得到第二分词结果;若第一分词结果与第二分词结果相同,则第一分词结果或第二分词结果为对文本进行分词的分词结果;若第一分词结果与第二分词结果不同,将不同的部分拆分为最小词;以及将最小词、第一分词结果与第二分词结果相同的部分作为对文本进行分词的分词结果。
进一步地,在步骤S5中,采用以下步骤确定第一相关词语组中各词语之间的关系:采用以下公式计算第一词语在第一相关词语组中的位置决定参数,以得到第一位置参数:
其中,λ′i为常量,Ki为第一词语组中第i个词语与第一词语的总体相关性距离K;将第一位置决定参数输入由N个词语组成的相关词语组所对应的第一模型,以得到第一相关词语组中各词语之间的关系,其中,词语之间关系包括所属关系、并列关系和无关关系,第一模型的输入为相关词语组中一个词语在相关词语组中的位置决定参数,第一模型的输出为相关词语组中各词语之间的关系。
进一步地,在步骤S6中,第一模型采用以下步骤得到:获取机器学习样本集,其中,样本集中包括多个样本,一个样本包括两个特征参数,其中,一个特征参数为由N个词语组成的相关词语组中各词语之间的关系,另一个特征参数为相关词语组中一个词语在相关词语组中的位置决定参数;通过人工智能学习算法对样本集进行学习,以得到第一模型。
进一步地,在步骤S5中,采用以下步骤确定第一相关词语组中各词语之间的关系:确定第一词语组中各词语之间的关系,以得到第一关系组;确定第一词语与第一词语组中各词语的关系,以得到第二关系组;以及通过第一关系组和第二关系组确定第一相关词语组中各词语之间的关系。
进一步地,在步骤S3中,第二词语与第三词语为N个词语中两个词语,数据库中具有Z1个文本组,每个文本组中包括第一文本和第二文本共两个文本,第二词语仅在第一文本出现,第三词语仅在第二文本出现,计算K不同文本的具体步骤如下:对数据库中的所有文本按照相似性由高到低进行排序,以使数据库中的每一个文本均对应一个序号;采用以下公式计算K不同文本:
其中,x1=1,2,3......Z1,bx1为第二词语在Z1个文本组中第x1个文本组的第一文本的出现次数,mx1为第三词语在第x1个文本组的第二文本的出现次数,lx1为第x1个文本组的第二文本对应的序号与第x1个文本组的第一文本对应的序号的差。
进一步地,在步骤S3中,第二词语与第三词语为N个词语中任意两个词语,数据库具有同时出现第二词语和第三词语的Z2个文本,采用以下公式计算K同文本:
其中,x2=1,2,3......Z2,cx为第二词语在Z2个文本中第x2个文本的出现次数,nx2为第三词语在第x2个文本的出现次数。
进一步地,在步骤S3中,第二词语与第三词语为N个词语中任意两个词语,第三文本为数据库中同时出现第二词语和第三词语的一个文本,第三文本中具有Z3个段落组,每个段落组中包括第一段落和第二段落共两个段落,第二词语仅在第一段落出现,第三词语仅在第二段落出现,计算K不同段落的具体步骤如下:
对第三文本中的所有段落按照相似性由高到低进行排序,以使第三文本中的每一个段落均对应一个序号;采用以下公式计算K不同段落:
其中,x3=1,2,3......Z3,bx3′为第二词语在Z3个段落组中第x3个段落组的第一段落的出现次数,mx3′为第三词语在第x3个段落组的第二段落的出现次数,lx3′为第x3个段落组的第一段落对应的序号与第x3个段落组的第二段落对应的序号的差。
进一步地,在步骤S3中,第二词语与第三词语为N个词语中任意两个词语,第四文本为数据库中具有同时出现第二词语和第三词语的段落的一个文本,第四文本具有同时出现第二词语和第三词语的Z4个段落,采用以下公式计算K同段落:
其中,x4=1,2,3......Z4,cx4′为第二词语在Z4个段落中第x4个段落的出现次数,n′x4第三词语在第x4个段落的出现次数。
进一步地,在步骤S3中,第二词语与第三词语为N个词语中任意两个词语,第五文本为数据库中具有同时出现第二词语和第三词语的段落的一个文本,第三段落为第五文本中同时出现第二词语和第三词语的一个段落,第三段落中具有Z5个句子组,每个句子组中包括第一句子和第二句子共两个句子,第二词语仅在第一句子出现,第三词语仅在第二句子出现,计算K不同句子的具体步骤如下:对第三段落中的所有句子按照先后顺序进行排序,以使第三段落中的每一个句子均对应一个序号;采用以下公式计算K不同句子:
其中,x5=1,2,3......Z3,bx5″为第二词语在Z5个句子组中第x5个句子组的第一段落的出现次数,mx5″为第三词语在第x5个句子组的第二段落的出现次数,l″x5为第x5个句子组的第一段落对应的序号与第x5个句子组的第二段落对应的序号的差。
进一步地,在步骤S3中,第二词语与第三词语为N个词语中任意两个词语,第六文本为数据库中具有同时出现第二词语和第三词语的句子的一个文本,第六文本具有同时出现第二词语和第三词语的Z6个句子,采用以下公式计算K同句子:
其中,x6=1,2,3......Z6,c″x6为第二词语在Z6个句子中第x6个句子的出现次数,n″x6第三词语在第x6个句子的出现次数。
另一方面,提供了一种基于云平台的全文检索系统,该系统包括:现实信息索引的建立装置,用于采用本发明提供的任一种现实信息索引的建立方法构建现实信息的索引;分布式数据库,用于存储现实信息的数据和索引;现实信息检索装置,用于响应检索词,以根据索引在分布式数据库中检索出结果并展示。
通过本发明,在建立现实信息索引时,首先对现实信息的数据库中的文本进行分词得到词库,然后再词库中获取一个词语以得到第一词语;再从除去第一词语的词库中获取N-1个词语,并与第一词语共同构成一个词语组,计算词语组中每两个词语的总体相关性距离K,以得到个K;再根据个K计算词语组的总体距离系数P,其中,获取M次N-1个词语进行计算得到M个P;对于M个P,先找出最小P,再获取计算该最小P时所对应的N-1个词语作为第一词语组,第一词语组与第一词语共同构成第一相关词语组;最后确定第一相关词语组中各词语之间的关系,以根据确定的关系构建现实信息的索引,解决了现有技术中数据检索效率低的问题,从而能够更有效率的找寻有效数据。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明第一实施例的现实信息索引的建立方法的流程图;
图2是根据本发明第一实施例的树状检索结构的示意图;
图3是根据本发明第二实施例的基于云平台的全文检索系统的框图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步说明。需要指出的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
第一方面,本发明实施例一提供了一种现实信息索引的建立方法,该方法主要描述建立现实信息的数据库的索引的过程,参见图1,该方法可以包括以下步骤S1至步骤S6。
步骤S1:对现实信息的数据库中的文本进行分词,以得到词库。
词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。
一般中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。
可基于字符串匹配进行分词:机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。
在该实施例中,一种优选地情况,在分词时,采用以下的步骤:将文本与第一词典匹配到的词作为断点词;通过断点词将文本分割为多个文本段;以及将断点词、多个文本段中的每一个文本段与第二词典匹配到的词作为对文本进行分词的分词结果,其中,第一词典的词量小于第二词典的词量,第一词典中的词均为具有明显特征词,第二词典是一个比较广泛的、充分大的机器词典。
采用该优选的方法,将机械分词作为初分手段,利用语言信息提高切分准确率。优先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减少匹配错误率。
在该实施例中,另一种优选地情况,在分词时,采用以下的步骤:通过标点符号将文本分割为多个句子;对多个句子中的每个句子采用正向最大匹配法进行切分,以得到第一分词结果;对多个句子中的每个句子采用逆向最大匹配法进行切分,以得到第二分词结果;若第一分词结果与第二分词结果相同,则第一分词结果或第二分词结果为对文本进行分词的分词结果;若第一分词结果与第二分词结果不同,将不同的部分拆分为最小词;以及将最小词、第一分词 结果与第二分词结果相同的部分作为对文本进行分词的分词结果。
采用该优选的方法,采用双向匹配法,将正向最大匹配法与逆向最大匹配法组合,先根据标点对文档进行粗切分,把文本分解成若干个句子,然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按最小集处理。提高分词的准确率。
步骤S2:词库中获取一个词语以得到第一词语。
步骤S3:从除去第一词语的词库中获取N-1个词语,并与第一词语共同构成一个词语组,计算词语组中每两个词语的总体相关性距离K,计算词语组的总体距离系数P。
其中,对于一个包含多个词语的词语组,计算词语组的总体距离系数P时,采用以下的公式(1):
其中,需要说明的是,在计算该词语组的总体距离系数P时,需要首先计算该词语组中任意两个词语的总体相关性距离K,则可计算得到个K,公式(1)中的Ky为是指个K中的第y个K。
在上述公式中,需要计算两个词语的总体相关性距离K,任意两个词语的总体相关性距离K,采用以下的公式(2)计算:
K=λ1K不同文本+λ2K同文本*[λ3K不同段落+λ4K同段落*(λ5K不同句子+λ6K同句子)],公式(2)
其中,K不同文本为两个词语在不同文本中的距离,K同文本为两个词语在同一个文本中的距离,K不同段落为两个词语在同一文本中不同段落中的距离,K同段落为两个词语在同一段落中的距离,K不同句子为两个词语在同一段落中不同句子中的距离,K同句子为两个词语在同一句子中的距离,λ1至λ6为常量。
设第二词语与第三词语为N个词语中两个词语,对于上述公式(2)中的各个参数的计算方法,分别说明如下。
第一,若数据库中具有Z1个文本组,每个文本组中包括第一文本和第二文本共两个文本,第二词语仅在第一文本出现,第三词语仅在第二文本出现,则计算K不同文本的具体步骤如下:
对数据库中的所有文本按照相似性由高到低进行排序,以使数据库中的每 一个文本均对应一个序号;
采用以下公式计算K不同文本:
其中,x1=1,2,3......Z1,bx1为第二词语在Z1个文本组中第x1个文本组的第一文本的出现次数,mx1为第三词语在第x1个文本组的第二文本的出现次数,lx1为第x1个文本组的第二文本对应的序号与第x1个文本组的第一文本对应的序号的差。
第二,若数据库具有同时出现第二词语和第三词语的Z2个文本,则采用以下公式计算K同文本:
其中,x2=1,2,3......Z2,cx为第二词语在Z2个文本中第x2个文本的出现次数,nx2为第三词语在第x2个文本的出现次数。
第三,若第三文本为数据库中同时出现第二词语和第三词语的一个文本,第三文本中具有Z3个段落组,每个段落组中包括第一段落和第二段落共两个段落,第二词语仅在第一段落出现,第三词语仅在第二段落出现,则计算K不同段落的具体步骤如下:
对第三文本中的所有段落按照相似性由高到低进行排序,以使第三文本中的每一个段落均对应一个序号;
采用以下公式计算K不同段落:
其中,x3=1,2,3......Z3,bx3′为第二词语在Z3个段落组中第x3个段落组的第一段落的出现次数,mx3′为第三词语在第x3个段落组的第二段落的出现次数,lx3′为第x3个段落组的第一段落对应的序号与第x3个段落组的第二段落对应的序号的差。
第四,若第四文本为数据库中具有同时出现第二词语和第三词语的段落的一个文本,第四文本具有同时出现第二词语和第三词语的Z4个段落,则采用以下公式计算K同段落:
其中,x4=1,2,3......Z4,cx4′为第二词语在Z4个段落中第x4个段落的出现次数,n′x4第三词语在第x4个段落的出现次数。
第五,若第五文本为数据库中具有同时出现第二词语和第三词语的段落的一个文本,第三段落为第五文本中同时出现第二词语和第三词语的一个段落,第三段落中具有Z5个句子组,每个句子组中包括第一句子和第二句子共两个句子,第二词语仅在第一句子出现,第三词语仅在第二句子出现,则计算K不同句子的具体步骤如下:
对第三段落中的所有句子按照先后顺序进行排序,以使第三段落中的每一个句子均对应一个序号;
采用以下公式计算K不同句子:
其中,x5=1,2,3......Z3,bx5″为第二词语在Z5个句子组中第x5个句子组的第一段落的出现次数,mx5″为第三词语在第x5个句子组的第二段落的出现次数,l″x5为第x5个句子组的第一段落对应的序号与第x5个句子组的第二段落对应的序号的差。
第六,若第六文本为数据库中具有同时出现第二词语和第三词语的句子的一个文本,第六文本具有同时出现第二词语和第三词语的Z6个句子,则采用以下公式计算K同句子:
其中,x6=1,2,3......Z6,c″x6为第二词语在Z6个句子中第x6个句子的出现次数,n″x6第三词语在第x6个句子的出现次数。
第七,关于常量λ1至λ6,可以为离散函数值,取经验值;也可以为具有关联性函数值,例如根据函数库中的数据进行匹配,通过神经网络学习方式获取最终确认函数值。
在该实施例中,执行M次步骤S3,每次执行步骤S3时,获取不同的N-1个词语,以得到M个P,其中,M为预设值,可按照实际分析目标的不同选择不同的M值。
步骤S4:找出计算得到的P为最小时所获取的N-1个词语作为第一词语组,第一词语组与第一词语共同构成第一相关词语组。
每次执行步骤S3,均会得到一个P值,一种处理方式为,每次得到P值后,和上一次的P值进行比较,保留较小的P和计算该较小P时所获取的N-1个词语,在执行M次步骤S3后,会得到最小P以及最小P所对应的N-1个词语;另一种处理方式为,每次得到P值时,进行一次数据保存,在执行M次步骤S3后,会得到所有的P以及每个P值所对应的N-1个词语,对所有的P值进行排序后得到最小P以及最小P所对应的N-1个词语。为方便描述,将最小P所对应的N-1个词语命名为第一词语组,将第一词语组与第一词语共同构成第一相关词语组。
步骤S5:确定第一相关词语组中各词语之间的关系。
在确定第一相关词语组中的各词语之间的关系时,可采用如下的两种方式。
一种方式,采用以下公式计算第一词语在第一相关词语组中的位置决定参数,以得到第一位置参数:
其中,λ′i为常量,Ki为第一词语组中第i个词语与第一词语的总体相关性距离K;
将第一位置决定参数输入由N个词语组成的相关词语组所对应的第一模型,以得到第一相关词语组中各词语之间的关系,其中,词语之间关系包括所属关系、并列关系和无关关系,第一模型的输入为相关词语组中一个词语在相关词语组中的位置决定参数,第一模型的输出为相关词语组中各词语之间的关系。
其中,第一模型采用以下步骤得到:获取机器学习样本集,其中,样本集中包括多个样本,一个样本包括两个特征参数,其中,一个特征参数为由N个词语组成的相关词语组中各词语之间的关系,另一个特征参数为相关词语组中一个词语在相关词语组中的位置决定参数;通过人工智能学习算法对样本集进行学习,以得到第一模型。
在具有第一模型的基础上,该方式只需要计算第一位置参数代入模型即 可,但该方式不适合于第一相关词语组中词语较多的情况。原因在于,当词语较多时,各词语之间的关系组合较多,从而在建立第一模型时,需要足够多的样本,并且建立第一模型的复杂度也较大。
另一种方式,采用以下步骤确定第一相关词语组中各词语之间的关系:确定第一词语组中各词语之间的关系,以得到第一关系组;确定第一词语与第一词语组中各词语的关系,以得到第二关系组;以及通过第一关系组和第二关系组确定第一相关词语组中各词语之间的关系。
在该种方式中,实际上是对确定第一相关词语组中各词语之间的关系这一问题进行了拆分,在确定第一相关词语组中各词语之间的关系时,首先确定第一词语组中各词语的关系,而确定第一词语组中各词语的关系,还可以进行进一步的拆分,以此类推,直至将词语组的大小拆分到能够通过简单的模型即可得到该词语组中各词语的关系。在面对词语组中词语较多的情况时,优于上述第一种方式。
步骤S6:根据第一相关词语组中各词语之间的关系构建现实信息的索引。
第一相关词语组中各词语之间的关系包括所属关系、并列关系和无关关系,其中,所属关系又由包含关系和属于关系构成,如果A词属于B词,则B词包含A词;如果C词也属于B词,则A词与C词是并列关系,除所属关系和并列关系之外的,属于无关关系,在获得词语之间的关系后,能够构建现实信息的索引,形成树状检索结构如图2所示。
在图2中,没有箭头指向关系的两个词是无关关系;箭头由A词指向B词是指A词属于B词,B词包含A词,例如,由“人工智能”指向“李世石”,是指“人工智能”属于“李世石”,“李世石”包含“人工智能”;同时指向B词的A词和C词是指A词与C词是并列关系,例如,由“机器”指向“人类”,由“国际象棋”指向“人类”,则“机器”与“国际象棋”属于并列关系。
第二方面,本发明实施例三提供了一种基于云平台的全文检索系统,如图2所示,该检索系统包括现实信息索引的建立装置10、分布式数据库20和现实信息检索装置30。
现实信息索引的建立装置10用于采用本发明提供的任一种现实信息索引的建立方法构建现实信息的索引;分布式数据库20用于存储现实信息的数据 和索引;现实信息检索装置30用于响应检索词,以根据索引在分布式数据库中检索出结果并展示。
需要说明的是,在本申请中提到的“第一词语组”、“第一文本”、“第二句子”、“第二段落”等中的“第一”、“第二”,并没有次序限定的意思,只是起标识作用用于相互区分。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于本申请的装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (13)
1.一种现实信息索引的建立方法,其特征在于,包括:
步骤S1:对现实信息的数据库中的文本进行分词,以得到词库;
步骤S2:所述词库中获取一个词语以得到第一词语;
步骤S3:从除去所述第一词语的词库中获取N-1个词语,并与所述第一词语共同构成一个词语组,采用以下公式计算所述词语组中每两个词语的总体相关性距离K,以得到个K,采用以下公式计算所述词语组的总体距离系数P:
K=λ1K不同文本+λ2K同文本*[λ3K不同段落+λ4K同段落*(λ5K不同句子+λ6K同句子)],
其中,K不同文本为所述两个词语在不同文本中的距离,K同文本为所述两个词语在同一个文本中的距离,K不同段落为所述两个词语在同一文本中不同段落中的距离,K同段落为所述两个词语在同一段落中的距离,K不同句子为所述两个词语在同一段落中不同句子中的距离,K同句子为所述两个词语在同一句子中的距离,λ1至λ6为常量,Ky为所述个K中的第y个K;
其中,在所述方法中,执行M次所述步骤S3,其中,每次执行所述步骤S3时,获取不同的N-1个词语,以得到M个P,M为预设值;
步骤S4:找出计算得到的P为最小时所获取的N-1个词语作为第一词语组,所述第一词语组与所述第一词语共同构成第一相关词语组;
步骤S5:确定所述第一相关词语组中各词语之间的关系;以及
步骤S6:根据所述第一相关词语组中各词语之间的关系构建所述现实信息的索引。
2.根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S1中,对所述数据库中的一个文本进行分词具体包括:
将所述文本与第一词典匹配到的词作为断点词;
通过所述断点词将所述文本分割为多个文本段;以及
将所述所述断点词、所述多个文本段中的每一个文本段与第二词典匹配到的词作为对所述文本进行分词的分词结果,其中,所述第一词典的词量小于所述第二词典的词量。
3.根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步 骤S1中,对所述数据库中的一个文本进行分词具体包括:
通过标点符号将所述文本分割为多个句子;
对所述多个句子中的每个句子采用正向最大匹配法进行切分,以得到第一分词结果;
对所述多个句子中的每个句子采用逆向最大匹配法进行切分,以得到第二分词结果;
若所述第一分词结果与所述第二分词结果相同,则所述第一分词结果或所述第二分词结果为对所述文本进行分词的分词结果;
若所述第一分词结果与所述第二分词结果不同,将不同的部分拆分为最小词;以及
将所述最小词、所述第一分词结果与所述第二分词结果相同的部分作为对所述文本进行分词的分词结果。
4.根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S5中,采用以下步骤确定所述第一相关词语组中各词语之间的关系:
采用以下公式计算所述第一词语在所述第一相关词语组中的位置决定参数,以得到第一位置参数:
其中,λ′i为常量,Ki为所述第一词语组中第i个词语与所述第一词语的总体相关性距离K;
将所述第一位置决定参数输入由N个词语组成的相关词语组所对应的第一模型,以得到所述第一相关词语组中各词语之间的关系,其中,所述词语之间关系包括所属关系、并列关系和无关关系,所述第一模型的输入为所述相关词语组中一个词语在所述相关词语组中的位置决定参数,所述第一模型的输出为所述相关词语组中各词语之间的关系。
5.根据权利要求4所述的现实信息索引的建立方法,其特征在于,在步骤S6中,所述第一模型采用以下步骤得到:
获取机器学习样本集,其中,所述样本集中包括多个样本,一个所述样本包括两个特征参数,其中,一个特征参数为由N个词语组成的相关词语组中各词语之间的关系,另一个特征参数为所述相关词语组中一个词语在所述相关词 语组中的位置决定参数;
通过人工智能学习算法对所述样本集进行学习,以得到所述第一模型。
6.根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S5中,采用以下步骤确定所述第一相关词语组中各词语之间的关系:
确定所述第一词语组中各词语之间的关系,以得到第一关系组;
确定所述第一词语与所述第一词语组中各词语的关系,以得到第二关系组;以及
通过所述第一关系组和所述第二关系组确定所述第一相关词语组中各词语之间的关系。
7.根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S3中,第二词语与第三词语为所述N个词语中两个词语,所述数据库中具有Z1个文本组,每个所述文本组中包括第一文本和第二文本共两个文本,所述第二词语仅在所述第一文本出现,所述第三词语仅在所述第二文本出现,计算K不同文本的具体步骤如下:
对所述数据库中的所有文本按照相似性由高到低进行排序,以使所述数据库中的每一个文本均对应一个序号;
采用以下公式计算K不同文本:
其中,x1=1,2,3......Z1,bx1为所述第二词语在所述Z1个文本组中第x1个文本组的第一文本的出现次数,mx1为所述第三词语在所述第x1个文本组的第二文本的出现次数,lx1为所述第x1个文本组的第二文本对应的序号与所述第x1个文本组的第一文本对应的序号的差。
8.根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S3中,第二词语与第三词语为所述N个词语中任意两个词语,所述数据库具有同时出现所述第二词语和所述第三词语的Z2个文本,采用以下公式计算K同文本:
其中,x2=1,2,3......Z2,cx为所述第二词语在所述Z2个文本中第x2个文本 的出现次数,nx2为所述第三词语在所述第x2个文本的出现次数。
9.根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S3中,第二词语与第三词语为所述N个词语中任意两个词语,所述第三文本为所述数据库中同时出现所述第二词语和所述第三词语的一个文本,所述第三文本中具有Z3个段落组,每个所述段落组中包括第一段落和第二段落共两个段落,所述第二词语仅在所述第一段落出现,所述第三词语仅在所述第二段落出现,计算K不同段落的具体步骤如下:
对所述第三文本中的所有段落按照相似性由高到低进行排序,以使所述第三文本中的每一个段落均对应一个序号;
采用以下公式计算K不同段落:
其中,x3=1,2,3......Z3,bx3′为所述第二词语在所述Z3个段落组中第x3个段落组的第一段落的出现次数,mx3′为所述第三词语在所述第x3个段落组的第二段落的出现次数,lx3′为所述第x3个段落组的第一段落对应的序号与所述第x3个段落组的第二段落对应的序号的差。
10.根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S3中,第二词语与第三词语为所述N个词语中任意两个词语,第四文本为所述数据库中具有同时出现所述第二词语和所述第三词语的段落的一个文本,所述第四文本具有同时出现所述第二词语和所述第三词语的Z4个段落,采用以下公式计算K同段落:
其中,x4=1,2,3......Z4,cx4′为所述第二词语在所述Z4个段落中第x4个段落的出现次数,n′x4所述第三词语在所述第x4个段落的出现次数。
11.根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S3中,第二词语与第三词语为所述N个词语中任意两个词语,第五文本为所述数据库中具有同时出现所述第二词语和所述第三词语的段落的一个文本,第三段落为所述第五文本中同时出现所述第二词语和所述第三词语的一个段落,所述第三段落中具有Z5个句子组,每个所述句子组中包括第一句子和第二句子共两个句子,所述第二词语仅在所述第一句子出现,所述第三词语仅在所 述第二句子出现,计算K不同句子的具体步骤如下:
对所述第三段落中的所有句子按照先后顺序进行排序,以使所述第三段落中的每一个句子均对应一个序号;
采用以下公式计算K不同句子:
其中,x5=1,2,3......Z3,bx5″为所述第二词语在所述Z5个句子组中第x5个句子组的第一段落的出现次数,mx5″为所述第三词语在所述第x5个句子组的第二段落的出现次数,l″x5为所述第x5个句子组的第一段落对应的序号与所述第x5个句子组的第二段落对应的序号的差。
12.根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S3中,第二词语与第三词语为所述N个词语中任意两个词语,第六文本为所述数据库中具有同时出现所述第二词语和所述第三词语的句子的一个文本,所述第六文本具有同时出现所述第二词语和所述第三词语的Z6个句子,采用以下公式计算K同句子:
其中,x6=1,2,3......Z6,c″x6为所述第二词语在所述Z6个句子中第x6个句子的出现次数,n″x6所述第三词语在所述第x6个句子的出现次数。
13.一种基于云平台的全文检索系统,其特征在于,包括:
现实信息索引的建立装置,用于采用权利要求1至12中任一项所述的现实信息索引的建立方法,构建现实信息的索引;
分布式数据库,用于存储所述现实信息的数据和所述索引;
现实信息检索装置,用于响应检索词,以根据所述索引在所述分布式数据库中检索出结果并展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610181067.9A CN105843926B (zh) | 2016-03-28 | 2016-03-28 | 现实信息索引的建立方法和基于云平台的全文检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610181067.9A CN105843926B (zh) | 2016-03-28 | 2016-03-28 | 现实信息索引的建立方法和基于云平台的全文检索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105843926A true CN105843926A (zh) | 2016-08-10 |
CN105843926B CN105843926B (zh) | 2019-03-12 |
Family
ID=56583642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610181067.9A Expired - Fee Related CN105843926B (zh) | 2016-03-28 | 2016-03-28 | 现实信息索引的建立方法和基于云平台的全文检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105843926B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110010315A1 (en) * | 2009-07-10 | 2011-01-13 | Kibboko, Inc. | Method and system for recommending articles |
US20110270830A1 (en) * | 2010-04-30 | 2011-11-03 | Palo Alto Research Center Incorporated | System And Method For Providing Multi-Core And Multi-Level Topical Organization In Social Indexes |
CN103377239A (zh) * | 2012-04-26 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 计算文本间相似度的方法和装置 |
CN103678528A (zh) * | 2013-12-03 | 2014-03-26 | 北京建筑大学 | 基于段落抄袭检测的电子作业反抄袭系统和方法 |
CN103970722A (zh) * | 2014-05-07 | 2014-08-06 | 江苏金智教育信息技术有限公司 | 一种文本内容去重的方法 |
CN104699785A (zh) * | 2015-03-10 | 2015-06-10 | 中国石油大学(华东) | 一种论文相似度检测方法 |
-
2016
- 2016-03-28 CN CN201610181067.9A patent/CN105843926B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110010315A1 (en) * | 2009-07-10 | 2011-01-13 | Kibboko, Inc. | Method and system for recommending articles |
US20110270830A1 (en) * | 2010-04-30 | 2011-11-03 | Palo Alto Research Center Incorporated | System And Method For Providing Multi-Core And Multi-Level Topical Organization In Social Indexes |
CN103377239A (zh) * | 2012-04-26 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 计算文本间相似度的方法和装置 |
CN103678528A (zh) * | 2013-12-03 | 2014-03-26 | 北京建筑大学 | 基于段落抄袭检测的电子作业反抄袭系统和方法 |
CN103970722A (zh) * | 2014-05-07 | 2014-08-06 | 江苏金智教育信息技术有限公司 | 一种文本内容去重的方法 |
CN104699785A (zh) * | 2015-03-10 | 2015-06-10 | 中国石油大学(华东) | 一种论文相似度检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105843926B (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN112199375B (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN108874878B (zh) | 一种知识图谱的构建系统及方法 | |
CN110390006B (zh) | 问答语料生成方法、装置和计算机可读存储介质 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
CN111898374B (zh) | 文本识别方法、装置、存储介质和电子设备 | |
CN102402561B (zh) | 一种搜索方法和装置 | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
CN110879834B (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN108536735B (zh) | 基于多通道自编码器的多模态词汇表示方法与系统 | |
CN105138514A (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN110348012B (zh) | 确定目标字符的方法、装置、存储介质及电子装置 | |
CN110245353B (zh) | 自然语言表示方法、装置、设备及存储介质 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN117371534B (zh) | 一种基于bert的知识图谱构建方法及系统 | |
CN114627282A (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
EP4089568A1 (en) | Cascade pooling for natural language document processing | |
CN115841334A (zh) | 异常账户识别方法和装置、电子设备及存储介质 | |
CN113051869B (zh) | 一种结合语义识别实现标识文本差异内容的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190312 |