CN109766429A - 一种语句检索方法及装置 - Google Patents
一种语句检索方法及装置 Download PDFInfo
- Publication number
- CN109766429A CN109766429A CN201910123852.2A CN201910123852A CN109766429A CN 109766429 A CN109766429 A CN 109766429A CN 201910123852 A CN201910123852 A CN 201910123852A CN 109766429 A CN109766429 A CN 109766429A
- Authority
- CN
- China
- Prior art keywords
- sentence
- feature vector
- corpus
- query statement
- semantic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种语句检索方法及装置,该语句检索方法,包括:构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;从所述语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。上述语句检索过程不再从字符或词语相似度层面检索相似语句,而是从语句的含义层面进行相似语句检索,相对于检索得到字符或词语与查询语句存在高度重合的相似语句,本申请实施例所检索出的相似语句的形式更灵活,检索结果更丰富、全面。
Description
技术领域
本申请涉及文本检索技术领域,尤其涉及一种语句检索方法及装置。
背景技术
针对查询语句,从语料库中检索出与查询语句相似的语句,是一种常见的文本检索应用场景。
目前常用的相似语句检索方法是根据查询语句中的词语或字符,从语料库中检索与查询语句的词语或字符的重合度较高的语句,作为检索得到的相似语句。
上述技术方案通过查询语句中的词语或字符从语料库中检索相似语句时,得到的相似语句都是与查询语句存在大量重复字符的语句,检索结果较单一,对于字符形式与查询语句不同,但是语句含义与查询语句类似的语句都无法检出。
发明内容
基于上述现有技术的缺陷和不足,本申请提出一种语句检索方法及装置,能够提高检索准确度,使检索更全面。
一种语句检索方法,包括:
构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;
分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;
从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。
可选的,所述构建查询语句的语义特征向量,包括:
分别构建所述查询语句的每个分词的特征向量,以及每个词组的特征向量;其中,所述词组由所述查询语句中的至少两个分词组合得到;
根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量。
可选的,所述根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量,包括:
计算所述查询语句的每个分词以及每个词组的特征向量之和的平均值,作为所述查询语句的语义特征向量。
可选的,在分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前,所述方法还包括:
对预设的语料库中的语句进行去重处理。
可选的,所述对预设的语料库中的语句进行去重处理,包括:
分别计算预设的语料库中的各个语句之间的dice距离;
根据所述语料库中的各个语句之间的dice距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的dice距离均不小于预设的第一距离阈值;
和/或,
分别计算所述语料库中的各个语句之间的编辑距离;
根据所述语料库中的各个语句之间的编辑距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的编辑距离均不小于预设的第二距离阈值。
可选的,在分别度量所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前,所述方法还包括:
对预设的语料库中的语句进行语句清洗处理。
一种语句检索装置,包括:
向量构建单元,用于构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;
相似度度量单元,用于分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;
语句筛选单元,用于从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。
可选的,所述向量构建单元,包括:
词向量构建单元,用于分别构建所述查询语句中的每个分词的特征向量,以及每个词组的特征向量;其中,所述词组由所述查询语句中的至少两个分词组合得到;
词向量运算单元,用于根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量。
可选的,所述装置还包括:
去重处理单元,用于对预设的语料库中的语句进行去重处理。
可选的,所述去重处理单元对预设的语料库中的语句进行去重处理时,具体用于:
分别计算预设的语料库中的各个语句之间的dice距离;
根据所述语料库中的各个语句之间的dice距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的dice距离均不小于预设的第一距离阈值;
和/或,
分别计算所述语料库中的各个语句之间的编辑距离;
根据所述语料库中的各个语句之间的编辑距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的编辑距离均不小于预设的第二距离阈值。
本申请利用查询语句和语料库语句的语义特征向量,从语料库中检索与查询语句的语义特征向量的相似度较高的语句作为查询语句的相似语句,该检索过程不再从字符或词语相似度层面检索相似语句,而是从语句的含义层面进行相似语句检索,相对于检索得到字符或词语与查询语句存在高度重合的相似语句,本申请实施例所检索出的相似语句的形式更灵活,检索结果更丰富、全面。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的一种语句检索方法的流程示意图;
图2是本申请实施例提供的构建查询语句的语义特征向量的流程示意图;
图3是本申请实施例提供的根据查询语句的每个分词以及每个词组的特征向量求取查询语句的语义特征向量的处理示意图;
图4是本申请实施例提供的一种语句检索装置的结构示意图;
图5是本申请实施例提供的另一种语句检索装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种语句检索方法,参见图1所示,该方法包括:
S101、构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;
具体的,上述查询语句,是语句检索的基准。在语句检索场景中,一般是从语料库中,查询、检索与上述查询语句相似的语句,因此,查询语句的语句内容和语句形式直接影响语句检索的结果。
上述语义特征向量,是指包含语义信息的特征向量。在本申请实施例中,以向量的方式表示语句的特征,具体的,通过计算语句的向量将语句以向量表示,该向量则作为该语句的特征向量。
需要说明的是,本申请实施例在构建上述查询语句的特征向量时,具体是构建包含查询语句的语义信息的特征向量,即语义特征向量。
上述语义信息,即语句的含义信息,是表示语句所表达的意思的信息。则可以理解,上述构建的查询语句的语义特征向量,是表示查询语句的语义的特征向量,通过该语义特征向量,可以简明地表示查询语句的语义特征。
理论上,任意可以生成文本的语义特征向量的特征构建方法,都可以被本申请实施例所采用,用来对上述查询语句进行语义特征向量的构建。
S102、分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;
具体的,上述预设的语料库,是指预先设置的,包含大量语句资料的数据库,或者语句集合。上述语料库中包含各种类型、各种内容的语句,而语句检索,就是从该语料库中检索出与上述查询语句类似的语句。
上述语句,是指由词或词组、短语等构成的文本句子,可以是中文文本,也可以是英文文本,也可以包含数字、标点或其他特殊字符。一个语句从不同角度或标准来看,可以属于不同的句子类别,例如,从句子结构来看,可以是单句、复句等;从文本语言类型来看,可以是中文语句、英文语句等。
优选的,本申请实施例技术方案最适用于中文语句检索,因此,在本申请实施例中,上述语句优选中文语句,该语句至少包括一个中文字符。
按照上述步骤S101中介绍的构建查询语句的语义特征向量的方法,本申请实施例在预先设置语料库时,利用同样的语义特征构建方法,为语料库中的各个语句分别构建语义特征向量。可以理解,由于构建语义特征向量的方法相同,针对不同的语句构建出的语义特征向量之间存在可比性。
在本申请实施例中,在通过执行步骤S101为查询语句构建得到语义特征向量后,分别计算上述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度。语句之间的特征向量之间的相似度,直接表示了语句之间的相似度,因此,上述查询语句的语义特征向量与语料库中的各个语句的语义特征向量之间的相似度,即表示了查询语句与语料库中各个语句之间的语义相似度。
本申请通过分别度量上述查询语句与语料库中各个语句的语义特征向量之间的相似度,来度量上述查询语句与语料库中的各个语句之间的语义相似度。
一种示例性的实现方式是,本申请实施例分别计算上述查询语句与语料库中的各个语句的语义特征向量之间的余弦值,来度量语义特征向量之间的相似度。向量绝对数值(向量的大小)的变化对余弦值影响不大,使用余弦值能体现两个向量方向上的差异,因此适用于度量两个语句的相似度。
可以理解,两个语句的语义特征向量之间的余弦值的大小,即表示了两个语句的语义特征向量的相似度,也就是表示了两个语句的语义相似度。两个语句的语义特征向量之间的余弦值越小,则表示两个语句的语义特征向量的相似度越低;两个语句的语义特征向量之间的余弦值越大,则表示两个语句的语义特征向量的形似度越高。
按照两个向量的余弦值计算方法,本申请实施例分别计算得到上述查询语句的语义特征向量与上述语料库中的各个语句的语义特征向量之间的余弦值,作为上述查询语句的语义特征向量与上述语料库中的各个语句的语义特征向量的相似度。
S103、从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。
具体的,上文已经论述,两个语句的语义特征向量的相似度,也就是两个语句的语义相似度。在通过执行步骤S102分别计算得到上述查询语句的语义特征向量与语料库中的各个语句的语义特征向量之间的相似度后,本申请实施例根据上述查询语句的语义特征向量与上述语料库中的各个语句的语义特征向量之间的相似度,从上述语料库中筛选出其语义特征向量与上述查询语句的语义特征向量的相似度大于设定阈值的语句,也就是其语义与上述查询语句的语义的相似度大于设定阈值的语句,作为上述查询语句的相似语句。
可以理解,由于本申请实施例在检索与查询语句相似的语句时,是以语句的语义特征来执行的,具体是从语料库中筛选出与查询语句的语义特征相似度较高的语句,因此,本申请实施例所检索出的相似语句,是指与查询语句的语义相似的语句,相对于只从语料库中检索与查询语句的字符相同的语句,本申请实施例所检索出的相似语句的形式可能更多,检索结果更丰富。
通过上述介绍可见,本申请实施例利用查询语句和语料库语句的语义特征向量,从语料库中检索与查询语句的语义特征向量的相似度较高的语句作为查询语句的相似语句,该检索过程不再从字符或词语相似度层面检索相似语句,而是从语句的含义层面进行相似语句检索,相对于检索得到字符或词语与查询语句存在高度重合的相似语句,本申请实施例所检索出的相似语句的形式更灵活,检索结果更丰富、全面。
作为一种可选的实现方式,本申请实施例还公开了上述构建查询语句的语义特征向量的具体处理过程。
参见图2所示,所述构建查询语句的语义特征向量,包括:
S201、分别构建查询语句中的每个分词的特征向量,以及每个词组的特征向量;其中,所述词组由所述查询语句中的至少两个分词组合得到;
具体的,在本申请实施例中,在获取查询语句后,首先对查询语句进行分词处理,得到查询语句的各个分词。
一种示例性的实现方式是,可以利用常用的分词软件实现对上述查询语句的分词处理,例如利用jieba实现对查询语句的分词处理。
在确定上述查询语句的各个分词后,本申请实施例分别为每个分词构建特征向量,也就是将分词以向量的形式表示出来。需要说明的是,在本申请实施例中,在为分词构建特征向量时,在词向量中保留了分词的语义信息,则语义相近的分词的特征向量的相似度较高,也就是两者的词向量较相近。例如,“话筒”与“麦克风”两个词的含义相同,则这两个词的特征向量就非常相近。
在为上述查询语句的各个分词分别构建特征向量后,本申请实施例还进一步将上述查询语句的分词进行组合得到词组,然后构建词组的特征向量。
一种示例性的实现方式是,本申请实施例利用N-gram向量构建方法构建词组的特征向量。N-gram向量是指多个词组合的向量,在本申请实施例中N=2,就是Bi-gram,中文名是二元模型。例如,假设查询语句为“一人我饮酒醉”,则按照上述Bi-gram向量构建方法对查询语句进行分词组合得到词组,就得到“一人我”、“我饮酒”、“饮酒醉”,这样两个词组合的形式,将每个词组合分别用一个向量表示,则得到查询语句的词组的特征向量,这样的好处就是保留了词组的信息或者语序信息。
需要说明的是,上述N-gram中的N的值,可以在实际应用中灵活设定。
更进一步的,作为一种可选的实现方式,本申请实施例通过训练CBOM模型,来生成语句的各个分词的特征向量和语句的至少两个分组构成的各个词组的特征向量。
本申请实施例通过训练CBOW模型进行词向量与N-gram向量的构建。N=2,即训练Bi-gram向量。CBOW模型使用周围词来计算中心词的Bi-gram向量,用一个窗口扫一遍待训练的语句。
以“一人我饮酒醉”举例。图3的示例中窗口大小为3个分词,例如扫到[一人我饮酒],此时中心词即为“我”,周围词即为“一人”、“饮酒”;针对中心词“我”构成的Bi-gram即为“一人我”,“我饮酒”。训练一开始,会对所有的词语Bi-gram向量进行随机初始化。
接着CBOW模型的网络共分三层,第一层通过语句中的词找到对应的词向量与Bi-gram向量。第二层把这些词向量与Bi-gram向量相加。第三层直接连上一个哈夫曼编码树,由训练语料所有词组成的词典D,哈夫曼编码树的每一个叶节点代表词典D中的每个词。通过图1的黑色节点逐层判断,使得“我”的词向量与第二层求和结果的相加向量最为接近。两者的差值通过反向传播的方式更新在这个网络上的每个词向量与Bi-gram向量。通过多次迭代,使得误差逐步减小,得到最后的要使用的词向量与Bi-gram向量。
之后,得到“一人我饮酒醉”所有的词向量与Bi-gram向量,图3中的前缀“v_”表示该词或者Bi-gram的向量。
S202、根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量。
具体的,在分别构建得到上述查询语句的各个分词,以及包含至少两个分词的各个词组的特征向量后,本申请实施例对这些特征向量进行运算处理,得到的运算结果作为查询语句的语义特征向量。
一种可选的实现方式是,参见图3所示,本申请实施例对上述查询语句的每个分词以及每个词组的特征向量进行求和平均,得到上述查询语句的语义特征向量。也就是说,将上述查询语句的各个分词的特征向量与各个词组的特征向量先求和,再求平均值,得到的向量即作为查询语句的语义特征向量。
上述通过查询语句的各个分词的特征向量和各个词组的特征向量来构建查询语句的语义特征向量的处理过程,会丢失语句中每个词的顺序信息,与语句中的主干词信息。但是由于本申请实施例技术方案主要是面向短文本的语句检索,语句不会过长,因此丢失的词顺序信息会较少。另外虽然本申请实施例的处理会丢失主干词信息,但是这样做的好处在于确保语句中的每个词都是同等重要。还用“弹幕发射准备”举例,其中三个词是“弹幕”,“发射”与“准备”,由于每个词都是同等重要的,因此获得的相似语句就可能是“弹幕好精彩”,“加特林发射”,“弹幕准备”,使得相似语句集更为多样,避免相似语句集中的语义过于集中。
需要说明的是,图2所示的实施例中的步骤S203、S204分别对应图1所示的方法实施例中的步骤S102、S103,其具体内容请参见图1所示的方法实施例的内容,此处不再赘述。
可选的,在本申请的另一个实施例中,还公开了在分别度量所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前,还对上述预设的语料库中的语句进行去重处理。
具体的,在语料库中,由于囊括了各种形式、各种内容的语句,因此极有可能存在大量重复、或高度类似的语句。这些语句在本质上属于同一类语句,甚至是同一语句的形变语句,本质上没有太大区别。对于这些高度相似的语句,当一条语句被检索为与查询语句相似的语句时,理论上这些高度相似的语句会同时均被检出,这样就导致检索出的与查询语句相似的语句,是差不多一样的语句,但是其检索工作量却是很高,因为针对这些差不多一样的语句,要分别利用同样的检索程序检出。这种情况对于相似语句检索,只会带来检索工作量的增加,并不会使检索结果更丰富、更全面。
为了改善上述问题,本申请实施例在从上述预设的语料库中检索与查询语句相似的语句之前,先对语料库中的语句进行去重处理。
需要说明的是,上述去重处理,可以是在搭建语料库时进行,也可以是在构建语料库中的各个语句的语义特征向量时进行,本申请不限定上述去重处理的具体执行时机,只要求应当在执行语句检索之前完成,以便减少检索工作量。
一种示例性的实现方式是,本申请实施例通过计算语料库中的各个语句的dice距离与编辑距离,来执行对语料库中的语句的去重处理。
Dice距离用于度量两个集合的相似性,因为可以把语句包含的字符串理解为一种字符的集合,因此Dice距离也会用于度量字符串的相似性。Dice距离定义如下:
其中,X,Y表示两个集合,分子表示两个集合的相交操作后的长度,分母表示两个集合长度之和。这里的集合是语句中的字集合,而非词集合。Dice距离在比较两个语句的相似性时,不考虑语句中词的顺序,只考虑两个语句中词集合的重合度,如“弹幕发射准备”与“准备发射弹幕”会被认作是同一语句。
编辑距离,表示从一个字符串转化为另一个字符串所需要的最少编辑次数,这里的编辑是将字符串中的一个字符替换成另一个字符,或者插入删除字符。编辑距离直接度量两个文本的相似性,在比较两个语句时,同时考虑语句中词序与词重合,能较好地识别“弹幕发射准备”,“弹幕发射准备!”这类相差一个字或标点符号的语句。
本申请实施例分别利用上述的dice距离和编辑距离,对语料库中的语句进行去重。
首先,本申请实施例分别计算上述预设的语料库中的各个语句之间的dice距离,然后,根据语料库中各个语句之间的dice距离,对语料库中的语句进行删减,具体为对dice距离小于预设的第一距离阈值的各个语句进行删减,使原本dice距离小于预设的第一距离阈值的各个语句中只剩下一条语句,这样就能使语料库中剩余的各个语句之间的dice距离均不小于上述第一距离阈值。
其次,本申请实施例再分别计算上述语料库中的各个语句之间的编辑距离,再根据语料库中各个语句之间的编辑距离,对语料库中的语句进行删减,具体为对编辑距离小于预设的第二距离阈值的各个语句进行删减,使原本编辑距离小于预设的第二距离阈值的各个语句中只剩下一条语句,这样就能使语料库中神域的各个语句之间的编辑距离均不小于上述第二距离阈值。
需要说明的是,上述的删减处理,可以根据预设的删减规则进行,例如可以随意删减只留其一;或者,通过聚类算法找出分词簇的簇中心分词保留,并将其余分词删除;或者,在计算各个语句的dice距离和编辑距离时,设定目标语句,即计算各个语句与设定的目标语句的dice距离和编辑距离,如果某个语句与目标语句的dice距离或编辑距离小于相应阈值,则将该语句删除而保留目标语句等,本申请实施例不做严格限定。
可以理解,本申请实施例所公开的上述对语料库进行去重处理的过程,实际上是分别利用语料库中的语句之间的dice距离和编辑距离,分两次先后对语料库进行语句去重,但是两次去重处理之间并没有必须的先后顺序要求,仅仅是第二次去重处理是在第一次去重处理后的语料库的基础上进行的。在实际执行上述去重处理时,可以灵活地选择先根据语句dice距离进行去重处理再根据语句编辑距离进行去重处理,或者先根据语句编辑距离进行去重处理再根据语句dice距离进行去重处理,或者是选择dice距离和编辑距离其中的一种对语料库中的语句进行去重处理。
更进一步的,语料库中的语句内容中,也可能存在无意义的重复字符,例如“前方高能啊啊啊”,其中的“啊啊啊”明显为重复字符,并且没有太大意义。这些语句在语句检索过程中同样会增加检索工作量,影响检索结果。
因此,本申请实施例还对上述语料库中的语句进行语句清洗处理,具体为检测语料库中的各个语句中的连续重复字符,对语句中的连续重复字符进行删减,达到精简语句的目的。例如,对上述“前方高能啊啊啊”进行语句清洗处理,得到语句“前方高能啊”。
上述语句清洗可以使语料库中的语句更精简,利于提升检索效率和检索准确度。
需要说明的是,本申请实施例设定,上述对语料库中的语句进行语句清洗处理应当在执行语句检索之前进行,也就是执行本申请实施例中上述的分别度量所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前进行。但是,本申请实施例并不限定执行上述语句清洗处理的具体时机,其可以在构建语料库时进行,也可以在构建语料库中的各个语句的语义特征向量时进行。
本申请另一实施例还公开了一种语句检索装置,参见图4所示,该装置包括:
向量构建单元100,用于构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;
相似度度量单元110,用于分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;
语句筛选单元120,用于从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。
可选的,在本申请的另一个实施例中,参见图5所示,所述向量构建单元100,包括:
词向量构建单元1001,用于分别构建所述查询语句中的每个分词的特征向量,以及每个词组的特征向量;其中,所述词组由所述查询语句中的至少两个分词组合得到;
词向量运算单元1002,用于根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量。
其中,所述词向量运算单元根据所述查询语句的每个分词的特征向量,以及每个词组的特征向量,构建得到所述查询语句的语义特征向量时,具体用于:
计算所述查询语句的每个分词以及每个词组的特征向量之和的平均值,作为所述查询语句的语义特征向量。
可选的,在本申请的另一个实施例中还公开了,所述装置还包括:
去重处理单元,用于对预设的语料库中的语句进行去重处理。
其中,所述去重处理单元对预设的语料库中的语句进行去重处理时,具体用于:
分别计算预设的语料库中的各个语句之间的dice距离;
根据所述语料库中的各个语句之间的dice距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的dice距离均不小于预设的第一距离阈值;
和/或,
分别计算所述语料库中的各个语句之间的编辑距离;
根据所述语料库中的各个语句之间的编辑距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的编辑距离均不小于预设的第二距离阈值。
可选的,在本申请的另一个实施例中,还公开了上述语句检索装置还包括:
语句清洗单元,用于对预设的语料库中的语句进行语句清洗处理。
需要说明的是,上述各个语句检索装置的各个实施例中的各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语句检索方法,其特征在于,包括:
构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;
分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;
从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。
2.根据权利要求1所述的方法,其特征在于,所述构建查询语句的语义特征向量,包括:
分别构建所述查询语句的每个分词的特征向量,以及每个词组的特征向量;其中,所述词组由所述查询语句中的至少两个分词组合得到;
根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量,包括:
计算所述查询语句的每个分词以及每个词组的特征向量之和的平均值,作为所述查询语句的语义特征向量。
4.根据权利要求1至3中任一权利要求所述的方法,其特征在于,在分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前,所述方法还包括:
对预设的语料库中的语句进行去重处理。
5.根据权利要求4所述的方法,其特征在于,所述对预设的语料库中的语句进行去重处理,包括:
分别计算预设的语料库中的各个语句之间的dice距离;
根据所述语料库中的各个语句之间的dice距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的dice距离均不小于预设的第一距离阈值;
和/或,
分别计算所述语料库中的各个语句之间的编辑距离;
根据所述语料库中的各个语句之间的编辑距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的编辑距离均不小于预设的第二距离阈值。
6.根据权利要求1至3中任一权利要求或权利要求5所述的方法,其特征在于,在分别度量所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度之前,所述方法还包括:
对预设的语料库中的语句进行语句清洗处理。
7.一种语句检索装置,其特征在于,包括:
向量构建单元,用于构建查询语句的语义特征向量;其中,所述语义特征向量为包含语义信息的特征向量;
相似度度量单元,用于分别计算所述查询语句的语义特征向量与预设的语料库中的各个语句的语义特征向量之间的相似度;
语句筛选单元,用于从所述预设的语料库中筛选出语义特征向量与所述查询语句的语义特征向量的相似度大于设定阈值的语句,作为所述查询语句的相似语句。
8.根据权利要求7所述的装置,其特征在于,所述向量构建单元,包括:
词向量构建单元,用于分别构建所述查询语句中的每个分词的特征向量,以及每个词组的特征向量;其中,所述词组由所述查询语句中的至少两个分词组合得到;
词向量运算单元,用于根据所述查询语句的每个分词以及每个词组的特征向量,构建得到所述查询语句的语义特征向量。
9.根据权利要求7或8所述的方法,其特征在于,所述装置还包括:
去重处理单元,用于对预设的语料库中的语句进行去重处理。
10.根据权利要求9所述的装置,其特征在于,所述去重处理单元对预设的语料库中的语句进行去重处理时,具体用于:
分别计算预设的语料库中的各个语句之间的dice距离;
根据所述语料库中的各个语句之间的dice距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的dice距离均不小于预设的第一距离阈值;
和/或,
分别计算所述语料库中的各个语句之间的编辑距离;
根据所述语料库中的各个语句之间的编辑距离,对所述语料库中的语句进行删减,使所述语料库中剩余的各个语句之间的编辑距离均不小于预设的第二距离阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910123852.2A CN109766429A (zh) | 2019-02-19 | 2019-02-19 | 一种语句检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910123852.2A CN109766429A (zh) | 2019-02-19 | 2019-02-19 | 一种语句检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109766429A true CN109766429A (zh) | 2019-05-17 |
Family
ID=66457024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910123852.2A Pending CN109766429A (zh) | 2019-02-19 | 2019-02-19 | 一种语句检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109766429A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688559A (zh) * | 2019-09-25 | 2020-01-14 | 中科鼎富(北京)科技发展有限公司 | 一种检索方法及装置 |
CN111274809A (zh) * | 2020-02-20 | 2020-06-12 | 苏宁云计算有限公司 | 知识库中语料的处理方法及装置 |
CN111753066A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种技术交底文本扩充方法、装置和设备 |
CN111753069A (zh) * | 2020-06-09 | 2020-10-09 | 北京小米松果电子有限公司 | 语义检索方法、装置、设备及存储介质 |
WO2021042526A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 基于相似度值的搜索方法、装置、计算机设备和存储介质 |
CN112612810A (zh) * | 2020-12-23 | 2021-04-06 | 贝壳技术有限公司 | 慢sql语句识别方法及系统 |
CN112990290A (zh) * | 2021-03-10 | 2021-06-18 | 平安科技(深圳)有限公司 | 样本数据的生成方法、装置、设备和存储介质 |
CN113487458A (zh) * | 2021-07-05 | 2021-10-08 | 杭州卓健信息科技股份有限公司 | 一种基于互联网的医链教学管理系统 |
CN113535817A (zh) * | 2021-07-13 | 2021-10-22 | 浙江网商银行股份有限公司 | 特征宽表生成及业务处理模型的训练方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622333A (zh) * | 2017-11-02 | 2018-01-23 | 北京百分点信息科技有限公司 | 一种事件预测方法、装置及系统 |
CN107992550A (zh) * | 2017-11-28 | 2018-05-04 | 沈阳建筑大学 | 一种网络评论分析方法及系统 |
CN108536657A (zh) * | 2018-04-10 | 2018-09-14 | 百融金融信息服务股份有限公司 | 人为填写的地址文本相似度处理方法和系统 |
US20180307691A1 (en) * | 2016-06-20 | 2018-10-25 | Rovi Guides, Inc. | Approximate template matching for natural language queries |
CN109101479A (zh) * | 2018-06-07 | 2018-12-28 | 苏宁易购集团股份有限公司 | 一种用于中文语句的聚类方法及装置 |
-
2019
- 2019-02-19 CN CN201910123852.2A patent/CN109766429A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180307691A1 (en) * | 2016-06-20 | 2018-10-25 | Rovi Guides, Inc. | Approximate template matching for natural language queries |
CN107622333A (zh) * | 2017-11-02 | 2018-01-23 | 北京百分点信息科技有限公司 | 一种事件预测方法、装置及系统 |
CN107992550A (zh) * | 2017-11-28 | 2018-05-04 | 沈阳建筑大学 | 一种网络评论分析方法及系统 |
CN108536657A (zh) * | 2018-04-10 | 2018-09-14 | 百融金融信息服务股份有限公司 | 人为填写的地址文本相似度处理方法和系统 |
CN109101479A (zh) * | 2018-06-07 | 2018-12-28 | 苏宁易购集团股份有限公司 | 一种用于中文语句的聚类方法及装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021042526A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 基于相似度值的搜索方法、装置、计算机设备和存储介质 |
CN110688559A (zh) * | 2019-09-25 | 2020-01-14 | 中科鼎富(北京)科技发展有限公司 | 一种检索方法及装置 |
CN111274809A (zh) * | 2020-02-20 | 2020-06-12 | 苏宁云计算有限公司 | 知识库中语料的处理方法及装置 |
CN111753066A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种技术交底文本扩充方法、装置和设备 |
CN111753069A (zh) * | 2020-06-09 | 2020-10-09 | 北京小米松果电子有限公司 | 语义检索方法、装置、设备及存储介质 |
CN111753069B (zh) * | 2020-06-09 | 2024-05-07 | 北京小米松果电子有限公司 | 语义检索方法、装置、设备及存储介质 |
CN112612810A (zh) * | 2020-12-23 | 2021-04-06 | 贝壳技术有限公司 | 慢sql语句识别方法及系统 |
CN112990290A (zh) * | 2021-03-10 | 2021-06-18 | 平安科技(深圳)有限公司 | 样本数据的生成方法、装置、设备和存储介质 |
CN113487458A (zh) * | 2021-07-05 | 2021-10-08 | 杭州卓健信息科技股份有限公司 | 一种基于互联网的医链教学管理系统 |
CN113487458B (zh) * | 2021-07-05 | 2024-07-26 | 杭州卓健信息科技股份有限公司 | 一种基于互联网的医链教学管理系统 |
CN113535817A (zh) * | 2021-07-13 | 2021-10-22 | 浙江网商银行股份有限公司 | 特征宽表生成及业务处理模型的训练方法和装置 |
CN113535817B (zh) * | 2021-07-13 | 2024-05-14 | 浙江网商银行股份有限公司 | 特征宽表生成及业务处理模型的训练方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766429A (zh) | 一种语句检索方法及装置 | |
CN108287843B (zh) | 一种兴趣点信息检索的方法和装置、及导航设备 | |
Matci et al. | Address standardization using the natural language process for improving geocoding results | |
JP5608817B2 (ja) | 指定特性値を使用するターゲット単語の認識 | |
CN104572622B (zh) | 一种术语的筛选方法 | |
CN104778256B (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN106446162A (zh) | 一种面向领域的本体知识库文本检索方法 | |
CN107180045A (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
Blust et al. | The Austronesian comparative dictionary: A work in progress | |
CN109165273A (zh) | 一种面向大数据环境的通用中文地址匹配方法 | |
WO2019227581A1 (zh) | 兴趣点识别方法、装置、终端设备及存储介质 | |
CN108345587A (zh) | 一种评论的真实性检测方法与系统 | |
CN101694668A (zh) | 网页结构相似性确定方法及装置 | |
CN106445918B (zh) | 一种中文地址处理方法及系统 | |
CN109376352A (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
CN104657466B (zh) | 一种基于论坛帖子特征的用户兴趣识别方法及装置 | |
CN108563766A (zh) | 食品检索的方法及装置 | |
CN110929498A (zh) | 一种短文本相似度的计算方法及装置、可读存储介质 | |
CN111488468A (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
Pavllo et al. | Quootstrap: Scalable unsupervised extraction of quotation-speaker pairs from large news corpora via bootstrapping | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN114707003B (zh) | 一种论文作者姓名消歧的方法、设备及储存介质 | |
CN108269122A (zh) | 广告的相似度处理方法和装置 | |
CN108304381B (zh) | 基于人工智能的实体建边方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190517 |