CN102360372A - 一种跨语种的文档相似性检测方法 - Google Patents

一种跨语种的文档相似性检测方法 Download PDF

Info

Publication number
CN102360372A
CN102360372A CN2011103035795A CN201110303579A CN102360372A CN 102360372 A CN102360372 A CN 102360372A CN 2011103035795 A CN2011103035795 A CN 2011103035795A CN 201110303579 A CN201110303579 A CN 201110303579A CN 102360372 A CN102360372 A CN 102360372A
Authority
CN
China
Prior art keywords
document
mapping
similarity
intermediate representation
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103035795A
Other languages
English (en)
Other versions
CN102360372B (zh
Inventor
赵长海
晏海华
杨沐杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN 201110303579 priority Critical patent/CN102360372B/zh
Publication of CN102360372A publication Critical patent/CN102360372A/zh
Application granted granted Critical
Publication of CN102360372B publication Critical patent/CN102360372B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种跨语种的文档相似性检测方法,属于文档相似性比较技术领域。本发明方法首先将要比较的源文档和目标文档分别转换为基于同一种语言单词的中间文档,然后寻找两个中间文档之间的相似的中间表示集合,建立映射集合,最后根据相似文段的寻找方法,通过映射集合,找出源文档和目标文档的相似文段。本发明方法提供了一种跨语种的文档相似性检测方法,可以较好地解决跨语种文档相似检测的难点,并得到较好的检测效果。

Description

一种跨语种的文档相似性检测方法
技术领域
本发明涉及文档相似性比较技术领域,具体是一种跨语种的文档相似性检测方法。
背景技术
论文抄袭现象是一直困扰着学术界的一大问题,近年来,同语种的文档相似检测技术有着不少的研究,也有很多可用的产品。然而跨语种的文档相似检测研究基本上还处于一个空白的状态,与此同时,伴随的是跨语种的论文抄袭现象日益严重。因此研究跨语种情况下的文档相似检测技术,是一个很有价值和意义的课题。
目前,跨语种的文档相似检测难点主要体现在两个方面:
一、语言间的语法结构区别;
譬如以下一个英文句子和对应的中文译句:
·This page allows customers to subscribe.
·顾客可以在该页面进行预订。
可以看到,同样的一句话,通过中文和英文表达出来,整个语法结构有很大的区别,包括主谓宾位置和时态语态等,都难以对应。
二、语言间的一词多义;
以下是中文词对应的英文表述和英文词对应的中文意思的一个示例:
·Subscribe预订、订阅、捐款、认购、赞成、签署
·预订subscribe,book,order
从示例中可以看出,同样由于这种表述的多样性和词汇的多义性,会造成在跨语种文档相似检测时的障碍。
由于存在着上述技术难点,所以传统的文档相似检测方法对跨语种情况下的文档相似检测并不适用。
发明内容
本发明针对目前传统文档相似性检测方法不适用跨语种情况的情况,提供一种跨语种的文档相似性检测方法,用以较好地解决跨语种文档相似检测的难点,得到较好的检测效果。
本发明的一种跨语种的文档相似性检测方法,具体包括以下步骤:
步骤一、将要比较的源文档和目标文档分别转换为基于同一种语言单词的中间文档;
步骤二、寻找两个中间文档之间的相似的中间表示集合Slot,建立映射集合W;
步骤三、通过映射集合W,根据相似文段的寻找方法找出源文档和目标文档的相似文段。
所述的步骤一具体过程是:首先将源文档与目标文档分别进行分词;然后将划分得到的每个单词或词组转换为一个中间表示集合,所述的中间表示为该单词或词组所对应的转换成的语言的单词或词组;最后为每个中间表示集合建立索引,每个中间表示集合占据一个索引,索引的序号与该索引对应的源单词或词组在源文档或目标文档中的位置序号一致。
所述的步骤二的具体方法是:
首先,枚举两个中间文档所有中间表示集合的组合(SA,SB),其中,SA为源文档转换的中间文档中的中间表示集合,SB为目标文档转换的中间文档中的中间表示集合;
然后,针对每个组合(SA,SB),枚举该组合中两个中间表示集合中的中间表示的组合(ai,bj),其中,ai为SA中的第i个中间表示,bj为SB中的第j个中间表示;
最后,确定每一对中间表示组合(ai,bj)的相似度,在相似度超过所设定的阈值Q之后,建立两个中间表示集合SA与SB的映射,并将建立的映射加入到映射集合中,将组合(SA,SB)中的中间表示组合的相似度的最大值作为SA与SB的相似度,若相似度未超过阈值Q,则不建立映射;所述的每一对中间表示组合的相似度通过该组合中两个中间表示的形式关联度与优先权值来确定。
本发明的优点与积极效果在于:(1)通过将对比的文档都转换为基于同一种语言的中间文档,使得支持任意一种新语言与其他语言的对比,只需要实现将其转换到中间语言的过程即可;(2)通过将文章的每个词语扩展为词语集合,扩充了中间语言的文档可以携带的语义信息,一定程度上解决了语言中一词多义的问题;(3)通过中间语言的词语之间跨时态、跨语态的计算相似度,一定程度上解决了语言中词语的变化和变形问题;(4)通过先枚举映射,后从映射出发进行跳跃的方式,将查找相似文段的时间控制在可以接受的程度之中。
附图说明
图1是本发明的文档相似性检测方法的总体步骤流程图;
图2是本发明方法步骤一中将中文文档转换为Slot-Index文档的实例示意图;
图3是本发明方法步骤一中将英文文档转换为Slot-Index文档的实例示意图;
图4是本发明方法步骤二中枚举两个中间文档的Slot组合的示意图;
图5是本发明方法步骤二中计算两个词语之间的词语相似度的示意图;
图6是本发明方法步骤三的具体流程示意图;
图7是本发明方法步骤三中寻找新的映射的示意图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明的跨语种的文档相似性检测方法,如图1所示,具体包括以下步骤:
步骤一、将要比较的源文档和目标文档分别转换为基于同一种语言单词的中间文档。所述的源文档和目标文档为任意语言的纯文本文档。
转换的方法为:首先将源文档或目标文档以一个或数个词为粒度进行划分;然后将划分得到的每个单词或词组转换为一个由中间表示所组成的集合Slot,所述的中间表示为源文档或目标文档划分的单词或词组所对应的某种语言的单词或词组;最后为每个中间表示的集合Slot建立索引,每个Slot占据一个索引,索引的序号和该索引对应的源单词或词组在源文档或目标文档中的位置序号一致。所述的Slot是某种语言无关的对词义进行描述的有序符号的集合。
转换后得到的中间文档称为Slot-Index文档,该文档是一个语言无关的文档中间表示形式。任意语言的文档输入后都将被转换为Slot-Index文档。所述的Slot-Index文档可以保留词语大部分的可能含义信息,并容易对原文进行逆向索引。
本发明实施例中的中间表示采用基于英文单词的方案,对要比较的源文档进行分词,之后将划分得到的每个单词所对应的英文词义的集合作为其对应的Slot,并按源文档中词的顺序标记Slot索引的序号。例如,如图2所示,对中文文档句子“顾客可以在该页面进行预订”,先分词得到7个词,之后将这7个词对应的英文词义集合分别放到中间文档Slot-Index A中对应的Slot1~Slot7中。而对于英文文档,只需要将每个词直接放入Slot集合中即可得到对应的Slot-Index文档,如图3所示,为英文句子“This page allows customers tosubscribe”转换为Slot-Index文档后对应的Slot1~Slot6,该英文句子对应的中间文档为Slot-Index B。
步骤二、寻找两个中间文档之间的相似Slot,建立映射(Mapping)集合W。
本步骤目前在于找到两个Slot-Index文档之间的相似Slot,以便进一步分析出两个Slot-Index文档之间的关联,得到的映射集合用于找出相似文段。
首先,枚举两个中间文档中的Slot的组合,如图4所示,对于中间文档Slot-Index A与中间文档Slot-Index B,将中间文档Slot-Index A中的每个Slot分别与中间文档Slot-Index B中的每个Slot组合。
然后,对于两个中间文档中给定的一个Slot组合(SA,SB),枚举两个Slot中的中间表示的组合,即将Slot SA中的每个中间表示分别与Slot SB中的每个中间表示进行组合。
最后,确定每一对中间表示组合的相似度,在相似度超过一定阈值Q之后,建立两个Slot间的映射,并将建立的映射加入到映射集合中,若相似度未超过阈值Q,则不建立映射。所述的阈值Q可以由用户自行定义,一般设置为0.5~0.9。
一个映射有一个相似度,该相似度定义为每一个中间表示组合的相似度中的最大值,如下:
S A , B = max { S a i , b j | a i ∈ S A and b j ∈ S B }
其中,SA,B表示Slot组合(SA,SB)映射的相似度,
Figure BDA0000097188810000041
为一对中间表示(ai,bj)的相似度,ai表示中间表示集合Slot SA中的第i个中间表示,bj表示中间表示集合Slot SB中的第j个中间表示。
具体每一个中间表示组合的相似度的确定方法为:
步骤2.1,确定形式关联度。
(1)若给定的两个中间表示形式完全一致,则这两个中间表示的相似度为1。例如,Initial和Initial,这两个中间表示的相似度就为1。
(2)两个形式不完全一样的中间表示,若这两个中间表示为同一词衍生而来,则其相近,但形式关联度较小,例如两个中间表示Initialed和Initialization。若给定的这两个中间表示是相似的,但则其相似度小于1大于0。
(3)除去(1)与(2)所述的情况外的其他情况下相似度为0。
步骤2.2,为中间表示确定优先权值。所述的优先权值与该词在语言环境中的词频成反比,即该词越常用,优先权值越低,该词越罕见,优先权值越高。本发明方法中词的优先权值的确定是根据网址http://www.wordfrequency.info提供的词频列表确定的,其中设置最常见的120个词优先级为0,其次1000个词为1,其次1200个词为2,其次1400个词为3,依此类推,直到2600个词为9,其余的均认为是10。
步骤2.3,确定中间表示组合的相似度。
在确定了一对中间表示的形式关联度和两个优先权值后,进一步确定该中间表示组合的相似度。对于一对中间表示组合,将该中间表示组合的形式关联度与两个中间表示的优先权值中的较大值相乘,得到的数值就设置为该中间表示组合的相似度。所得到的相似度综合反映了两个词语之间的关联性、相近度和对文档相似贡献度的多少,如图5所示。
步骤三、通过映射集合W,根据如图6所示的相似文段的寻找方法,找出源文档和目标文档的相似文段。如图6所示,相似文段的寻找方法如下:
第1步,判断集合W是否为空,若为空,则结束本次方法,否则,新建一个空的映射集合P。
第2步,在集合W中任取一个未用过的映射,加入集合P中,并在集合W中标记该映射为已用过,针对该映射进入第3步执行。
第3步,确定映射的跳跃半径r:r=基础半径+映射的优先权值×正比系数。本发明实施例中取基础半径为4,正比系数为0.6,在实际应用中能够取得好的效果,可以获得有效的相似文段。
两个中间表示集合SA与SB所建立一个映射,该映射的优先权值=该映射的相似度×该映射所涉及的两个中间表示集合中的中间表示的最大优先权值。第4步,更新源文档转换的中间文档的当前边界范围和目标文档转换的中间文档的当前边界范围。所述的边界都是一个索引序号。为源文档转换的中间文档设置一个当前边界范围[SL,SR],初始左边界SL和右边界SR的值都为1,为目标文档转换的中间文档设置一个当前边界范围[TL,TR],初始左边界TL和右边界TR的值都为1。根据第3步得到的该映射的跳跃半径,由该映射对应在两个中间文档的Slot的索引序号加减跳跃半径,可以得到在源文档转换的中间文档中的一个左边界mSL和一个右边界mSR,得到在目标文档转换的中间文档中的一个左边界mTL和一个右边界mTR。若mSL<SL,则用mSL更新SL,否则不作处理,若mSR>SR,则用mSR更新SR,否则不作处理;若mTL<TL,则用mTL更新TL,否则不作处理,若mTR>TR,则用mTR更新TR,否则不作处理。
第5步,分别在源文档转换的中间文档与目标文档转换的中间文档中判断当前边界范围映射内是否覆盖有新的映射满足如下条件:在集合W中未被标记为已用过,且该映射对应的Slot的索引位置都处于各自中间文档的当前边界范围内。若存在符合条件的映射,则将该映射加入映射集合P,并在集合W中将该映射标记为已用过,然后针对加入集合P的新的映射转第3步执行,若不存在符合条件的映射,则执行下一步。
如图6所示,Slot I和Slot J’是一个映射连接的两个Slot,其确定一个半径r,在I的半径r范围和J’的半径r范围中寻找新的映射。
第6步,由当前映射集合P中的映射可以在源文档转换的中间文档与目标文档转换的中间文档中分别确定一个连续的索引范围,即源文档转换的中间文档中得到的当前边界范围[SL,SR],目标文档转换的中间文档中得到的当前边界范围[TL,TR],将该索引范围对应逆向索引到源文档与目标文档后,就得到源文档和目标文档的一组相似文段。
第7步,对于一组相似文段,由其对应映射集合P中映射的数量、相似度等可以计算出一个相似度,得到的该相似度就是该相似文段的相似度。具体本发明方法该文段的相似度是由当前的映射集合P中相似度最高的三组映射的相似度相乘得到。
一般对于某组相似文段,若其相似度大于0.6,则可认为该组相似文段有一定的相似性、或论述相近的主题,若其相似度大于0.8,则可认为该组相似文段有很高的相似性。
第8步,判断集合W中是否存在未被标记为已用过的映射,若不存在,则本次方法结束,否则回到第1步执行。

Claims (7)

1.一种跨语种的文档相似性检测方法,其特征在于,所述检测方法包括以下步骤:
步骤一、将要比较的源文档和目标文档分别转换为基于同一种语言单词的中间文档,所述中间文档都是由中间表示集合组成,所述的中间表示集合由中间表示集合形成,所述的中间表示为文档分词得到的单词或词组所对应的转换成的语言的单词或词组;
步骤二、寻找两个中间文档之间相似的中间表示集合,建立映射集合W,具体过程如下:
首先,枚举两个中间文档所有中间表示集合的组合(SA,SB),其中,SA为源文档转换的中间文档中的中间表示集合,SB为目标文档转换的中间文档中的中间表示集合;
然后,针对每个组合(SA,SB),枚举该组合中两个中间表示集合中的中间表示的组合(ai,bj),其中,ai为SA中的第i个中间表示,bj为SB中的第j个中间表示;
最后,确定每一对中间表示组合(ai,bj)的相似度,在相似度超过所设定的阈值Q之后,建立两个中间表示集合SA与SB的映射,并将建立的映射加入到映射集合W中,将组合(SA,SB)中的中间表示组合的相似度的最大值作为SA与SB所建立的映射的相似度,若相似度未超过阈值Q,则不建立映射;所述的每一对中间表示组合的相似度通过该组合中两个中间表示的形式关联度与优先权值来确定;
步骤三、通过映射集合W,根据相似文段的寻找方法找出源文档和目标文档的相似文段。
2.根据权利要求1所述的一种跨语种的文档相似性检测方法,其特征在于,步骤一中所述的转换的具体方法为:首先将源文档与目标文档分别进行分词;然后将划分得到的每个单词或词组转换为一个中间表示集合;最后为每个中间表示集合建立索引,每个中间表示集合占据一个索引,索引的序号与该索引对应的源单词或词组在源文档或目标文档中的位置序号一致。
3.根据权利要求1所述的一种跨语种的文档相似性检测方法,其特征在于,步骤二中所述的阈值Q设定为0.5~0.9。
4.根据权利要求1所述的一种跨语种的文档相似性检测方法,其特征在于,步骤二中所述的中间表示组合的相似度的确定方法具体为:
(1)确定形式关联度:若两个中间表示的形式完全一致,则该中间表示组合的相似度为1;若两个中间表示为同一词衍生而来,则该中间表示组合的相似度小于1大于0;若两个中间表示的形式不一样,且不是由同一词衍生而来,则该中间表示组合的相似度为0;
(2)确定两个中间表示的优先权值,所述的优先权值与该词在语言环境中的词频成反比,该词越常用,优先权值越低,该词越罕见,优先权值越高;
(3)将(1)中得到的形式关联度与(2)中得到的两个优先权值中的较大值相乘,得到的数值设置为该中间表示组合的相似度。
5.根据权利要求1所述的一种跨语种的文档相似性检测方法,其特征在于,步骤三中所述的相似文段的寻找方法,具体为:
第1步:判断集合W是否为空,若为空,则结束本方法,否则,新建一个空的映射集合P;
第2步:在集合W中任取一个未用过的映射,加入集合P中,并在集合W中标记该映射为已用过,针对该映射进入第3步执行;
第3步:确定该映射的跳跃半径r:r=基础半径+映射的优先权值*正比系数;所述的映射的优先权值=该映射的相似度×该映射所涉及的两个中间表示集合中的中间表示的最大优先权值;
第4步:更新源文档转换的中间文档的当前边界范围和目标文档转换的中间文档的当前边界范围,具体是:根据第3步得到的跳跃半径,由该映射对应在两个中间文档的中间表示集合的索引序号加减跳跃半径,在源文档转换的中间文档中得到一个左边界mSL和一个右边界mSR,在目标文档转换的中间文档中得到一个左边界mTL和一个右边界mTR,若mSL<SL,则用mSL更新SL,否则不作处理,若mSR>SR,则用mSR更新SR,否则不作处理;若mTL<TL,则用mTL更新TL,否则不作处理,若mTR>TR,则用mTR更新TR,否则不作处理;所述的SL、SR分别为设置的源文档转换的中间文档的当前边界范围的左边界和右边界,初始左边界SL和右边界SR的值都为1,所述的TL、TR分别为设置的目标文档转换的中间文档的当前边界范围的左边界和右边界,初始左边界TL和右边界TR的值都为1;
第5步:分别在源文档转换的中间文档与目标文档转换的中间文档中判断当前边界范围映射内是否覆盖有新的映射满足如下条件:在集合W中未被标记为已用过,且该映射对应在两个中间文档的中间表示集合的索引序号都处于各自中间文档的当前边界范围内;若存在符合条件的映射,则将该映射加入映射集合P,并在集合W中将该映射标记为已用过,然后针对加入集合P的映射转第3步执行,若不存在符合条件的映射,则执行下一步;
第6步:由源文档转换的中间文档中的当前边界范围[SL,SR]和目标文档转换的中间文档的当前边界范围[TL,TR],相应逆向索引到源文档与目标文档后,就得到源文档和目标文档的一组相似文段;
第7步:确定得到的一组相似文段的相似度,具体是将当前映射集合P中相似度最高的三组映射的相似度相乘得到;
第8步,判断集合W中是否存在未被标记为已用过的映射,若不存在,则本次方法结束,否则转到第1步继续执行。
6.根据权利要求5所述的一种跨语种的文档相似性检测方法,其特征在于,第3步中所述的基础半径取值为6。
7.根据权利要求5所述的一种跨语种的文档相似性检测方法,其特征在于,第3步中所述的正比系数取值为0.6。
CN 201110303579 2011-10-09 2011-10-09 一种跨语种的文档相似性检测方法 Expired - Fee Related CN102360372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110303579 CN102360372B (zh) 2011-10-09 2011-10-09 一种跨语种的文档相似性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110303579 CN102360372B (zh) 2011-10-09 2011-10-09 一种跨语种的文档相似性检测方法

Publications (2)

Publication Number Publication Date
CN102360372A true CN102360372A (zh) 2012-02-22
CN102360372B CN102360372B (zh) 2013-01-30

Family

ID=45585701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110303579 Expired - Fee Related CN102360372B (zh) 2011-10-09 2011-10-09 一种跨语种的文档相似性检测方法

Country Status (1)

Country Link
CN (1) CN102360372B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823862A (zh) * 2014-02-24 2014-05-28 西安交通大学 一种跨语言的电子文本剽窃检测系统及其检测方法
CN109063222A (zh) * 2018-11-04 2018-12-21 吉铁磊 一种基于大数据的自适应数据搜索方法
CN109145289A (zh) * 2018-07-19 2019-01-04 昆明理工大学 基于改进关系向量模型的老-汉双语句子相似度计算方法
CN110019891A (zh) * 2017-12-29 2019-07-16 浙江宇视科技有限公司 图像存储方法、图像检索方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020111789A1 (en) * 2000-12-18 2002-08-15 Xerox Corporation Method and apparatus for terminology translation
CN1470047A (zh) * 2000-11-20 2004-01-21 ���չ�˾ 用于文档的向量分析方法
JP2010009237A (ja) * 2008-06-25 2010-01-14 Nippon Telegr & Teleph Corp <Ntt> 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
US20100145673A1 (en) * 2008-12-09 2010-06-10 Xerox Corporation Cross language tool for question answering
CN101763402A (zh) * 2009-12-30 2010-06-30 哈尔滨工业大学 多语言信息检索一体化检索方法
US20100185659A1 (en) * 2009-01-12 2010-07-22 Nec Laboratories America, Inc. Supervised semantic indexing and its extensions
CN102053991A (zh) * 2009-10-30 2011-05-11 国际商业机器公司 用于多语言文档检索的方法及系统
CN102156689A (zh) * 2011-03-31 2011-08-17 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN102184256A (zh) * 2011-06-02 2011-09-14 北京邮电大学 一种针对海量相似短文本的聚类方法和系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1470047A (zh) * 2000-11-20 2004-01-21 ���չ�˾ 用于文档的向量分析方法
US20020111789A1 (en) * 2000-12-18 2002-08-15 Xerox Corporation Method and apparatus for terminology translation
JP2010009237A (ja) * 2008-06-25 2010-01-14 Nippon Telegr & Teleph Corp <Ntt> 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
US20100145673A1 (en) * 2008-12-09 2010-06-10 Xerox Corporation Cross language tool for question answering
US20100185659A1 (en) * 2009-01-12 2010-07-22 Nec Laboratories America, Inc. Supervised semantic indexing and its extensions
CN102053991A (zh) * 2009-10-30 2011-05-11 国际商业机器公司 用于多语言文档检索的方法及系统
CN101763402A (zh) * 2009-12-30 2010-06-30 哈尔滨工业大学 多语言信息检索一体化检索方法
CN102156689A (zh) * 2011-03-31 2011-08-17 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN102184256A (zh) * 2011-06-02 2011-09-14 北京邮电大学 一种针对海量相似短文本的聚类方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823862A (zh) * 2014-02-24 2014-05-28 西安交通大学 一种跨语言的电子文本剽窃检测系统及其检测方法
CN103823862B (zh) * 2014-02-24 2017-02-15 西安交通大学 一种跨语言的电子文本剽窃检测系统及其检测方法
CN110019891A (zh) * 2017-12-29 2019-07-16 浙江宇视科技有限公司 图像存储方法、图像检索方法及装置
CN110019891B (zh) * 2017-12-29 2021-06-01 浙江宇视科技有限公司 图像存储方法、图像检索方法及装置
CN109145289A (zh) * 2018-07-19 2019-01-04 昆明理工大学 基于改进关系向量模型的老-汉双语句子相似度计算方法
CN109063222A (zh) * 2018-11-04 2018-12-21 吉铁磊 一种基于大数据的自适应数据搜索方法
CN109063222B (zh) * 2018-11-04 2021-11-30 朗威寰球(北京)科技集团有限公司 一种基于大数据的自适应数据搜索方法

Also Published As

Publication number Publication date
CN102360372B (zh) 2013-01-30

Similar Documents

Publication Publication Date Title
US8538979B1 (en) Generating phrase candidates from text string entries
Déchaine et al. The internal syntax of Shona class prefixes
CN102880645A (zh) 语义化的智能搜索方法
JP2013529805A (ja) 検索方法、記憶媒体、同定方法、広告方法、処理方法及びシステム
CN107992608B (zh) 一种基于关键字上下文的sparql查询语句自动生成方法
CN102360372B (zh) 一种跨语种的文档相似性检测方法
Meurer Corpuscle–a new corpus management platform for annotated corpora
CN110390022A (zh) 一种自动化的专业知识图谱构建方法
Ji Hypothesis testing in corpus-based literary translation studies
Moncla et al. Automated geoparsing of paris street names in 19th century novels
Gillis-Webber et al. The shortcomings of language tags for linked data when modeling lesser-known languages
CN102184172A (zh) 一种用于盲人读取汉字的系统和方法
JP2013190985A (ja) 知識応答システム、方法およびコンピュータプログラム
Aguilar Multilingual Named Entity Recognition for Medieval Charters Using Stacked Embeddings and Bert-based Models.
CN102591976A (zh) 基于句子级别的文本特征提取方法和文档拷贝检测系统
Jurish Diachronic collocations, genre, and DiaCollo
Petran et al. ReM: A reference corpus of Middle High German--corpus compilation, annotation, and access
Arora et al. Bhasacitra: Visualising the dialect geography of South Asia
Salgado et al. Challenges of word sense alignment: Portuguese language resources
US9311302B2 (en) Method, system and medium for character conversion between different regional versions of a language especially between simplified chinese and traditional chinese
CN102360351A (zh) 一种对电子图书内容进行语义描述的方法及系统
Kokare et al. A survey of natural language query builder interface for structured databases using dependency parsing
Singh et al. A framework for extending fuzzy description logic to ontology based document processing
Hitzler What’s Happening in Semantic Web: ... and What FCA Could Have to Do with It
Vander Sande et al. Lightweight Transformation of Tabular Open Data to RDF.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130130

Termination date: 20141009

EXPY Termination of patent right or utility model