CN104021202A - 一种知识共享平台的词条处理装置和方法 - Google Patents

一种知识共享平台的词条处理装置和方法 Download PDF

Info

Publication number
CN104021202A
CN104021202A CN201410268830.2A CN201410268830A CN104021202A CN 104021202 A CN104021202 A CN 104021202A CN 201410268830 A CN201410268830 A CN 201410268830A CN 104021202 A CN104021202 A CN 104021202A
Authority
CN
China
Prior art keywords
entry
catalogue
candidate
content
text similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410268830.2A
Other languages
English (en)
Other versions
CN104021202B (zh
Inventor
李永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410268830.2A priority Critical patent/CN104021202B/zh
Publication of CN104021202A publication Critical patent/CN104021202A/zh
Application granted granted Critical
Publication of CN104021202B publication Critical patent/CN104021202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Abstract

提供了一种知识共享平台的词条处理装置和方法。所述知识共享平台的词条处理装置包括:候选词条获取单元,用于根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容,获取与所述第一目录关联的候选词条及其词条内容;内容比较单元,用于计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度;词条确定单元,用于根据内容比较单元计算的文本相似度,从候选词条中确定与所述第一目录相关的词条。

Description

一种知识共享平台的词条处理装置和方法
技术领域
本发明涉及一种知识共享平台的词条处理装置和方法,更具体地讲,涉及一种网络百科的词条处理装置和方法。
背景技术
随着互联网技术的快速发展,在互联网上能够为用户提供的内容也越来越多,互联网的用户更加倾向于在互联网上搜寻自己想要了解的内容。然而,在用户从互联网搜寻想要了解的内容时,互联网所能够提供的结果通常过于繁杂,并且与用户想要了解的内容可能并不十分相关,这使得用户感到非常的不便。
在互联网上提供的百科应用是一种能够供用户查检所需知识和事实资料的在线资料应用,通常以词条的形式向用户提供相关的知识内容。并且由于互联网能够提供更加丰富的资料,因此现在的互联网百科应用所能够提供的词条内容也越来越详细,不仅包括对于词条的说明,还会包括与词条相关的一些其他内容。例如,如图1A中所示,当展示词条“红楼梦”的相关内容时,不仅会展示对于红楼梦这部作品的内容介绍,还会展示与红楼梦相关的其他信息,诸如作者简介、人物介绍等等内容。由于展示的内容通常较多,因此如图1A中所示,会以目录的形式对这些内容进行归类,以便于用户查看相应内容。
然而,在百科词条之间会存在许多相似或重复的内容。例如,如图1B所示,在词条“红楼梦”的目录项“作者简介”部分,以大量的篇幅介绍了作者“曹雪芹”,而在百科中,“曹雪芹”也是一个百科词条,词条“红楼梦”的部分词条内容与词条“曹雪芹”相似或重复,在词条“红楼梦”的词条内容中以大量的篇幅介绍了与另一词条相关的一些内容。也就是说,在一个词条的词条内容中,通常会存在与其他词条相关的一些内容,这可能导致在向用户展示与该词条相关的内容时,展示的内容过多使得用户难以很快的找到想要的信息,并且这样的词条展示方式需要大量的存储空间来存储每个词条的词条内容。此外,如图1B中所示,尽管在词条“红楼梦”的相关词条内容中包括对作者曹雪芹的一些介绍,但相对于词条“曹雪芹”中提供的与曹雪芹相关的信息而言,这些介绍可能不够详细。因此,需要一种新的百科词条内容设置方法使得能够以更加简洁、高效的方式向用户展示词条的相关信息。
发明内容
根据本发明的一方面,提供了一种知识共享平台的词条处理装置,所述装置包括:候选词条获取单元,用于根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容,获取与所述第一目录关联的候选词条及其词条内容;内容比较单元,用于计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度;词条确定单元,用于根据内容比较单元计算的文本相似度,从候选词条中确定与所述第一目录相关的词条。
所述候选词条获取单元可使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。
所述内容比较单元可使用tf-idf算法来计算候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。
所述词条确定单元可具体用于:将针对特定候选词条而计算的文本相似度与预设阈值进行比较,如果计算的文本相似度高于预设阈值,则所述词条确定单元将所述特定候选词条确定为与所述第一目录相关的词条。
所述词条确定单元还可用于:确定所述特定候选词条是否满足预设的多条后处理规则;如果所述特定候选词条满足预设的多条后处理规则中的第N条,则所述词条确定单元确定所述第N条后处理规则对应的阀值,并判断针对所述特定候选词条计算的文本相似度是否高于与所述第N条后处理规则对应的阈值,如果高于,则所述词条确定单元将所述特定候选词条确定为与所述第一目录相关的词条,N为自然数。
根据本发明的另一方面,提供了一种知识共享平台的词条处理方法,所述方法包括:根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容,获取与所述第一目录关联的候选词条及其词条内容;计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度;根据计算的文本相似度,从候选词条中确定与所述第一目录相关的词条。
可使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。
可使用tf-idf算法来计算候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。
确定与所述第一目录相关的词条的步骤具体可包括:将针对特定候选词条而计算的文本相似度与预设阈值进行比较,如果计算的文本相似度高于预设阈值,则将所述特定候选词条确定为与所述第一目录相关的词条。
确定与所述第一目录相关的词条的步骤可进一步包括:确定所述特定候选词条是否满足预设的多条后处理规则;如果所述特定候选词条满足预设的多条后处理规则中的第N条,则确定所述第N条后处理规则对应的阀值,并判断针对所述特定候选词条计算的文本相似度是否高于与所述第N条后处理规则对应的阈值,如果高于,则将所述特定候选词条确定为与所述第一目录相关的词条,N为自然数。
有益效果
通过应用本发明的知识共享平台的词条处理装置和方法,不仅能够引导用户方便地浏览更详细的词条相关信息,还能够实现词条间的内容去重从而达到节省存储词条内容所需的存储空间的目的。
附图说明
通过下面结合附图对本发明的示例性实施例进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1A和图1B是示出词条目录和内容的示意性示图;
图2是示出根据本发明的示例性实施例的知识共享平台的词条处理装置的框图;
图3是示出根据本发明的示例性实施例的知识共享平台的词条处理方法的流程图。
具体实施方式
提供以下参照附图进行的描述以帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。所述描述包括各种特定细节以帮助理解,但这些细节被认为仅是示例性的。因此,本领域的普通技术人员将认识到:在不脱离本发明的范围和精神的情况下,可对这里描述的实施例进行各种改变和修改。此外,为了清楚和简明,可省略已知功能和构造的描述。
图2是示出根据本发明的示例性实施例的知识共享平台的词条处理装置100的框图。
参照图2,本发明的示例性实施例的知识共享平台的词条处理装置100可包括:候选词条获取单元110、内容比较单元120和词条确定单元130。
在本发明的示例性实施例中,候选词条获取单元110可根据目标词条A(例如,红楼梦)的目录中的某个目录B(例如,图1A和1B中的作者之谜)的目录名(即,作者之谜)和所述目录B下的目录内容,获取与所述目录B关联的候选词条C及其词条内容。
具体地讲,候选词条获取单元110可使用trie树(即,字典树)算法从存储有词条的词条数据库提取与所述目录B关联的候选词条并获取其词条内容。例如,候选词条获取单元110可选择目录B的目录名加上目录B的一部分目录内容(例如,目录B下的目录内容的前几句话)组成候选文本,使用trie树算法从该候选文本中找出候选词条的集合C={C1,C2,…,Cn},即,使用trie树从所述候选文本中确定哪些词属于词条数据库中的现有词条,将该候选文本中属于词条数据库中的现有词条的词条确定为候选词条并获取其词条内容。在找出候选词条集合之后,候选词条获取单元110还可通过词条的逆向文件频率(idf)来过滤掉一些无意义的候选词条。在本发明的示例性实施例中,可基于预先设置的语料库或文件集来获得词条的idf。
应该理解,使用trie树算法找出候选词条的方法以及使用idf来滤除无意义的候选词条的方法对于本领域技术人员而言是已知的,因此在此将不再进行详细描述。此外,从所述候选文本中找出哪些词条属于词条数据库中的现有词条的方法也不限于trie树算法,还可使用本领域已知的各种算法对所述候选文本进行处理以确定出候选词条。
在提取出候选词条的集合C之后,内容比较单元120可计算集合C中的每个候选词条的词条内容与目录B下的目录内容(即,目标词条A的词条内容中的用于描述目录B的一部分内容)之间的文本相似度。
在本发明的示例性实施例中,仅作为示例,内容比较单元120可使用tf-idf算法来计算候选词条的词条内容与目录B下的目录内容之间的文本相似度。
具体地讲,首先,内容比较单元120可对待比较的候选词条的词条内容的文本以及目录B下的目录内容的文本进行词语和词性的标注,从而过滤掉一些副词或介词。然后,内容比较单元120可基于所述两个文本中剩余的每个词语的两个词向量tf(关键词词频)和idf(逆向文件频率)来计算每个候选词条的词条内容的文本与目录B下的目录内容的文本之间的文本相似度,例如,可将基于所述剩余词语的tf和idf而计算的候选词条的词条内容的文本与目录B下的目录内容的文本之间的余弦相似度确定为其文本相似度。
应该理解,使用tf-idf算法计算文本相似度的方法对于本领域技术人员而言是已知的并且不限于以上所列举的示例,因此为了简明,在此将不再进行更加详细的描述。
词条确定单元130可根据内容比较单元120计算的文本相似度,从候选词条C中确定与目录B相关的词条。具体地讲,所述词条确定单元130可将针对每个候选词条而计算的文本相似度与预设阈值进行比较,如果计算的文本相似度高于预设阈值,则所述词条确定单元130可将所述候选词条确定为与所述目录B相关的词条。在本发明的实施例中,所述候选阈值可根据候选词条所满足的预设后处理规则而不同。具体地讲,可根据预先确定的后处理规则来对目录B和针对目录B确定的候选词条的集合C进行后处理,判断候选词条集合C中的每个候选词条所满足的后处理规则。例如,对于候选词条集合C中的某个候选词条Ci,词条确定单元130可确定所述候选词条Ci是否满足预设的多条后处理规则;如果所述特定候选词条Ci满足预设的多条后处理规则中的第N条后处理规则(其中,N为自然数),则所述词条确定单元130可确定所述第N条后处理规则对应的阀值,并判断针对候选词条Ci而计算的文本相似度是否高于与所述第N条后处理规则对应的阈值,如果高于与所述第N条后处理规则对应的阈值,则所述词条确定单元130可将所述候选词条Ci确定为与目录B相关的词条CB。以下列出了一些用于判断候选词条Ci是否可被确定为与目录B相关的词条的后处理规则。
规则1:如果B不包含A并且B属于人名,则阈值设置为0.5。
规则2:如果B中含有比较明显的关键字并且Ci是人名,则针对B的以下不同关键字,可分别设置相应的阈值:
(1)(专家简介,阈值设置为0.5);
(2)(乐团简介、作家,阈值设置为0.7);
(3)(乐队简介、译者简介,阈值设置为0.6);
(4)(作家简介、声优简介、声优介绍、声优资料、歌手介绍、作者介绍、歌手资料、歌手简介、画家介绍、作者简介、画家简介、作者、声优等,阈值设置为0.5);
(5)(创始人且词条Ci的词条区分tf值大于预设值,阈值设置为0.4)
(6)(相关信息、相关知识、相关简介、相关介绍,阈值设置为0.8)。
规则3:
(1)如果B不包含A并且B包含Ci,则阈值设置为0.8;
(2)如果B包含A且B等于Ci,则阈值设置为0.4。
规则4:
(1)如果B和Ci的长度同时大于等于4个字,B不包含A,且B也不包含C,则阈值设置为0.8;
(2)如果B的长度大于4个字并且Ci属于实体类,则阈值设置为0.9;
(3)如果B的长度大于4个字,Ci属于实体类,且B包含Ci,则阈值设置为0.9。
然而,应该理解,上面列出的后处理规则仅是为了便于理解而举出的一些示例,在实际应用中,用户还可根据需要而设置不同的后处理规则。
仅作为上述确定结果的一种示例性应用,在确定了与目录B相关的词条CB之后,在展示目录B的目录内容时,可将所述目录内容中与词条CB相关的部分替换为具有可链接到词条CB的词条内容页面的链接形式的词条CB。这样,当用户希望查看目录B下与词条CB相关的信息时,可通过点击具有链接的词条CB来跳转到词条CB的页面,从而能够获得更详细的关于该部分的相关信息。
图3是示出根据本发明的示例性实施例的知识共享平台的词条处理方法的流程图。
如图3中所示,在210,可由根据本发明的示例性实施例的知识共享平台的词条处理装置100的候选词条获取单元110根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容,获取与所述第一目录关联的候选词条及其词条内容。在本发明的示例性实施例中,候选词条获取单元110可使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。仅作为示例,候选词条获取单元110可选择目标词条A的多个目录之中的目录B的目录名加上目录B的一部分目录内容(例如,目录B下的目录内容的前几句话)组成候选文本,使用trie树算法从所述候选文本中确定哪些词属于词条数据库中的现有词条,并将该候选文本中属于词条数据库中的现有词条的词条确定为候选词条并获取其词条内容。
在找出与目录关联的候选词条之后,在230,可由知识共享平台的词条处理装置100的内容比较单元120计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。在本发明的示例性实施例中,所述内容比较单元120可使用tf-idf算法来计算候选词条的词条内容和所述第一目录下的目录内容之间的文本相似度。
具体地讲,例如,内容比较单元120可对待比较的候选词条的词条内容的文本以及第一目录下的目录内容的文本进行词语和词性的标注,从而过滤掉一些副词或介词。然后,内容比较单元120可基于所述两个文本中剩余的每个词语的两个词向量tf(关键词词频)和idf(逆向文件频率)来计算每个候选词条的词条内容的文本与第一目录下的目录内容的文本之间的文本相似度,例如,可将基于所述剩余词语的tf和idf而计算的候选词条的词条内容的文本与第一目录下的目录内容的文本之间的余弦相似度确定为其文本相似度。
然后,在250,可由知识共享平台的词条处理装置100的词条确定单元130根据内容比较单元120计算的文本相似度,从候选词条中确定与所述第一目录相关的词条。
在本发明的示例性实施例中,词条确定单元120可将针对候选词条而计算的文本相似度与预设阈值进行比较,如果计算的文本相似度高于预设阈值,则可将所述候选词条确定为与所述第一目录相关的词条。
优选地,在本发明的示例性实施例中,可预设多条后处理规则来从候选词条确定与所述第一目录相关的词条,每条预设规则可具有不同的阈值。在这种情况下,仅作为示例,对于某个候选词条Ci,词条确定单元130可首先确定所述候选词条Ci是否满足预设的多条后处理规则,如果所述特定候选词条Ci满足预设的多条后处理规则中的第N条后处理规则,则所述词条确定单元130可确定所述第N条后处理规则对应的阀值,并判断针对候选词条Ci而计算的文本相似度是否高于与所述第N条后处理规则对应的阈值,如果高于与所述第N条后处理规则对应的阈值,则所述词条确定单元130可将所述候选词条Ci确定为与第一目录相关的词条CB
通过应用以上所描述的根据知识共享平台的词条处理装置和方法,不仅能够引导用户方便地浏览更详细的词条相关信息,还能够实现词条间的内容去重从而达到节省存储词条内容所需的存储空间的目的。
本发明示例性实施例可实现为计算机可读记录介质上的计算机可读代码。计算机可读记录介质是可存储其后可由计算机系统读出的数据的任意数据存储装置。计算机可读记录介质的示例包括:只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。计算机可读记录介质也可分布于连接网络的计算机系统,从而计算机可读代码以分布式存储和执行。此外,完成本发明的功能程序、代码和代码段可容易地被与本发明相关的领域的普通程序员在本发明的范围之内解释。
尽管已经参照其示例性实施例具体显示和描述了本发明,但是本领域的技术人员应该理解,在不脱离权利要求所限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。

Claims (10)

1.一种知识共享平台的词条处理装置,所述装置包括:
候选词条获取单元,用于根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容,获取与所述第一目录关联的候选词条及其词条内容;
内容比较单元,用于计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度;
词条确定单元,用于根据内容比较单元计算的文本相似度,从候选词条中确定与所述第一目录相关的词条。
2.如权利要求1所述的装置,其中,所述候选词条获取单元使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。
3.如权利要求1所述的装置,其中,所述内容比较单元使用tf-idf算法来计算候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。
4.如权利要求1所述的装置,其中,所述词条确定单元具体用于:将针对特定候选词条而计算的文本相似度与预设阈值进行比较,如果计算的文本相似度高于预设阈值,则所述词条确定单元将所述特定候选词条确定为与所述第一目录相关的词条。
5.如权利要求4所述的装置,其中,所述词条确定单元还用于:确定所述特定候选词条是否满足预设的多条后处理规则;如果所述特定候选词条满足预设的多条后处理规则中的第N条,则所述词条确定单元确定所述第N条后处理规则对应的阀值,并判断针对所述特定候选词条计算的文本相似度是否高于与所述第N条后处理规则对应的阈值,如果高于,则所述词条确定单元将所述特定候选词条确定为与所述第一目录相关的词条,N为自然数。
6.一种知识共享平台的词条处理方法,所述方法包括:
根据目标词条的目录中第一目录的目录名称和所述第一目录下的目录内容,获取与所述第一目录关联的候选词条及其词条内容;
计算每个候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度;
根据计算的文本相似度,从候选词条中确定与所述第一目录相关的词条。
7.如权利要求6所述的方法,其中,使用trie树算法从存储有词条的词条数据库提取与所述第一目录关联的候选词条。
8.如权利要求6所述的方法,其中,使用tf-idf算法来计算候选词条的词条内容与所述第一目录下的目录内容之间的文本相似度。
9.如权利要求6所述的方法,其中,确定与所述第一目录相关的词条的步骤具体包括:将针对特定候选词条而计算的文本相似度与预设阈值进行比较,如果计算的文本相似度高于预设阈值,则将所述特定候选词条确定为与所述第一目录相关的词条。
10.如权利要求9所述的方法,其中,确定与所述第一目录相关的词条的步骤进一步包括:确定所述特定候选词条是否满足预设的多条后处理规则;如果所述特定候选词条满足预设的多条后处理规则中的第N条,则确定所述第N条后处理规则对应的阀值,并判断针对所述特定候选词条计算的文本相似度是否高于与所述第N条后处理规则对应的阈值,如果高于,则将所述特定候选词条确定为与所述第一目录相关的词条,N为自然数。
CN201410268830.2A 2014-06-16 2014-06-16 一种知识共享平台的词条处理装置和方法 Active CN104021202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410268830.2A CN104021202B (zh) 2014-06-16 2014-06-16 一种知识共享平台的词条处理装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410268830.2A CN104021202B (zh) 2014-06-16 2014-06-16 一种知识共享平台的词条处理装置和方法

Publications (2)

Publication Number Publication Date
CN104021202A true CN104021202A (zh) 2014-09-03
CN104021202B CN104021202B (zh) 2017-11-24

Family

ID=51437956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410268830.2A Active CN104021202B (zh) 2014-06-16 2014-06-16 一种知识共享平台的词条处理装置和方法

Country Status (1)

Country Link
CN (1) CN104021202B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021439A (zh) * 2016-05-16 2016-10-12 腾讯科技(深圳)有限公司 一种对通信号码的处理方法及装置
CN109635114A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN110019673A (zh) * 2017-11-16 2019-07-16 上海颐为网络科技有限公司 一种知识分享平台的社交方法和系统
CN110019656A (zh) * 2017-07-26 2019-07-16 上海颐为网络科技有限公司 一种新建词条相关内容智能推送方法和系统
CN110109965A (zh) * 2018-02-02 2019-08-09 上海颐为网络科技有限公司 知识分享平台上建立知识结构的辅助提示方法和组件

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060206467A1 (en) * 2001-04-04 2006-09-14 Peter Jackson System, method, and software for identifying historically related legal opinions
CN101916263A (zh) * 2010-07-27 2010-12-15 武汉大学 基于加权编辑距离的模糊关键字查询方法及系统
US20110055332A1 (en) * 2009-08-28 2011-03-03 Stein Christopher A Comparing similarity between documents for filtering unwanted documents
CN102016787A (zh) * 2008-02-25 2011-04-13 阿迪吉欧有限责任公司 确定所关注的域的相关信息
CN102012915A (zh) * 2010-11-22 2011-04-13 百度在线网络技术(北京)有限公司 一种文档共享平台的关键词推荐方法及系统
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法
CN103198079A (zh) * 2012-01-06 2013-07-10 北大方正集团有限公司 相关搜索的实现方法和装置
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060206467A1 (en) * 2001-04-04 2006-09-14 Peter Jackson System, method, and software for identifying historically related legal opinions
CN102016787A (zh) * 2008-02-25 2011-04-13 阿迪吉欧有限责任公司 确定所关注的域的相关信息
US20110055332A1 (en) * 2009-08-28 2011-03-03 Stein Christopher A Comparing similarity between documents for filtering unwanted documents
CN101916263A (zh) * 2010-07-27 2010-12-15 武汉大学 基于加权编辑距离的模糊关键字查询方法及系统
CN102012915A (zh) * 2010-11-22 2011-04-13 百度在线网络技术(北京)有限公司 一种文档共享平台的关键词推荐方法及系统
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法
CN103198079A (zh) * 2012-01-06 2013-07-10 北大方正集团有限公司 相关搜索的实现方法和装置
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
崔磊等: "HowNet与维基百科知识融合中的义类属性自动构建方法", 《中国计算机语言学研究前沿进展(2007-2009)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021439A (zh) * 2016-05-16 2016-10-12 腾讯科技(深圳)有限公司 一种对通信号码的处理方法及装置
CN110019656A (zh) * 2017-07-26 2019-07-16 上海颐为网络科技有限公司 一种新建词条相关内容智能推送方法和系统
CN110019673A (zh) * 2017-11-16 2019-07-16 上海颐为网络科技有限公司 一种知识分享平台的社交方法和系统
CN110109965A (zh) * 2018-02-02 2019-08-09 上海颐为网络科技有限公司 知识分享平台上建立知识结构的辅助提示方法和组件
CN109635114A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 用于处理信息的方法和装置

Also Published As

Publication number Publication date
CN104021202B (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
US10664660B2 (en) Method and device for extracting entity relation based on deep learning, and server
CN105095204B (zh) 同义词的获取方法及装置
CN107644010A (zh) 一种文本相似度计算方法及装置
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
US20130018650A1 (en) Selection of Language Model Training Data
KR101423549B1 (ko) 감상 기반 질의 처리 시스템 및 방법
CN111126060B (zh) 一种主题词的提取方法、装置、设备及存储介质
KR20150037924A (ko) 제품 인식에 근거한 정보 분류 기법
CN104021202A (zh) 一种知识共享平台的词条处理装置和方法
KR102468481B1 (ko) 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템
Posadas-Duran et al. Complete syntactic n-grams as style markers for authorship attribution
Rehman et al. Morpheme matching based text tokenization for a scarce resourced language
CN112580331A (zh) 政策文本的知识图谱构建方法及系统
Zouaq et al. Ontologizing concept maps using graph theory
Aliwy Tokenization as preprocessing for Arabic tagging system
US10719663B2 (en) Assisted free form decision definition using rules vocabulary
JP2014219872A (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
US20200387815A1 (en) Building training data and similarity relations for semantic space
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
Harrag et al. Comparative study of topic segmentation Algorithms based on lexical cohesion: Experimental results on Arabic language
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
WO2020157887A1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant