CN109002508B - 一种基于网络爬虫的文本信息爬取方法 - Google Patents

一种基于网络爬虫的文本信息爬取方法 Download PDF

Info

Publication number
CN109002508B
CN109002508B CN201810705012.2A CN201810705012A CN109002508B CN 109002508 B CN109002508 B CN 109002508B CN 201810705012 A CN201810705012 A CN 201810705012A CN 109002508 B CN109002508 B CN 109002508B
Authority
CN
China
Prior art keywords
text
information
server
sentence
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810705012.2A
Other languages
English (en)
Other versions
CN109002508A (zh
Inventor
向湘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongyin Culture Communication Co.,Ltd.
Original Assignee
Shanghai Zhongyin Culture Communication Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhongyin Culture Communication Co ltd filed Critical Shanghai Zhongyin Culture Communication Co ltd
Priority to CN201810705012.2A priority Critical patent/CN109002508B/zh
Publication of CN109002508A publication Critical patent/CN109002508A/zh
Application granted granted Critical
Publication of CN109002508B publication Critical patent/CN109002508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于网络爬虫的文本信息爬取方法,通过服务器获取网络爬虫任务的配置文件和第一文本;所述服务器根据所述配置文件开启网络URL信息爬取,并将爬取的信息整合为待处理信息;所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本;所述服务器计算第一文本与第二文本之间的相似度,若相似度超出预设阈值,则输出第二文本。本发明基于网络爬虫进行信息获取,并针对第一文本和第二文本的相似度判定本次爬取的信息是否符合要求,所以提高了信息爬取的效率。

Description

一种基于网络爬虫的文本信息爬取方法
技术领域
本发明数据处理领域,尤其涉及一种基于网络爬虫的文本信息爬取方法。
背景技术
现代社会是信息爆炸的社会,互联网上存在着海量的数据。
现有技术中,用户可能根据一个文本的内容从网络的海量数据中进行比较的需求,例如出版社收到一份投稿之后,需要比对一下该稿件是否为抄袭的稿件,比如从大量信息中获取所需要信息。
现有技术中的比较方法一般是由人工将稿件阅读完后总结出该稿件的核心思想,然后归纳出关键词,使用这些关键词在互联网上进行爬取,但是,如果稿件中的信息量较大,阅读需要花费大量的时间,影响了工作效率。
因此,现有技术有待于进一步的改进。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于为用户提供一种基于网络爬虫的文本信息爬取方法,克服现有技术中从网络的海量数据中获取信息效率低的缺陷。
本发明公开了一种基于网络爬虫的文本信息爬取方法,其中,所述方法包括:
服务器获取网络爬虫任务的配置文件和第一文本;所述配置文件含有的任务为:获取网络中与第一文本所含内容相似度超出预定第一阈值的信息;
所述服务器根据所述配置文件开启网络URL信息爬取,并将爬取的信息整合为待处理信息;
所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本;
所述服务器计算第一文本与第二文本之间的相似度,若相似度低于第二预设阈值,则重新根据所述配置文件开启网络URL信息爬取,若相似度超出第二预设阈值,则输出第二文本。
可选的,所述服务器计算第一文本与第二文本之间的相似度的步骤包括:
所述服务器对所述第一文本进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与第二文本的关键信息进行对比得出相似度。
可选的,所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本进行拆分的方法为:
按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
可选的,所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
可选的,所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
可选的,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
可选的,所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
Figure BDA0001715239320000031
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
可选的,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
可选的,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
可选的,使用以下公式所述计算第一序列和第二序列之间的余弦相似度的计算:
Figure BDA0001715239320000041
其中,ab表示a序列的中元素与b序列中相应的元素相乘后整体相加,分母表示a序列中所有元素的平方和开根号后乘以a序列中所有元素的平方和开根号。
有益效果,本发明提供了一种基于网络爬虫的文本信息爬取方法,通过服务器获取网络爬虫任务的配置文件和第一文本;所述服务器根据所述配置文件开启网络URL信息爬取,并将爬取的信息整合为待处理信息;所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本;所述服务器计算第一文本与第二文本之间的相似度,若相似度超出预设阈值,则输出第二文本。本发明基于网络爬虫进行信息获取,并针对第一文本和第二文本的相似度判定本次爬取的信息是否符合要求,提高了信息爬取的效率。
附图说明
图1为本发明所公开的一种基于网络爬虫的文本信息爬取方法的步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种基于网络爬虫的文本信息爬取方法,如图1所示,所述方法包括:
步骤S101、服务器获取网络爬虫任务的配置文件和第一文本;所述配置文件含有的任务为:获取网络中与第一文本所含内容相似度超出预定第一阈值的信息。
本步骤中为从网络中爬取与第一文本内容相似的信息,做预先的设置。具体的,在服务器中设置配置文件,所述配置文件含有爬取信息的任务,也即基于第一文本的内容从网络中获取相似的内容。所述配置文件在具体实施时,可以通过页面脚本的方式,进行运行。
步骤S102、所述服务器根据所述配置文件开启网络URL信息爬取,并将爬取的信息整合为待处理信息。
服务器根据上述步骤S101中设置的配置文件开启网络URL信息爬取,并将爬取到的信息整合为待处理信息。本步骤可以首先将爬取到的信息存储在服务器中,为了得到更有效的信息,先将爬取到的信息进行存储,可以分布存储。
步骤S103、所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本。
对上述步骤S102中获取到的待处理信息进行处理,查找出其中重复的部分,并将其中重复内容删除掉,得到删减后的第二文本。
步骤S104、所述服务器计算第一文本与第二文本之间的相似度,若相似度低于第二预设阈值,则重新根据所述配置文件开启网络URL信息爬取,若相似度超出第二预设阈值,则输出第二文本。
所述服务器计算第一文本与第二文本之间的相似度,若两者之间的相似度低于第二预设阈值,则判定当前获取到的第二文本不符合要求,则返回步骤S101重新爬取信息。
在具体实施时,在进行信息的重新爬取之前,还可以对配置文件进行修改,以使得获取到更适合的信息。
具体的,为了得到更准确的第一文本与第二文本之间的相似度值,所述将第一文本与第二文本之间的相似度值判定为所述待检测论文的检测相似值的步骤还包括:
服务器对所述第一文本进行拆解得到若干候选句子;其中,对第一文本进行拆分的方法为:按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解。
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比,并将比对出的相似度值判定为所述第一文本与第二文本之间的相似度值。
进一步的,由于各个候选句子中可能包含不同属性的信息,也即是候选句子可能含有中文句子或者网页链接地址,所以在进行重要性分数的计算之前,所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。
所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
例如,有一篇论文中含有以下内容:
今天XX协会在北京召开了工作会议,天气不错,大概有30摄氏度,没有下雨,交通情况也良好,在工作会议上,张会长对XX协会去年的工作进行了总结,还表彰了XX协会的优秀员工。
候选句子包括:
A、今天XX协会在北京召开了工作会议;
B、天气不错;
C、大概有30摄氏度;
D、没有下雨;
E、交通情况也良好;
F、在工作会议上;
G、张会长对XX协会去年的工作进行了总结;
H、还表彰了XX协会的优秀员工。
拆解得到的词组包括:
今天:出现1次,权值为1
XX协会:出现3次,权值为3
北京:1次,权值为1
召开:1次,权值为1
工作会议:2次,权值为2
天气:1次,权值为1
30摄氏度:1次,权值为1
下雨:1次,权值为1
交通情况:1次,权值为1
张会长:1次,权值为1
去年的工作:1次,权值为1
总结:1次,权值为1
表彰:1次,权值为1
优秀员工:1次,权值为1
则上面的候选句子的重要性分数分别为:A号8分,B号1分,C号1分,D号1分,E号1分,F号2分,G号6分,H号5分。
假设预设值为2分,则目标句子为A号,F号,G号和H号,最后的关键信息为:今天XX协会在北京召开了工作会议;在工作会议上;张会长对XX协会去年的工作进行了总结;还表彰了XX协会的优秀员工。
进一步的,所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数。
所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
Figure BDA0001715239320000081
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合。out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
具体的,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
具体的,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
例如:
第一句子为:今天协会在北京召开会议。
第二句子为:协会在北京召开了普法会议。
Figure BDA0001715239320000091
则第一序列a为(1,1,1,1,0,1),第二序列b为(0,1,1,1,1,1)。
较佳的,本方法步骤中使用以下公式所述计算第一序列和第二序列之间的余弦相似度的计算:
Figure BDA0001715239320000092
其中,ab表示a序列的中元素与b序列中相应的元素相乘后整体相加,分母表示a序列中所有元素的平方和开根号后乘以a序列中所有元素的平方和开根号。
例如,上述两个句子计算的结果为:
Figure BDA0001715239320000101
最终的计算结果为:0.8。
本发明提供的一种基于网络爬虫的文本信息爬取方法,利用服务器对待爬取信息的第一文本进行拆解得到若干候选句子,然后确定各候选句子的重要性分数,并提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息,再用关键信息之间的对比实现文本之间的对比,从而获取到更准确的相关信息,该过程可以由服务器自行完成,无需人工进行信息比对,所以提高了信息爬取的工作效率。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (4)

1.一种基于网络爬虫的文本信息爬取方法,其特征在于,所述方法包括:
服务器获取网络爬虫任务的配置文件和第一文本;所述配置文件含有的任务为:获取网络中与第一文本所含内容相似度超出预定第一阈值的信息;
所述服务器根据所述配置文件开启网络URL信息爬取,并将爬取的信息整合为待处理信息;
所述服务器对所述待处理信息进行查重及删除重复内容处理后,得到第二文本;
所述服务器计算第一文本与第二文本之间的相似度,若相似度低于第二预设阈值,则重新根据所述配置文件开启网络URL信息爬取,若相似度超出第二预设阈值,则输出第二文本;
所述服务器计算第一文本与第二文本之间的相似度的步骤包括:
所述服务器对所述第一文本进行拆解得到若干候选句子;
所述服务器确定各候选句子的重要性分数;
所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息;
所述服务器将所述第一文本的关键信息与第二文本的关键信息进行对比得出相似度;
所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中,对第一文本进行拆分的方法为:
按照标点符号进行拆解;其中,所述标点符号为分号、逗号、句号时,进行拆解,当标点符号为顿号、冒号、引号时,不进行拆解;
所述服务器确定各候选句子的重要性分数的步骤包括:
判断所述候选句子中是否包含中文句子和/或网页链接地址;
若仅仅含有中文句子,则将中文句子中各词组的权值之和作为所述候选句子的重要性分数;
若仅仅含有网页链接地址,则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数;
若同时含有中文句子和网页链接地址,则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数;
所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括:
按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和;
所述将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数步骤包括:
服务器后台开启该网页链接地址对应的目标网页;
服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数;
所述服务器根据该目标网页中所含页面元素确定所述目标网页的重要性分数的步骤包括:
使用下面的公式确定目标网页的重要性分数;
Figure FDA0003102155080000021
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合, out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
2.根据权利要求1所述的基于网络爬虫的文本信息爬取方法,其特征在于,所述服务器将所述第一文本的关键信息与第二文本的关键信息进行相似度对比的步骤包括:
计算第一文本的关键信息中的第一句子与第二文本的关键信息中的第二句子的余弦相似度;
若余弦相似度高于预设值,则确定第一文本与第二文本近似。
3.根据权利要求2所述的基于网络爬虫的文本信息爬取方法,其特征在于,所述余弦相似度的计算方法为:
将第一句子拆分为若干个词组;
将第二句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一句子和第二句子之间的余弦相似度。
4.根据权利要求3所述的基于网络爬虫的文本信息爬取方法,其特征在于,使用以下公式所述计算第一序列和第二序列之间的余弦相似度的计算:
Figure FDA0003102155080000031
其中,ab表示a序列的中元素与b序列中相应的元素相乘后整体相加,分母表示a序列中所有元素的平方和开根号后乘以a序列中所有元素的平方和开根号。
CN201810705012.2A 2018-07-01 2018-07-01 一种基于网络爬虫的文本信息爬取方法 Active CN109002508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810705012.2A CN109002508B (zh) 2018-07-01 2018-07-01 一种基于网络爬虫的文本信息爬取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810705012.2A CN109002508B (zh) 2018-07-01 2018-07-01 一种基于网络爬虫的文本信息爬取方法

Publications (2)

Publication Number Publication Date
CN109002508A CN109002508A (zh) 2018-12-14
CN109002508B true CN109002508B (zh) 2021-08-06

Family

ID=64602146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810705012.2A Active CN109002508B (zh) 2018-07-01 2018-07-01 一种基于网络爬虫的文本信息爬取方法

Country Status (1)

Country Link
CN (1) CN109002508B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728418A (zh) * 2019-08-26 2020-01-24 成都市互联互通大数据科技有限公司 一种废标率的统计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN104376024A (zh) * 2013-08-16 2015-02-25 交通运输部科学研究院 一种基于种子词的文档相似性检测方法
CN106339378A (zh) * 2015-07-07 2017-01-18 中国科学院信息工程研究所 基于关键词导向的主题网络爬虫的数据搜集方法
CN107092632A (zh) * 2017-02-09 2017-08-25 北京小度信息科技有限公司 数据处理方法及装置
CN107862620A (zh) * 2017-12-11 2018-03-30 四川新网银行股份有限公司 一种基于社交数据的相似用户挖掘方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN104376024A (zh) * 2013-08-16 2015-02-25 交通运输部科学研究院 一种基于种子词的文档相似性检测方法
CN106339378A (zh) * 2015-07-07 2017-01-18 中国科学院信息工程研究所 基于关键词导向的主题网络爬虫的数据搜集方法
CN107092632A (zh) * 2017-02-09 2017-08-25 北京小度信息科技有限公司 数据处理方法及装置
CN107862620A (zh) * 2017-12-11 2018-03-30 四川新网银行股份有限公司 一种基于社交数据的相似用户挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于中心性和 PageRank 的网页综合评分方法;乔少杰 等;《西南交通大学学报》;20110630;第46卷(第3期);第456-460页 *
基于句子相似度的文本比对算法研究;杨茂;《中国优秀硕士学位论文全文数据库信息科技辑》;20110315(第03期);论文正文第12-13、48-62页 *

Also Published As

Publication number Publication date
CN109002508A (zh) 2018-12-14

Similar Documents

Publication Publication Date Title
CN108920633B (zh) 一种论文相似度的检测方法
CN107451126B (zh) 一种近义词筛选方法及系统
CN104899322B (zh) 搜索引擎及其实现方法
US7346487B2 (en) Method and apparatus for identifying translations
CN109033212B (zh) 一种基于相似度匹配的文本分类方法
CN109508414B (zh) 一种同义词挖掘方法及装置
CN109582704B (zh) 招聘信息和求职简历匹配的方法
US20040236566A1 (en) System and method for identifying special word usage in a document
US20090070095A1 (en) Mining bilingual dictionaries from monolingual web pages
US9727556B2 (en) Summarization of a document
CN108363688B (zh) 一种融合先验信息的命名实体链接方法
CN107885717B (zh) 一种关键词提取方法及装置
CN111611374A (zh) 语料扩充方法、装置、电子设备及存储介质
CN108052500A (zh) 一种基于语义分析的文本关键信息提取方法及装置
KR101707941B1 (ko) 일반용어와 법률용어 간의 자동변환을 통한 판례검색방법, 판례검색장치 및 이를 위한 컴퓨터 판독가능 기록매체
CN108897861A (zh) 一种信息搜索方法
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN111460099A (zh) 关键词提取方法、装置及存储介质
CN109002508B (zh) 一种基于网络爬虫的文本信息爬取方法
CN110765767B (zh) 局部优化关键词的提取方法、装置、服务器及存储介质
JP4102153B2 (ja) インターネットを利用した文字認識の後処理装置
CN108959263B (zh) 一种词条权重计算模型训练方法及装置
CN109033093A (zh) 一种基于相似度匹配的文本翻译方法
CN109062981B (zh) 一种网站相似度检测方法
CN110851560B (zh) 信息检索方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210720

Address after: Room 2078, building 3, No. 225 and 229, shangxue Road, Jiading District, Shanghai

Applicant after: Shanghai Zhongyin Culture Communication Co.,Ltd.

Address before: Room 403, No.35, Sanxiang, xiashou new village, Xicheng District, Dongguan City, Guangdong Province 523073

Applicant before: DONGGUAN HUARUI ELECTRONIC TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant