CN112989791A - 一种基于文本信息抽取结果的去重方法、系统以及介质 - Google Patents

一种基于文本信息抽取结果的去重方法、系统以及介质 Download PDF

Info

Publication number
CN112989791A
CN112989791A CN202110341478.0A CN202110341478A CN112989791A CN 112989791 A CN112989791 A CN 112989791A CN 202110341478 A CN202110341478 A CN 202110341478A CN 112989791 A CN112989791 A CN 112989791A
Authority
CN
China
Prior art keywords
text data
data records
data record
repeated
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110341478.0A
Other languages
English (en)
Inventor
贾新
李善平
田小亮
张金坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Topnet System Engineering Co ltd
Henan Tupu Computer Network Engineering Co ltd
Beijing Toplink Information Engineering Co ltd
Original Assignee
Hefei Topnet System Engineering Co ltd
Henan Tupu Computer Network Engineering Co ltd
Beijing Toplink Information Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Topnet System Engineering Co ltd, Henan Tupu Computer Network Engineering Co ltd, Beijing Toplink Information Engineering Co ltd filed Critical Hefei Topnet System Engineering Co ltd
Priority to CN202110341478.0A priority Critical patent/CN112989791A/zh
Publication of CN112989791A publication Critical patent/CN112989791A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/08Auctions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于文本信息抽取结果的去重方法、系统以及介质,其中所述去重方法具体包括以下步骤:对公共资源交易信息所在网页进行结构化抽取,将抽取结果以文本数据记录形式存储在数据集中;根据预设多重分类规则对数据集中所有文本数据记录进行细分;基于标题和预设实体字段进行组内判重,当组内存在重复文本数据记录时,基于网站类型和实体字段对重复文本数据记录进行评分,并根据评分进行重复文本数据记录的合并。

Description

一种基于文本信息抽取结果的去重方法、系统以及介质
技术领域
本发明涉及一种数据处理技术,具体的说,涉及了一种基于文本信息抽取结果的去重方法、系统及介质。
背景技术
应国家政策要求,凡符合《招标投标法》和相关部门或行业规定的项目,均要进行招投标公示公告。面对成千上万的招投标公告发布渠道,以及各式各样的数据发布形式(如文本、图片、PDF等),在互联网上产生了海量的招投标公告数据。这些公告数据规范不统一,主要是一些非结构化、半结构化数据。并且目前全国各级和各地的招投标数据发布渠道不统一,数据格式混乱,导致对相关数据的管理十分困难,更缺乏对相关数据进一步分析的结构化数据支撑。
为了解决以上存在的问题,人们一直在寻求一种理想的技术解决方案。
发明内容
本发明的目的是针对现有技术的不足,从而提供了一种基于文本信息抽取结果的去重方法、系统及介质。
为了实现上述目的,本发明所采用的技术方案是:一种基于文本信息抽取结果的去重方法,具体包括以下步骤:
对公共资源交易信息所在网页进行结构化抽取,将抽取结果以文本数据记录形式存储在数据集中;
根据预设多重分类规则对数据集中所有文本数据记录进行细分;
基于标题和预设实体字段进行组内判重,当组内存在重复文本数据记录时,基于网站类型和实体字段对重复文本数据记录进行评分,并根据评分进行重复文本数据记录的合并。
基于上述,所述结构化抽取的具体步骤如下:
对公共资源交易信息所在网页进行预处理,统一网页的编码和内容格式,并去除网页中的噪音信息;
为公共资源交易信息生成交易类别标签和城市标签;
对公共资源交易信息进行段落划分, 并基于拆分后的段落并行进行表格解析、键值对解析、正则抽取和实体识别处理;
根据预设属性权重表分别对表格解析、键值对解析、正则抽取和实体识别的处理结果进行属性加权评分,选取属性加权评分最高的处理结果作为最佳处理结果;
对最佳处理结果进行度量转换,并与交易类别标签、城市标签一起作为结构化抽取结果。
基于上述,根据预设多重分类规则对数据集中所有文本数据记录进行细分的具体步骤如下:
根据交易类别标签对数据集中所有文本数据记录进行细分,每个交易类别标签对应一个类别分组;
针对每个类别分组,再进一步根据发布时间周期、城市标签、采购单元和代理机构进行细分,使得最终获得的每个分组内所有文本数据记录的类别标签、发布时间周期、城市标签、采购单位以及代理机构均一致。
基于上述,基于标题和预设实体字段进行组内判重具体包括以下步骤:
遍历每个分组,比对任意两个文本数据记录的标题是否相同以及比对预设实体字段的字段值是否相同,在标题和预设实体字段的字段值的相同个数大于预设个数时,将相应的文本数据记录作为重复文本数据记录输出。
基于上述,根据评分进行重复文本数据记录的合并具体步骤如下:选取评分最高的重复文本数据记录作为源文本数据记录,将其他重复文本数据记录作为辅助文本数据记录;比对源文本数据记录和辅助文本数据记录,将只存在于辅助文本数据记录的内容添加到源文本数据记录中,并删除辅助文本数据记录。
基于上述,在被判定为重复文本数据记录时,将当前的判断依据添加到重复文本数据记录中。
本发明还提供一种基于文本信息抽取结果的去重系统,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时执行如前述的方法步骤。
本发明还提供一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如前述的方法步骤。
本发明相对现有技术具有突出的实质性特点和显著的进步,具体的说,
1、本发明通过预设多重分类规则有效的进行数据的多维度分组划分,然后在组内筛选重复数据,从而降低数据之间对比的范围,处理时间更快,判重效率更高且成本更低;并且不会造成不同分组间的数据误判。
2、基于抽取的结构化数据进行判重,无需进行相似度计算,并且由于每个字段都可以用来辅助判重,从而通过多维度的交叉验证更加有效的分析招投标数据的重复性,提高最终数据的质量。
3、对最终数据的结果,记录其判断依据,从而便于后期快速回溯整个判断流程,让输出结果更加信服。
附图说明
图1是本发明的流程示意图。
具体实施方式
下面通过具体实施方式,对本发明的技术方案做进一步的详细描述。
通常可以采用网页爬虫技术从相关的数据平台或信息发布网站获招投标交易数据,从相关网站的网页处所获得的一般是带有相应网页标签的文本,即带HTML标签的文本信息。为了应对行业中对招投标交易数据进行数据清洗时需要对其进行去重处理的现实需求,需要引入针对文本信息的结构化抽取技术。
为此,如图1所示,本发明提出了一种基于文本信息抽取结果的去重方法,具体步骤如下:
(1)对公共资源交易信息所在网页进行结构化抽取,将抽取结果以文本数据记录形式存储在数据集中。
其中,所述结构化抽取的具体步骤如下:
对公共资源交易信息所在网页进行预处理,统一网页的编码和内容格式,并去除网页中的噪音信息;
为公共资源交易信息生成交易类别标签和城市标签;
对公共资源交易信息进行段落划分, 并基于拆分后的段落并行进行表格解析、键值对解析、正则抽取和实体识别处理;
根据预设属性权重表分别对表格解析、键值对解析、正则抽取和实体识别的处理结果进行属性加权评分,选取属性加权评分最高的处理结果作为最佳处理结果;
对最佳处理结果进行度量转换,并与交易类别标签、城市标签一起作为结构化抽取结果。
需要注意的是:由于交易类别标签会关系到后面的分组,其决定了后面的分组基础,因此交易类别标签的选择应该满足通用条件;本实施例中所述交易类别标签至少包括预告、招标、邀标、询价、竞价、竞谈、变更、成交、合同。
其中预设属性权重表包括字段标签权重表、抽取方式权重表、正面词权重表、负面词权重表、字符长度权重表、数据范围权重表。例如,在抽取方式权重表中,键值对解析设置为1、正则抽取设置为0.7、表格解析设置为0.7、实体识别处理设置为0.3;正面词权值设为1,其余判定为负面词,权值记为0.7,正面词的个数可以根据实际进行增删;字符长度中,字符长度小于3权值记为0.2,大于3小于5记为0.7,大于5小于35记为1,大于35记为0.7。
(2)根据预设多重分类规则对数据集中所有文本数据记录进行细分。
分类规则决定了整个数据集划分的粒度,当数据集内的数据量达到一定规模时,需要通过分组来控制每个分组内的数据记录数目;由于分组内的数据记录数目越小,数据之间比对的范围也越小,因此本申请中基于交易类别标签、发布时间周期、城市标签、采购单位和代理机构这几个维度信息来对文本数据记录进行细分,不在同一组的数据认为不重复,同一组的数据继续进行的组内判重。
具体的,分组步骤如下:
根据交易类别标签对数据集中所有文本数据记录进行细分,每个交易类别标签对应一个类别分组;
针对每个类别分组,再进一步根据发布时间周期、城市标签、采购单元和代理机构进行细分,使得最终获得的每个分组内所有文本数据记录的类别标签、发布时间周期、城市标签、采购单位以及代理机构均一致。
例如针对每个类别分组,可以先根据发布时间周期对每个类别分组进行细分,每个发布时间周期对应一个时间分组;
根据城市标签对每个时间分组进行细分,每个城市标签对应一个城市分组;
根据采购单位对每个城市分组进行细分,每个采购单位对应一个采购单元分组;
根据代理机构对每个采购单元分组进行细分,每个代理机构对应一个代理机构分组。
在具体实施时,根据发布时间周期、城市标签、采购单元和代理机构进行细分的顺序是灵活可调整的,例如也可以先进行城市标签分类,再依次根据发布时间周期、采购单元和代理机构进行细分。
(3)基于标题和预设实体字段进行组内判重基于标题和预设实体字段进行组内判重,当组内存在重复文本数据记录时,基于网站类型和实体字段对重复文本数据记录进行评分,并根据得分进行重复文本数据记录的合并。
其中,对于网站来说,评分规则如下:政府采购>公共资源>官方网站|政府门户>社会公共招标平台|企业招标平台>其他,具体分值可以根据需求进行设定。
优选的,基于标题和预设实体字段进行组内判重具体包括以下步骤:
遍历每个分组,比对任意两个文本数据记录的标题是否相同以及比对预设实体字段的字段值是否相同,在标题和预设实体字段的字段值的相同个数大于预设个数时,将相应的文本数据记录作为重复文本数据记录输出。
优选的,所述预设实体字段包括项目编号、项目名称、合同编号、中标单位、开标时间、中标金额、预算中的多个,具体的与所述域名分组对应的交易类别标签有关,例如,如果当前分组属于招标类分组下的细分分组,则所述预设实体字段包括预算、项目编号、项目名称;如果当前分组属于结果类分组下的细分分组,则所述预设实体字段包括中标金额、中标金额、项目名称。
在具体实施时,还可以针对每个分组,分别找出标题相同的文本数据记录、标题不同但含有相同预设关键词的文本数据记录以及标题不同且不含有相同预设关键词的文本数据记录。
对于标题相同的文本数据记录,则先判断文本数据记录中的预设实体字段的字段值是否均相同,若均相同,则将相应的文本数据记录作为重复文本数据记录输出;否则继续判断文本数据记录中的预设实体字段的字段值相同的个数是否大于等于预设个数-1,若满足,则将相应的文本数据记录作为重复文本数据记录输出,剩余的标题相同的文本数据记录作为不重复文本数据记录。
对于标题不同但含有相同预设关键词的文本数据记录,则先判断文本数据记录中的预设实体字段的字段值是否均相同,若均相同,则将相应的文本数据记录作为重复文本数据记录输出;否则继续判断文本数据记录中的预设实体字段的字段值相同的个数是否大于等于预设个数,若满足,则将相应的文本数据记录作为重复文本数据记录输出,剩余的标题不同但含有相同预设关键词的文本数据记录作为不重复文本数据记录。
在含有相同关键词的前提下进一步判断预设实体字段的目的是为了解决不同的项目存在相同的关键词的情况。对于标题不同且不含有相同预设关键词的文本数据记录,则先判断文本数据记录中的预设实体字段的字段值是否均相同,若均相同,则将相应的文本数据记录作为重复文本数据记录输出;否则继续判断文本数据记录中的预设实体字段的字段值相同的个数是否大于等于预设个数,若满足,则将相应的文本数据记录作为重复文本数据记录输出,剩余的标题不同且不含有相同预设关键词的文本数据记录作为不重复文本数据记录。
在不含有相同关键词的前提下进一步判断预设实体字段的目的是为了解决标题中关键词有细微区别,但描述的是同一个项目的情况。
当找出重复文本数据记录时,需要进一步基于网站类型和实体字段对重复文本数据记录进行评分,具体步骤如下:根据预设网站类型评分表获取每个重复文本数据记录的网站评分,根据预设实体字段评分表获取每个重复文本数据记录的每个实体字段的评分,将每个重复文本数据记录的网站评分和实体字段评分相加,得到每个重复文本数据记录的最终评分。
得到每个重复文本数据记录的最终分数后,再进一步根据评分进行重复文本数据记录的合并具体步骤如下:选取评分最高的重复文本数据记录作为源文本数据记录,将其他重复文本数据记录作为辅助文本数据记录;比对源文本数据记录和辅助文本数据记录,将只存在于辅助文本数据记录的内容添加到源文本数据记录中,并删除辅助文本数据记录。
具体的,以两个重复文本数据记录A和B为例,
重复文本数据记录A的信息如下:
网站:政府采购;城市:河南省郑州市;采购单位:郑州市某某建设局;项目名称:某某小区改造项目;项目编号:NXCG-GK-001;预算:100万元;代理机构:招标代理有限公司;项目联系人。
重复文本数据记录B的信息如下:
网站:公共资源;城市:河南省郑州市;采购单位:郑州市某某建设局;项目名称:某某小区改造项目;项目编号:NXCG-GK-001;预算:100万元;代理机构:招标代理有限公司;联系电话:15600001234。
预设实体字段评分表如下:
Figure 425771DEST_PATH_IMAGE002
预设网站类型评分表如下:
Figure 476773DEST_PATH_IMAGE004
则根据上述两个评分表可以得出,对于重复文本数据记录A,则有:
城市:1分;采购单位:2分;项目名称:1分;项目编号:2分;预算:2分;代理机构:1分;项目联系人:1分;政府采购:10分;总计20分。对于重复文本数据记录B,则有:
城市:1分;采购单位:2分;项目名称:1分;项目编号:2分;预算:2分;代理机构:1分;联系电话:1分;网站类型:8分;总计18分。
此时,将重复文本数据记录A作为源文本数据记录,将重复文本数据记录B作为重复文本数据记录,并将只存在于重复文本数据记录的内容---联系电话:15600001234---添加到源文本数据记录中,最终源文本数据记录为:
网站类型:政府采购;城市:河南省郑州市;采购单位:郑州市某某建设局;项目名称:某某小区改造项目;项目编号:NXCG-GK-001;预算:100万元;代理机构:招标代理有限公司;项目联系人:张三;联系电话:15600001234。
需要注意的是:为了便于快速回溯判重过程,在被判定为重复文本数据记录时,将当前的判断依据添加到重复文本数据记录中。
本发明还提供一种基于文本信息抽取结果的去重系统,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时执行如前述的方法步骤。
本发明还提供一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如前述的方法步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

Claims (10)

1.一种基于文本信息抽取结果的去重方法,其特征在于:
对公共资源交易信息所在网页进行结构化抽取,将抽取结果以文本数据记录形式存储在数据集中;
根据预设多重分类规则对数据集中所有文本数据记录进行细分;
基于标题和预设实体字段进行组内判重,当组内存在重复文本数据记录时,基于网站类型和实体字段对重复文本数据记录进行评分,并根据评分进行重复文本数据记录的合并。
2.根据权利要求1所述的基于文本信息抽取结果的去重方法,其特征在,所述结构化抽取的具体步骤如下:
对公共资源交易信息所在网页进行预处理,统一网页的编码和内容格式,并去除网页中的噪音信息;
为公共资源交易信息生成交易类别标签和城市标签;
对公共资源交易信息进行段落划分,并基于拆分后的段落并行进行表格解析、键值对解析、正则抽取和实体识别处理;
根据预设属性权重表分别对表格解析、键值对解析、正则抽取和实体识别的处理结果进行属性加权评分,选取属性加权评分最高的处理结果作为最佳处理结果;
对最佳处理结果进行度量转换,并与交易类别标签、城市标签一起作为结构化抽取结果。
3.根据权利要求2所述的基于文本信息抽取结果的去重方法,其特征在于,根据预设多重分类规则对数据集中所有文本数据记录进行细分的具体步骤如下:
根据交易类别标签对数据集中所有文本数据记录进行细分,每个交易类别标签对应一个类别分组;
针对每个类别分组,再进一步根据发布时间周期、城市标签、采购单元和代理机构进行细分,使得最终获得的每个分组内所有文本数据记录的类别标签、发布时间周期、城市标签、采购单位以及代理机构均一致。
4.根据权利要求3所述的基于文本信息抽取结果的去重方法,其特征在于,基于标题和预设实体字段进行组内判重具体包括以下步骤:
遍历每个分组,比对任意两个文本数据记录的标题是否相同以及比对预设实体字段的字段值是否相同,在标题和预设实体字段的字段值的相同个数大于预设个数时,将相应的文本数据记录作为重复文本数据记录输出。
5.根据权利要求4所述的基于文本信息抽取结果的去重方法,其特征在于:所述交易类别标签至少包括预告、招标、邀标、询价、竞价、竞谈、变更、成交、合同;所述预设实体字段包括项目编号、项目名称、合同编号、中标单位、开标时间、中标金额、预算中的多个。
6.根据权利要求3所述的基于文本信息抽取结果的去重方法,其特征在于:在被判定为重复文本数据记录时,将当前的判断依据添加到重复文本数据记录中。
7.根据权利要求1所述的基于文本信息抽取结果的去重方法,其特征在于,基于网站类型和实体字段对重复文本数据记录进行评分,具体包括:根据预设网站类型评分表获取每个重复文本数据记录的网站评分,根据预设实体字段评分表获取每个重复文本数据记录的每个实体字段的评分,将每个重复文本数据记录的网站评分和实体字段评分相加,得到每个重复文本数据记录的最终评分。
8.根据权利要求7所述的基于文本信息抽取结果的去重方法,其特征在于,根据评分进行重复文本数据记录的合并具体步骤如下:选取评分最高的重复文本数据记录作为源文本数据记录,将其他重复文本数据记录作为辅助文本数据记录;比对源文本数据记录和辅助文本数据记录,将只存在于辅助文本数据记录的内容添加到源文本数据记录中,并删除辅助文本数据记录。
9.一种基于文本信息抽取结果的去重系统,其特征在于:包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时执行如权利要求1-8中任一项所述的方法步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法步骤。
CN202110341478.0A 2021-03-30 2021-03-30 一种基于文本信息抽取结果的去重方法、系统以及介质 Pending CN112989791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110341478.0A CN112989791A (zh) 2021-03-30 2021-03-30 一种基于文本信息抽取结果的去重方法、系统以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110341478.0A CN112989791A (zh) 2021-03-30 2021-03-30 一种基于文本信息抽取结果的去重方法、系统以及介质

Publications (1)

Publication Number Publication Date
CN112989791A true CN112989791A (zh) 2021-06-18

Family

ID=76338408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110341478.0A Pending CN112989791A (zh) 2021-03-30 2021-03-30 一种基于文本信息抽取结果的去重方法、系统以及介质

Country Status (1)

Country Link
CN (1) CN112989791A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688629A (zh) * 2021-08-04 2021-11-23 德邦证券股份有限公司 文本去重的方法、装置以及存储介质
CN114065727A (zh) * 2021-12-01 2022-02-18 东方财富信息股份有限公司 资讯去重方法、设备及计算机可读介质
CN114942971A (zh) * 2022-07-22 2022-08-26 北京拓普丰联信息科技股份有限公司 一种结构化数据的抽取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203849A (zh) * 2017-05-26 2017-09-26 山东省科学院情报研究所 基于大数据的区域人才供给量化分析方法
CN107784058A (zh) * 2017-04-11 2018-03-09 平安医疗健康管理股份有限公司 药品数据处理方法及装置
CN108399205A (zh) * 2018-01-31 2018-08-14 佛山市聚成知识产权服务有限公司 一种数据高速处理转换通信方法及装置
CN110807700A (zh) * 2019-11-05 2020-02-18 浪潮卓数大数据产业发展有限公司 一种基于政府数据的无监督融合模型个人信用评分方法
CN111723215A (zh) * 2020-06-19 2020-09-29 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784058A (zh) * 2017-04-11 2018-03-09 平安医疗健康管理股份有限公司 药品数据处理方法及装置
CN107203849A (zh) * 2017-05-26 2017-09-26 山东省科学院情报研究所 基于大数据的区域人才供给量化分析方法
CN108399205A (zh) * 2018-01-31 2018-08-14 佛山市聚成知识产权服务有限公司 一种数据高速处理转换通信方法及装置
CN110807700A (zh) * 2019-11-05 2020-02-18 浪潮卓数大数据产业发展有限公司 一种基于政府数据的无监督融合模型个人信用评分方法
CN111723215A (zh) * 2020-06-19 2020-09-29 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688629A (zh) * 2021-08-04 2021-11-23 德邦证券股份有限公司 文本去重的方法、装置以及存储介质
CN114065727A (zh) * 2021-12-01 2022-02-18 东方财富信息股份有限公司 资讯去重方法、设备及计算机可读介质
CN114942971A (zh) * 2022-07-22 2022-08-26 北京拓普丰联信息科技股份有限公司 一种结构化数据的抽取方法及装置

Similar Documents

Publication Publication Date Title
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN112989791A (zh) 一种基于文本信息抽取结果的去重方法、系统以及介质
Yin et al. Facto: a fact lookup engine based on web tables
CN107918644B (zh) 声誉管理框架内的新闻议题分析方法和实施系统
Hasan et al. TwitterNews: Real time event detection from the Twitter data stream
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
Lipczak et al. The impact of resource title on tags in collaborative tagging systems
Rafea et al. Topic detection approaches in identifying topics and events from Arabic corpora
CN114254201A (zh) 一种科技项目评审专家的推荐方法
Tsytsarau et al. Managing diverse sentiments at large scale
Huang et al. Quality-biased ranking of short texts in microblogging services
CN111782759B (zh) 一种问答处理方法、装置及计算机可读存储介质
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
Afrizal et al. New filtering scheme based on term weighting to improve object based opinion mining on tourism product reviews
Roy et al. A NMF-based learning of topics and clusters for IT maintenance tickets aided by heuristic
Sharif et al. A scoping review of topic modelling on online data
TWI534640B (zh) Chinese network information monitoring and analysis system and its method
Hassanian-esfahani et al. A survey on web news retrieval and mining
Unnikrishnan et al. A Literature Review of Sentiment Evolution
CN117556112B (zh) 电子档案信息智能管理系统
Xiao-Shu et al. Cloud computing oriented retrieval technology based on big data
Lyu et al. Analysis of topic influence and post features of Sina-Weibo
Sjöberg Extracting Transaction Information from Financial Press Releases
Nguyen et al. Duplicate Identification Algorithms in SaaS Platforms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Residential building 2011, block C, Huating Jiayuan, dijunfeng, Jianxiang 3, Huayan Beili, North Fourth Ring Middle Road, Chaoyang District, Beijing

Applicant after: Beijing Tuopu Fenglian Information Technology Co.,Ltd.

Applicant after: Henan Tupu computer network engineering Co.,Ltd.

Applicant after: HEFEI TOPNET SYSTEM ENGINEERING CO.,LTD.

Address before: Residential building 2011, block C, Huating Jiayuan, dijunfeng, Jianxiang 3, Huayan Beili, North Fourth Ring Middle Road, Chaoyang District, Beijing

Applicant before: Beijing TOPLINK Information Engineering Co.,Ltd.

Applicant before: Henan Tupu computer network engineering Co.,Ltd.

Applicant before: HEFEI TOPNET SYSTEM ENGINEERING CO.,LTD.