CN108874771A - 一种面向招标文本的信息抽取方法 - Google Patents

一种面向招标文本的信息抽取方法 Download PDF

Info

Publication number
CN108874771A
CN108874771A CN201810513564.3A CN201810513564A CN108874771A CN 108874771 A CN108874771 A CN 108874771A CN 201810513564 A CN201810513564 A CN 201810513564A CN 108874771 A CN108874771 A CN 108874771A
Authority
CN
China
Prior art keywords
text
sentence
project
bid
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810513564.3A
Other languages
English (en)
Inventor
刘漳辉
陈艺燕
陈星�
郭晨皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810513564.3A priority Critical patent/CN108874771A/zh
Publication of CN108874771A publication Critical patent/CN108874771A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种面向招标文本的信息抽取方法,包括:对招标文件进行规范化处理;根据所需要抽取的信息,建立对应的关键词列表;逐句读取招标文件的文本内容,使用jieba分词逐句对招标文件的文本进行分词与标注词性处理;将分词结果进行存储,作为后续抽取操作的输入数据,完成预处理;通过调用预设信息抽取模块,根据目标招标信息,对预处理过的文本采用对应匹配抽取方式进行对应的招标信息抽取操作,获取抽取结果。本发明提出的一种面向招标文本的信息抽取方法,利用自然语言处理领域的技术实现对招标文本中特定信息进行抽取并将获得的信息以结构化的形式给予描述。通过对招标文本的信息抽取为招标信息的提取提供更有力的获取工具。

Description

一种面向招标文本的信息抽取方法
技术领域
本发明涉及一种面向招标文本的信息抽取方法。
背景技术
当今社会是信息社会,信息资源己成为当今社会中重要的战略资源之一。信息资源的利用和开发水平已成为推动经济、文化、科技和社会发展的重要动力。招标文件是招标人向潜在投标人发出并告知项目需求、招标投标活动规则和合同条件等信息的要约邀请文件,是项目招标投标活动的主要依据。然而招标信息是以自由文本的形式存在的,因此如何将所需要的招标信息转化为计算机可处理、可读、可理解的结构化形式便成为亟待解决的问题。
发明内容
本发明的目的在于提供一种面向招标文本的信息抽取方法,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种面向招标文本的信息抽取方法,包括如下步骤:
步骤S1:对招标文件进行规范化处理;
步骤S2:根据所需要抽取的信息,建立对应的关键词列表;
步骤S3:逐句读取招标文件的文本内容,使用jieba分词逐句对招标文件的文本进行分词与标注词性处理;将分词结果进行存储,作为后续抽取操作的输入数据,完成预处理;
步骤S4:通过调用预设信息抽取模块,根据目标招标信息,对预处理过的文本采用对应匹配抽取方式进行对应的招标信息抽取操作,获取抽取结果。
在本发明一实施例中,在所述步骤S1中,还包括如下过程:
步骤S11:从本地的招标文件中读取文本;
步骤S12:查找文本中所有的回车符和空行,将文本所有的回车符使用句号代替,将文本中的空行删除;
步骤S13:将规范化处理后的文本进行存储。
在本发明一实施例中,在所述步骤S2中,所述关键词列表的格式如下:
Keyword_list=['招标内容','项目名称','项目编号','接受投标时间','采购人名称','投标截止及开标时间','投标地点及开标地点','联系电话采购中心地址','邮政编码','项目负责人','公告期限','联系电话','招标公告','项目联系人','项目联系电话','采购单位联系方式','采购单位','联系方式','代理机构联系方式','代理机构','代理机构联系人','代理机构联系地址','预算金额','招标文件售价','招标文件获取方式','投标截止时间','开标时间','开标地点','项目联系方式','资格要求','地点','最高投标限价'。
在本发明一实施例中,在所述步骤S3中,根据所述关键词列表建立词典,并将词典加入jieba分词,按照如下步骤对已经规范化的文本采用概率语言模型算法进行分词处理:
步骤S31:引入jieba分词包;
步骤S32:逐句读取规范化的招标文件;
步骤S33:采用Python的内置函数split()函数通过指定分隔符对字符串进行切片,且指定分配符采用句号,将文本切片成以句号为单位的文本;
步骤S34:利用jieba的add_word()函数将Keyword_list中的词加入到jieba的内置词典中,并动态修改词典;
步骤S35:对句子进行分词,调用jieba.cut对句子进行分词处理,返回一个一个可迭代的generator,使用for循环来获得分词后得到的每一个词语。
在本发明一实施例中,在所述步骤S4中,所要抽取的招标信息包括:项目名称抽取、项目编号抽取、联系电话抽取、相关时间信息抽取、项目负责人与项目联系人抽取。
在本发明一实施例中,所述项目名称抽取按照如下步骤实现:
步骤S411:输入分词结果,匹配找到包括“项目名称”的句子;
步骤S412:通过采用stanfordcorenlp句法分析方法,对上述句子进行句法分析;
步骤S413:在句法分析结果返回的list中,查找包括“项目”或者“服务项目”的元素,并往前回溯元素,直到查找的元素的父节点不包括“项目”或者“服务项目”的元素;若超过预设阀值,则令第10个词为项目名字的起始;
步骤S414:迭代返回,即为项目名称。
在本发明一实施例中,所述项目编号抽取按照如下步骤实现:
步骤S421:输入分词结果,匹配找到含有“项目编号”的句子;
步骤S422:匹配正则表达式;
r1=r’[A-Z][A-Z0-9\-\/]+’
projectNum=re.search(r1,file,re.M|re.I)
步骤S423:保存匹配得到的字符串。
在本发明一实施例中,所述联系电话抽取按照如下步骤实现:
步骤S431:读取招标文件文本,逐句对文本进行分句处理;
步骤S432:得到分句处理的结果,循环查找是否含有“联系电话”或者“项目联系电话”的关键词;
步骤S433:若返回的结果为空,重复步骤S432以及步骤S433;若是返回的结果不为空,则使用re.findall对该句子进行正则匹配:
r2=r'([1-9]\d{7}|\d{3}-\d{8}|\d{4}-\d{7})
projectPho=re.findall(r2,file,re.M|re.I)。
在本发明一实施例中,所述相关时间信息抽取包括:“投标截止时间”抽取和“开标时间”抽取,并按照如下步骤实现:
步骤S441:读取招标文件文本,逐句对文本进行分词处理;
步骤S442:得到分词处理的结果,list2=pseg.cut(line);
步骤S443:构造正则表达式,时间的正则表达式为:
r4=r'([0-9]{4}年[0-1]?[0-9]{1}月[0-3]?[0-9]{1}日[]{0,2}[0-5]?[0-9]{1}:[0-5]?[0-9]{1})|[0-9]{4}年[0-1]?[0-9]{1}月[0-3]?[0-9]{1}日|[0-9]{4}-[0-1]?[0-9]{1}-[0-3]?[0-9]{1}[]{0,2}[0-5]?[0-9]{1}:[0-5]?[0-9]{1}|[0-9]{4}-[0-1]?[0-9]{1}-[0-3]?[0-9]{1}|[0-9]{4}/[0-1]?[0-9]{1}/[0-3]?[0-9]{1}[]{0,2}[0-5]?[0-9]{1}:[0-5]?[0-9]{1}|[0-9]{4}/[0-1]?[0-9]{1}/[0-3]?[0-9]{1}'
projectTim=re.findall(r4,file,re.M|re.I)
步骤S444:在得到不为空的结果的句子的分词结果进行查找find,判断该时间是“投标截止时间”或者“开标时间”。
在本发明一实施例中,所述项目负责人与项目联系人抽取按照如下步骤实现:
步骤S451:下载安装JDK 1.8及以上版本,下载Stanford CoreNLP文件,解压,下载中文的模型jar文件,放到stanford-corenlp-full-2016-10-31根目录下;
步骤S452:在本地安装Stanford CoreNLP模型,pip install stanfordcorenlp;
步骤S453:在程序中使用import命令将包引入程序中,调用命名实体识别方法nlp.ner(sentence);
步骤S454:查找返回的结果list中元素的第二个元组的值为‘person’,此时即找到了人名;
步骤S455:在得到不为空的结果的句子的分词结果进行查找find,判断该人名是“项目负责人”或者“项目联系人”。
相较于现有技术,本发明具有以下有益效果:本发明提出的一种面向招标文本的信息抽取方法,利用自然语言处理领域的技术实现对招标文本中特定信息进行抽取并将获得的信息以结构化的形式给予描述。通过对招标文本的信息抽取为招标信息的提取提供更有力的获取工具。
附图说明
图1为本发明一实施例中信息抽取流程图。
图2为本发明一实施例中文本规范化的流程图。
图3为本发明一实施例中预处理流程的流程图。
图4为本发明一实施例中项目名称抽取流程图。
图5为本发明一实施例中项目编号抽取流程图。
图6为本发明一实施例中联系电话抽取流程图。
图7为本发明一实施例中一抽取实例示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明一种面向招标文本的信息抽取方法,利用自然语言处理领域的技术实现对招标文本中项目名称、项目联系人、招投标时间等特定信息进行抽取并将获得的信息以结构化的形式给予描述,通过对招标文本的信息抽取为招标信息的提取提供更有力的获取工具。
在本实施例中,图1给出了面向招标文本信息抽取的流程图,原始的招标文本通过一系列自然语言的处理,最终得到所需要抽取的信息。随着行业的发展,招标文本逐渐形成了区别于其他文本的特点。
1)招标文本具有很强的领域特性,包含大量的专业术语和领域惯用语。
2)招标文本具有固定的结构,从项目编号、项目负责人、项目联系方式到招投标时间等书写格式都较为固定。
进一步的,通过对招标文本的特点进行分析,在其基础上提出了招标信息抽取策略并确定了招标信息抽取流程。
在本实施例中,原始的招标文本是比较不规范的文本信息,并没有形成完整的句子,然而对文本进行处理的基础是对文本的语句进行处理,因此需要对原始的招标文本进行规范化处理。在规范化处理时,将文本以回车换行的位置代替成句号,方便之后对文本的一系列处理。
进一步的,建立关键词列表。在对文本进行预处理前,根据所需要抽取的信息,例如项目名称、项目联系人等,建立相应的关键词列表。这项操作是为了之后对文本进行分词时,在分词中添加用户自定义词典,得到所需要的分词结果。
进一步的,预处理。逐句读取文本的内容,并使用jieba分词逐句对文本进行分词、标注词性等处理。将分词结果进行存储,作为后续抽取相应信息的输入数据。
进一步的,调用不同的信息抽取模块。根据所需要得到的招标信息,对预处理过的文本采用不同模式匹配方法进行相应的提取。
在本实施例中,如图2所示,为文本规范化的流程图。根据招标文本的特点,将文本从特定的书写格式转化为正常的语句,对文本进行规范化处理。
1)从本地的招标文本中读取文本;
2)查找文本中所有的回车符和空行,对文本所有的回车符使用句号代替,
将文本中的空行删除;
3)将规范化处理后的文本进行存储。
在本实施例中,招标文本对于招标信息有着特定的领域词汇,针对需要抽取的文本,建立此表。普遍的招标信息包括:项目名称、招标内容、项目编号、项目负责人、联系方式、接受投标时间等。
Keyword_list=['招标内容','项目名称','项目编号','接受投标时间','采购人名称','投标截止及开标时间','投标地点及开标地点','联系电话采购中心地址','邮政编码','项目负责人','公告期限','联系电话','招标公告','项目联系人','项目联系电话','采购单位联系方式','采购单位','联系方式','代理机构联系方式','代理机构','代理机构联系人','代理机构联系地址','预算金额','招标文件售价','招标文件获取方式','投标截止时间','开标时间','开标地点','项目联系方式','资格要求','地点','最高投标限价'。
在本实施例中,如图3所示,根据关键词列表建立词典,并将词典加入jieba分词,对已经规范化的文本进行分词处理。中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。结巴分词是国内程序员用Python开发的一个中文分词模块,采用概率语言模型算法实现的分词功能。
1)在程序中引入jieba分词的包;
Import jieba
Import jieba.posseg as pseg
2)逐句读取规范化的招标文件;
3)使用Python的内置函数split()函数通过指定分隔符即句号对字符串进行切片,将文本切片成以句号为单位的文本。
4)利用jieba的add_word()函数将Keyword_list中的词加入到jieba的内置词典中,在程序中动态修改词典;
5)对句子进行分词,调用jieba.cut方法对句子进行分词处理,返回一个一个可迭代的generator,使用for循环来获得分词后得到的每一个词语(unicode)。
在本实施例中,所要抽取的招标信息包括:项目名称抽取、项目编号抽取、联系电话抽取、相关时间信息抽取、项目负责人抽取。
在本实施例中,如图4所示,为项目名称抽取流程图,采用模式匹配的方式对项目名称进行抽取。通过观察和统计,项目的名称一般不超过10个词,则将阀值设置为10。并且项目名称一般是以“项目”或者“服务项目”结尾,词与词之间都是定语修饰的关系。
1)输入分词结果,匹配找到含有“项目名称”的句子;
2)使用stanfordcorenlp的句法分析,对上述句子进行句法分析;
3)在句法分析结果返回的list中,查找含有“项目”或者“服务项目”的元素,往前回溯元素,直到查找的元素的父节点不为“项目”或者“服务项目”的元素,若超过阀值就认定第10个词为项目名字的起始;
4)迭代返回,即为项目的名称。
在本实施例中,如图5所示为项目编号抽取的流程图。项目编号由于其具有较好的结构,所以可以采用模式匹配进行获得。项目标号抽取采用的是正则匹配的模式匹配策略,通过统计和归纳,可以观察得到编号的组成是有规律的,以大写字母开头,并且包含数字、大学字母,_和/。建立相应的正则表达式,利用正则去匹配句子中的编号。
1)输入分词结果,匹配找到含有“项目编号”的句子;
2)匹配正则表达式;
r1=r’[A-Z][A-Z0-9\-\/]+’
projectNum=re.search(r1,file,re.M|re.I)
3)保存匹配得到的字符串。
在本实施例中,如图6所示为联系电话抽取流程。联系电话是文本中最为结构化的数据,对其抽取最先考虑到的就是使用正则表达式进行匹配。即使采用模式匹配,通过构造表达电话号码的正则表达式进行信息提取。
1、读取文本,逐句对文本进行分句处理;
2、得到分句处理的结果,循环查找是否含有“联系电话”或者“项目联系电话”的关键词;
3、若是返回的结果不为空,使用re.findall对该句子进行正则匹配;
r2=r'([1-9]\d{7}|\d{3}-\d{8}|\d{4}-\d{7})
projectPho=re.findall(r2,file,re.M|re.I)
4、若返回的结果为空,重复2、3。
在本实施例中,招标文件中较为重要的时间信息为“投标截止时间”和“开标时间”,可以对着两个重要信息同时进行抽取。招标文件为官方正式文件,所以对时间的表达也是严格遵守规范。抽取这两个时间的正则表达式相同,因此可以同时进行。
1、读取文本、逐句对文本进行分词处理;
2、得到分词处理的结果,list2=pseg.cut(line)
3、构造正则表达式,时间的正则表达式为:
r4=r'([0-9]{4}年[0-1]?[0-9]{1}月[0-3]?[0-9]{1}日[]{0,2}[0-5]?[0-9]{1}:[0-5]?[0-9]{1})|[0-9]{4}年[0-1]?[0-9]{1}月[0-3]?[0-9]{1}日|[0-9]{4}-[0-1]?[0-9]{1}-[0-3]?[0-9]{1}[]{0,2}[0-5]?[0-9]{1}:[0-5]?[0-9]{1}|[0-9]{4}-[0-1]?[0-9]{1}-[0-3]?[0-9]{1}|[0-9]{4}/[0-1]?[0-9]{1}/[0-3]?[0-9]{1}[]{0,2}[0-5]?[0-9]{1}:[0-5]?[0-9]{1}|[0-9]{4}/[0-1]?[0-9]{1}/[0-3]?[0-9]{1}'
projectTim=re.findall(r4,file,re.M|re.I)
4、在得到不为空的结果的句子的分词结果进行查找find,判断该时间是“投标截止时间”或者“开标时间”。
在本实施例中,对项目负责人和项目联系人的信息抽取方法采用的是命名实体识别,识别出文本中的人名,进一步判断该人名是“项目负责人”还是“项目联系人”。对文本进行命名实体识别采用stanford的自然语言处理的一个开源工具,Stanford CoreNLP。
1、下载安装JDK 1.8及以上版本,下载Stanford CoreNLP文件,解压,处理中文还需要下载中文的模型jar文件,放到stanford-corenlp-full-2016-10-31根目录下;
2、在本地安装Stanford CoreNLP模型,pip install stanfordcorenlp;
3、在程序中使用import命令将包引入程序中,调用命名实体识别方法nlp.ner(sentence)
4、查找返回的结果list中元素的第二个元组的值为‘person’,此时即找到了人名;
5、在得到不为空的结果的句子的分词结果进行查找find,判断该人名是“项目负责人”或者“项目联系人”。
在本实施例中,通过上述步骤,采用自然语言处理技术结合模式匹配的方法实现对招标文本的招标信息进行抽取,具体信息为“项目名称”、“项目编号”、“项目联系电话”、“投标截止时间”、“开标时间时间”、“项目联系人”和“项目负责人”等信息的抽取。
进一步的,为了让本领域技术人员理解本发明的技术方案,下面结合具体实例进行说明。在本实施例中,输入的文本为随机挑选的一个招标文本,作为程序的输入,于是得到如图7所示的抽取结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (10)

1.一种面向招标文本的信息抽取方法,其特征在于,包括如下步骤:
步骤S1:对招标文件进行规范化处理;
步骤S2:根据所需要抽取的信息,建立对应的关键词列表;
步骤S3:逐句读取招标文件的文本内容,使用jieba分词逐句对招标文件的文本进行分词与标注词性处理;将分词结果进行存储,作为后续抽取操作的输入数据,完成预处理;
步骤S4:通过调用预设信息抽取模块,根据目标招标信息,对预处理过的文本采用对应匹配抽取方式进行对应的招标信息抽取操作,获取抽取结果。
2.根据权利要求1所述的一种面向招标文本的信息抽取方法,其特征在于,在所述步骤S1中,还包括如下过程:
步骤S11:从本地的招标文件中读取文本;
步骤S12:查找文本中所有的回车符和空行,将文本所有的回车符使用句号代替,将文本中的空行删除;
步骤S13:将规范化处理后的文本进行存储。
3.根据权利要求1所述的一种面向招标文本的信息抽取方法,其特征在于,在所述步骤S2中,所述关键词列表的格式如下:
Keyword_list=['招标内容','项目名称','项目编号','接受投标时间','采购人名称','投标截止及开标时间','投标地点及开标地点','联系电话采购中心地址','邮政编码','项目负责人','公告期限','联系电话','招标公告','项目联系人','项目联系电话','采购单位联系方式','采购单位','联系方式','代理机构联系方式','代理机构','代理机构联系人','代理机构联系地址','预算金额','招标文件售价','招标文件获取方式','投标截止时间','开标时间','开标地点','项目联系方式','资格要求','地点','最高投标限价'。
4.根据权利要求3所述的一种面向招标文本的信息抽取方法,其特征在于,在所述步骤S3中,根据所述关键词列表建立词典,并将词典加入jieba分词,按照如下步骤对已经规范化的文本采用概率语言模型算法进行分词处理:
步骤S31:引入jieba分词包;
步骤S32:逐句读取规范化的招标文件;
步骤S33:采用Python的内置函数split()函数通过指定分隔符对字符串进行切片,且指定分配符采用句号,将文本切片成以句号为单位的文本;
步骤S34:利用jieba的add_word()函数将Keyword_list中的词加入到jieba的内置词典中,并动态修改词典;
步骤S35:对句子进行分词,调用jieba.cut对句子进行分词处理,返回一个一个可迭代的generator,使用for循环来获得分词后得到的每一个词语。
5.根据权利要求1所述的一种面向招标文本的信息抽取方法,其特征在于,在所述步骤S4中,所要抽取的招标信息包括:项目名称抽取、项目编号抽取、联系电话抽取、相关时间信息抽取、项目负责人与项目联系人抽取。
6.根据权利要求5所述的一种面向招标文本的信息抽取方法,其特征在于,所述项目名称抽取按照如下步骤实现:
步骤S411:输入分词结果,匹配找到包括“项目名称”的句子;
步骤S412:通过采用stanfordcorenlp句法分析方法,对上述句子进行句法分析;
步骤S413:在句法分析结果返回的list中,查找包括“项目”或者“服务项目”的元素,并往前回溯元素,直到查找的元素的父节点不包括“项目”或者“服务项目”的元素;若超过预设阀值,则令第10个词为项目名字的起始;
步骤S414:迭代返回,即为项目名称。
7.根据权利要求5所述的一种面向招标文本的信息抽取方法,其特征在于,所述项目编号抽取按照如下步骤实现:
步骤S421:输入分词结果,匹配找到含有“项目编号”的句子;
步骤S422:匹配正则表达式;
r1=r’[A-Z][A-Z0-9\-\/]+’
projectNum=re.search(r1,file,re.M|re.I)
步骤S423:保存匹配得到的字符串。
8.根据权利要求5所述的一种面向招标文本的信息抽取方法,其特征在于,所述联系电话抽取按照如下步骤实现:
步骤S431:读取招标文件文本,逐句对文本进行分句处理;
步骤S432:得到分句处理的结果,循环查找是否含有“联系电话”或者“项目联系电话”的关键词;
步骤S433:若返回的结果为空,重复步骤S432以及步骤S433;若是返回的结果不为空,则使用re.findall对该句子进行正则匹配:
r2=r'([1-9]\d{7}|\d{3}-\d{8}|\d{4}-\d{7})
projectPho=re.findall(r2,file,re.M|re.I)。
9.根据权利要求5所述的一种面向招标文本的信息抽取方法,其特征在于,所述相关时间信息抽取包括:“投标截止时间”抽取和“开标时间”抽取,并按照如下步骤实现:
步骤S441:读取招标文件文本,逐句对文本进行分词处理;
步骤S442:得到分词处理的结果,list2=pseg.cut(line);
步骤S443:构造正则表达式,时间的正则表达式为:
r4=r'([0-9]{4}年[0-1]?[0-9]{1}月[0-3]?[0-9]{1}日[]{0,2}[0-5]?[0-9]{1}:[0-5]?[0-9]{1})|[0-9]{4}年[0-1]?[0-9]{1}月[0-3]?[0-9]{1}日|[0-9]{4}-[0-1]?[0-9]{1}-[0-3]?[0-9]{1}[]{0,2}[0-5]?[0-9]{1}:[0-5]?[0-9]{1}|[0-9]{4}-[0-1]?[0-9]{1}-[0-3]?[0-9]{1}|[0-9]{4}/[0-1]?[0-9]{1}/[0-3]?[0-9]{1}[]{0,2}[0-5]?[0-9]{1}:[0-5]?[0-9]{1}|[0-9]{4}/[0-1]?[0-9]{1}/[0-3]?[0-9]{1}'
projectTim=re.findall(r4,file,re.M|re.I)
步骤S444:在得到不为空的结果的句子的分词结果进行查找find,判断该时间是“投标截止时间”或者“开标时间”。
10.根据权利要求5所述的一种面向招标文本的信息抽取方法,其特征在于,所述项目负责人与项目联系人抽取按照如下步骤实现:
步骤S451:下载安装JDK 1.8及以上版本,下载Stanford CoreNLP文件,解压,下载中文的模型jar文件,放到stanford-corenlp-full-2016-10-31根目录下;
步骤S452:在本地安装Stanford CoreNLP模型,pip install stanfordcorenlp;
步骤S453:在程序中使用import命令将包引入程序中,调用命名实体识别方法nlp.ner(sentence);
步骤S454:查找返回的结果list中元素的第二个元组的值为‘person’,此时即找到了人名;
步骤S455:在得到不为空的结果的句子的分词结果进行查找find,判断该人名是“项目负责人”或者“项目联系人”。
CN201810513564.3A 2018-05-25 2018-05-25 一种面向招标文本的信息抽取方法 Pending CN108874771A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810513564.3A CN108874771A (zh) 2018-05-25 2018-05-25 一种面向招标文本的信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810513564.3A CN108874771A (zh) 2018-05-25 2018-05-25 一种面向招标文本的信息抽取方法

Publications (1)

Publication Number Publication Date
CN108874771A true CN108874771A (zh) 2018-11-23

Family

ID=64333893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810513564.3A Pending CN108874771A (zh) 2018-05-25 2018-05-25 一种面向招标文本的信息抽取方法

Country Status (1)

Country Link
CN (1) CN108874771A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766416A (zh) * 2018-11-27 2019-05-17 中国电力科学研究院有限公司 一种新能源政策信息抽取方法及系统
CN110008458A (zh) * 2019-04-11 2019-07-12 国网河北省电力有限公司物资分公司 电力招投标文件的结构化编制方法
CN110362596A (zh) * 2019-07-04 2019-10-22 上海润吧信息技术有限公司 一种文本抽取信息结构化数据处理的控制方法及装置
CN111191130A (zh) * 2019-12-30 2020-05-22 泰康保险集团股份有限公司 信息抽取方法、装置、设备及计算机可读存储介质
CN111415127A (zh) * 2019-01-04 2020-07-14 阿里巴巴集团控股有限公司 一种招标变更方法及装置
CN111428497A (zh) * 2020-03-31 2020-07-17 卓尔智联(武汉)研究院有限公司 一种自动抽取出资信息的方法、装置及设备
CN111611794A (zh) * 2020-05-18 2020-09-01 众能联合数字技术有限公司 一种基于行业规则和TextCNN模型的通用工程信息提取的方法
CN112016272A (zh) * 2019-10-29 2020-12-01 河南拓普计算机网络工程有限公司 招投标信息评审专家识别系统及方法
CN112035594A (zh) * 2019-10-29 2020-12-04 河南拓普计算机网络工程有限公司 招投标信息抽取结果筛选系统及方法
CN112597353A (zh) * 2020-12-18 2021-04-02 武汉大学 一种文本信息自动提取方法
CN114580362A (zh) * 2022-05-09 2022-06-03 四川野马科技有限公司 一种回标文件生成系统及其方法
CN115203413A (zh) * 2022-07-11 2022-10-18 深圳市合纵天下信息科技有限公司 基于公开信息执行项目数据处理方法及系统
CN115544213A (zh) * 2022-11-28 2022-12-30 上海朝阳永续信息技术股份有限公司 获取文本中的信息的方法、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3429612B2 (ja) * 1995-09-28 2003-07-22 沖電気工業株式会社 辞書登録装置及び機械翻訳装置
CN104182429A (zh) * 2013-05-28 2014-12-03 腾讯科技(深圳)有限公司 网页处理方法和终端
CN106250456A (zh) * 2016-07-28 2016-12-21 浪潮软件集团有限公司 一种中标公告的抽取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3429612B2 (ja) * 1995-09-28 2003-07-22 沖電気工業株式会社 辞書登録装置及び機械翻訳装置
CN104182429A (zh) * 2013-05-28 2014-12-03 腾讯科技(深圳)有限公司 网页处理方法和终端
CN106250456A (zh) * 2016-07-28 2016-12-21 浪潮软件集团有限公司 一种中标公告的抽取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SONOFELICE: "使用Standford coreNLP进行中文命名实体识别", 《HTTPS://WWW.CNBLOGS.COM/SONOFELICE/P/8677001.HTML》 *
冬日新雨: "Python中文文本信息抽取中常见的正则表达式", 《HTTPS://BLOG.CSDN.NET/DONGRIXINYU/ARTICLE/DETAILS/77919075》 *
李保利: "信息抽取技术综述", 《计算机工程与应用》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766416A (zh) * 2018-11-27 2019-05-17 中国电力科学研究院有限公司 一种新能源政策信息抽取方法及系统
CN111415127B (zh) * 2019-01-04 2023-06-20 阿里巴巴集团控股有限公司 一种招标变更方法及装置
CN111415127A (zh) * 2019-01-04 2020-07-14 阿里巴巴集团控股有限公司 一种招标变更方法及装置
CN110008458A (zh) * 2019-04-11 2019-07-12 国网河北省电力有限公司物资分公司 电力招投标文件的结构化编制方法
CN110008458B (zh) * 2019-04-11 2023-01-03 国网河北省电力有限公司物资分公司 电力招投标文件的结构化编制方法
CN110362596A (zh) * 2019-07-04 2019-10-22 上海润吧信息技术有限公司 一种文本抽取信息结构化数据处理的控制方法及装置
CN112035594A (zh) * 2019-10-29 2020-12-04 河南拓普计算机网络工程有限公司 招投标信息抽取结果筛选系统及方法
CN112016272A (zh) * 2019-10-29 2020-12-01 河南拓普计算机网络工程有限公司 招投标信息评审专家识别系统及方法
CN111191130A (zh) * 2019-12-30 2020-05-22 泰康保险集团股份有限公司 信息抽取方法、装置、设备及计算机可读存储介质
CN111428497A (zh) * 2020-03-31 2020-07-17 卓尔智联(武汉)研究院有限公司 一种自动抽取出资信息的方法、装置及设备
CN111611794A (zh) * 2020-05-18 2020-09-01 众能联合数字技术有限公司 一种基于行业规则和TextCNN模型的通用工程信息提取的方法
CN112597353A (zh) * 2020-12-18 2021-04-02 武汉大学 一种文本信息自动提取方法
CN112597353B (zh) * 2020-12-18 2024-03-08 武汉大学 一种文本信息自动提取方法
CN114580362A (zh) * 2022-05-09 2022-06-03 四川野马科技有限公司 一种回标文件生成系统及其方法
CN115203413A (zh) * 2022-07-11 2022-10-18 深圳市合纵天下信息科技有限公司 基于公开信息执行项目数据处理方法及系统
CN115544213A (zh) * 2022-11-28 2022-12-30 上海朝阳永续信息技术股份有限公司 获取文本中的信息的方法、设备和存储介质

Similar Documents

Publication Publication Date Title
CN108874771A (zh) 一种面向招标文本的信息抽取方法
US11238232B2 (en) Written-modality prosody subsystem in a natural language understanding (NLU) framework
CN100428241C (zh) 用于定义和翻译聊天缩略语的系统和方法
Agarwal et al. How much noise is too much: A study in automatic text classification
US9002696B2 (en) Data security system for natural language translation
CN103020140B (zh) 一种对互联网用户评论内容自动过滤的方法和装置
US20060047500A1 (en) Named entity recognition using compiler methods
CN107967250B (zh) 一种信息处理方法及装置
CN112766000B (zh) 基于预训练模型的机器翻译方法及系统
CN111966792B (zh) 一种文本处理方法、装置、电子设备及可读存储介质
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN110991179A (zh) 基于电力专业术语的语义分析方法
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
US20060047690A1 (en) Integration of Flex and Yacc into a linguistic services platform for named entity recognition
CN108009160A (zh) 含有命名实体的语料翻译方法、装置、电子设备及存储介质
CN105335356B (zh) 一种面向语义识别的纸质翻译方法及翻译笔装置
US20210319481A1 (en) System and method for summerization of customer interaction
CN116628328A (zh) 一种基于功能语义和结构交互的Web API推荐方法及装置
US8041556B2 (en) Chinese to english translation tool
CN114528840A (zh) 融合上下文信息的中文实体识别方法、终端及存储介质
Nooralahzadeh et al. Part of speech tagging for french social media data
CN109213988B (zh) 基于N-gram模型的弹幕主题提取方法、介质、设备及系统
CN105631032A (zh) 基于抽象语义推荐的问答知识库建立方法、装置及系统
CN112487833A (zh) 一种机器翻译方法及其翻译系统
CN107229611A (zh) 一种基于词对齐的历史典籍分词方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123