CN113515939A - 一种勘察报告文本关键信息提取系统和提取方法 - Google Patents

一种勘察报告文本关键信息提取系统和提取方法 Download PDF

Info

Publication number
CN113515939A
CN113515939A CN202110459258.8A CN202110459258A CN113515939A CN 113515939 A CN113515939 A CN 113515939A CN 202110459258 A CN202110459258 A CN 202110459258A CN 113515939 A CN113515939 A CN 113515939A
Authority
CN
China
Prior art keywords
text
word
idf
module
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110459258.8A
Other languages
English (en)
Other versions
CN113515939B (zh
Inventor
何敏
徐永辉
朱记伟
赵钦
姚旭豪
王跃祺
王妥
齐程程
季文静
任姿徉
陈阳凤
包磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110459258.8A priority Critical patent/CN113515939B/zh
Publication of CN113515939A publication Critical patent/CN113515939A/zh
Application granted granted Critical
Publication of CN113515939B publication Critical patent/CN113515939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种勘察报告文本关键信息提取系统,包括依次电信号连接的文本输入模块、文本预处理模块、TF‑IDF计算模块、文本信息改进模块、关键词输出模块以及查找定位关键信息模块。本发明的一种勘察报告文本关键信息提取系统,对现有TF‑IDF算法进行优化使其准确度大大提高,实现了勘察报告规范文本的关键信息自动输出。本发明还公开了一种勘察报告文本关键信息提取方法。

Description

一种勘察报告文本关键信息提取系统和提取方法
技术领域
本发明属于勘察报告关键信息提取技术领域,涉及一种勘察报告文本关键信息提取系统,本发明还涉及一种勘察报告文本关键信息提取方法。
背景技术
随着我国土木建筑行业的快速发展,出现了工程项目参与单位多、项目地点分散、建设周期长等特点,使得在项目建设过程中,管理者对管理信息的获取和分析存在诸多困难。对于项目管理者而言,文字信息的表达障碍,数量种类繁多和阅读遗漏问题常常导致建设过程中信息的可理解性下降,难以清晰地表达工程实际情况以及各种复杂信息的动态变化。加之随着各种各样形态各异的建筑物出现,相应的出现了许多规范用以保证建筑物的安全性和实用性等。导致了本就信息繁多的建筑行业规范条目更多,这就使得建筑行业从业者在实际工作中查询和使用规范变得相当麻烦。因此如何通过分析各种规范条目的特点和内在规律使得项目管理者能够便捷清晰的获得相关信息就变的势在必行了。
近年来,随着信息可视化技术的出现,枯燥乏味的数据能够变成简明直观的图形、图像,帮助管理者从各个抽象数据集中迅速提取出有价值的项目管理信息,探寻不同数据集之间的联系。但是与之相关的基础信息提取的算法却不多且不能够完全体现使用者的想法。TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。但TF-IDF算法也存在一定的缺点,例如对同一个实体含义的同义化表述不能做到归一化处理,同时未考虑到短语或词语所处的位置信息,比如我们通常认为段尾的信息的重要度一般高于段首或段中等。
发明内容
本发明的目的是提供一种勘察报告文本关键信息提取系统,对现有TF-IDF算法进行优化使其准确度大大提高,实现了勘察报告规范文本的关键信息自动输出。
本发明所采用的技术方案是,一种勘察报告文本关键信息提取系统,包括依次电信号连接的文本输入模块、文本预处理模块、TF-IDF计算模块、文本信息改进模块、关键词输出模块以及查找定位关键信息模块。
本发明第一种技术方案的特征还在于,
文本输入模块用于将勘察报告文本中的文字进行提取,并以.txt格式进行保存,然后去除图表、目录、公式、格式字符,同时将勘察报告以序号、标题、内容格式进行存储,并以.csv文档保存;文本预处理模块用于对经文本输入模块的文本进行预处理降噪;TF-IDF计算模块用于对经文本预处理模块所接收的信息通过TF-IDF算法计算,得到初步的候选关键词;文本信息改进模块用于对经TF-IDF计算模块所得到的候选关键词进一步进行优化,得到优化后的关键词;关键词输出模块用于对文本信息改进模块得到的关键词取前X个进行输出;查找定位关键信息模块用于对经关键词输出模块所得到的关键词通过相关程序语言和字符串搜索技术查找定位到所需要的关键信息。
本发明采用的另一种技术方案是,一种勘察报告文本关键信息提取方法,采用上述的一种勘察报告文本关键信息提取系统,具体按照如下步骤实施:
步骤1,采用文本输入模块进行文本输入;
步骤2,采用文本预处理模块对输入的文本进行预处理降噪,得到候选词;
步骤3,使用TF-IDF计算模块对经过预处理的文本进行计算,得到TF-IDF值排名前N的关键词作为候选关键词;
步骤4,采用文本信息改进模块对TF-IDF计算模块计算得到的候选关键词进行优化,获得候选关键词新的TF-IDF值;
步骤5,采用关键词输出模块输出关键词;
步骤6,通过查找定位关键信息模块查找定位关键信息。
步骤1具体为:
步骤1.1,将需要处理的勘察报告中的文字进行抓取并以.txt格式进行保存;
步骤1.2,去除经步骤1保存的.txt格式文本中的图表、目录、公式、格式字符,然后将勘察报告以序号、标题、内容的形式以.scv文档保存。
步骤2具体为:
步骤2.1、利用Python语言中的Jieba分词库进行勘察报告分词,根据勘察报告特点人为编写自定义词典,根据Jieba分词支持自定义分词的特点,通过Python语言嵌套进自定义词典进行辅助分词;
自定义词典包括一下词:详细勘察、单栋高层建筑、勘探点、地基均匀性、密集、高层建筑群、适当减少、每栋建筑物、至少应有、控制性勘探点、平面布设、高层建筑、平面形状、荷载的分布情况、层数、荷载、体型变异较大、布设、勘察等级;
步骤2.2、对经步骤2.1分词的勘察报告的每个词进行词性标注,词性为:名词、动词、介词、形容词、副词、标题词、自定义词典和专有名词和字符串,专有名词指设备名称、地名、实验名称;标题词为文本标题位置的词汇;
步骤2.3、选择哈尔滨工业大学停用词库,将勘察报告中的词汇与停用词库的词汇进行对比,剔除勘察报告中的停用词汇。
步骤3具体为:
步骤3.1、将经步骤2去除停用词之后的勘察报告中的词只保留动词、名词、标题词、自定义词典、专有名词和字符串,将其他词性的词汇进行剔除,得到的词作为候选词,根据公式(1)计算所有候选词的词频TF;
Figure BDA0003041642020000041
其中,TF表示当前词的词频,n表示当前词在勘察报告中的数量,∑n表示勘察报告中所有词的数量;
则,将当前词的词频矩阵tf为:[p][q][TF],表示第p个勘察报告文档中第q个词的词频值为TF;
步骤3.2、根据公式(2)计算所有候选词的逆文档频率IDF:
Figure BDA0003041642020000042
其中,IDF表示当前词逆文档频率,C表示语料库中勘察报告的总数量,df表示包含当前词的文档数量占所有文档数量的频率;
则,将当前词的逆文档频率矩阵idf为:[p][q][IDF],表示第p个勘察报告文档中第q个词的逆文档频率值为IDF;
步骤3.3、计算出每个词的TF-IDF矩阵tfidf表示为:
tfidf=tf×idf
然后将矩阵tfidf除以矩阵tfidf的L2范数来进行矩阵归一化如公式(3),得出TF-IDF值,然后取TF-IDF值排名前N的候选词作为候选关键词:
Figure BDA0003041642020000051
步骤4具体为:
步骤4.1、通过公式(4)计算经步骤3选出的候选关键词中的标题词的权重:
Figure BDA0003041642020000052
其中,weighttitle(wi)表示标题词wi的权重,
Figure BDA0003041642020000053
表示勘察报告j内包含词的总数;
步骤4.2、通过公式(5)依据词汇的长度计算该词汇的权重:
Figure BDA0003041642020000054
其中,weightlen(wi)表示词wi的长度权重,len(wi)表示词wi的长度,maxlen表示当前勘察报告中最长词的长度;
步骤4.3、给自定义词典、字符串、名词、动词以及专有名词赋予不同权重weightchar(wi),其中,当词性为自定义词典时weightchar(wi)=1.2,当词性为专有名词时weightchar(wi)=1.0,当词性为字符串时weightchar(wi)=0.8,当词性为名词时weightchar(wi)=0.8,当词性为动词时weightchar(wi)=0.6;
步骤4.4、通过公式(6)对关键词的TF-IDF值进行加权计算得出新的TF-IDF值Y:
Y=tfidf*(1.0*weighttitle(wi)+1.0*weightlen(wi)+1.3*weightchar(wi)) (6)
其中,Y表示当前词的最终TF-IDF值,如果当前词不是标题词,那么weighttitle(wi)=0,如果是标题词按照公式(4)计算weighttitle(wi)。
步骤5具体为:对经步骤4计算的所有词的最终TF-IDF值Y进行由大到小排序,取前X个进行输出,得到关键词。
步骤6具体为:通过编写Python语言程序查找定位出勘察报告文本中相应的关键信息。
本发明的有益效果是:
1)本发明一种勘察报告文本关键信息提取系统,以TF-IDF算法为基础,结合土木建筑工程项目的特点,对算法进行优化,准确度大大提高,实现了勘察报告规范文本的关键信息自动输出,大大节省了相关工程人员查看报告的时间和精力;
2)一种勘察报告文本关键信息提取方法,以TF-IDF算法为基础,实现了勘察报告规范文本的关键信息自动输出,为信息可视化和工程项目相关人员核查报告正确提供了更加方便的途径。
附图说明
图1是本发明一种勘察报告文本关键信息提取系统的系统框图;
图2是本发明一种勘察报告文本关键信息提取方法的流程图;
图3是本发明提取的关键词的示意图。
图中,1.文本输入模块,2.文本预处理模块,3.TF-IDF计算模块,4.文本信息改进模块,5.关键词输出模块,6.查找定位关键信息模块;
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种勘察报告文本关键信息提取系统,其结构如图1所示,包括依次电信号连接的文本输入模块1、文本预处理模块2、TF-IDF计算模块3、文本信息改进模块4、关键词输出模块5以及查找定位关键信息模块6。
文本输入模块1用于将勘察报告文本中的文字进行提取,并以.txt格式进行保存,然后去除图表、目录、公式、格式字符,同时将勘察报告以序号、标题、内容格式进行存储,并以.csv文档保存;文本预处理模块2用于对经文本输入模块1的文本进行预处理降噪;TF-IDF计算模块3用于对经文本预处理模块2所接收的信息通过TF-IDF算法计算,得到初步的候选关键词;文本信息改进模块4用于对经TF-IDF计算模块所得到的候选关键词进一步进行优化,得到优化后的关键词;关键词输出模块5用于对文本信息改进模块4得到的关键词取前X个进行输出;查找定位关键信息模块6用于对经关键词输出模块5所得到的关键词通过相关程序语言和字符串搜索技术查找定位到所需要的关键信息。
本发明一种勘察报告文本关键信息提取方法,采用上述的一种勘察报告文本关键信息提取系统,如图2所示,具体按照如下步骤实施:
步骤1,采用文本输入模块1进行文本输入;具体为:
步骤1.1,将文本输入模块1需要处理的勘察报告中的文字进行抓取并以.txt格式进行保存;
步骤1.2,然后去除经步骤1保存的.txt格式文本中的图表、目录、公式、格式字符,然后将勘察报告以序号、标题、内容的形式以.scv文档保存
步骤2,采用文本预处理模块2对输入的文本进行预处理降噪,得到候选词;具体为:
步骤2.1、文本预处理模块2利用Python语言中的Jieba分词库进行勘察报告分词,根据勘察报告特点人为编写自定义词典,根据Jieba分词支持自定义分词的特点,通过Python语言嵌套进自定义词典进行辅助分词;
自定义词典包括一下词:详细勘察、单栋高层建筑、勘探点、地基均匀性、密集、高层建筑群、适当减少、每栋建筑物、至少应有、控制性勘探点、平面布设、高层建筑、平面形状、荷载的分布情况、层数、荷载、体型变异较大、布设、勘察等级;
步骤2.2、对经步骤2.1分词的勘察报告的每个词进行词性标注,词性为:名词、动词、介词、形容词、副词、标题词、自定义词典和专有名词和字符串,专有名词指设备名称、地名、实验名称;标题词为文本标题位置的词汇;
步骤2.3、选择哈尔滨工业大学停用词库,将勘察报告中的词汇与停用词库的词汇进行对比,剔除勘察报告中的停用词汇。
步骤3,使用TF-IDF计算模块3对经过预处理的文本进行计算,得到TF-IDF值排名前N的关键词作为候选关键词;具体为:
步骤3.1、TF-IDF计算模块3将经步骤2去除停用词之后的勘察报告中的词只保留动词、名词、标题词、自定义词典、专有名词和字符串,将其他词性的词汇进行剔除,得到的词作为候选词,根据公式(1)计算所有候选词的词频TF;
Figure BDA0003041642020000081
其中,TF表示当前词的词频,n表示当前词在勘察报告中的数量,∑n表示勘察报告中所有词的数量;
则,将当前词的词频矩阵tf为:[p][q][TF],表示第p个勘察报告文档中第q个词的词频值为TF;
步骤3.2、因为某些词向量的词频虽然不高,但他却是体现文档特征的关键因素,因此需要引出逆文档频率来综合考量词向量的关键程度,因此,根据公式(2)计算所有候选词的逆文档频率IDF:
Figure BDA0003041642020000091
其中,IDF表示当前词逆文档频率,C表示语料库中勘察报告的总数量,df表示包含当前词的文档数量占所有文档数量的频率;
则,将当前词的逆文档频率矩阵idf为:[p][q][IDF],表示第p个勘察报告文档中第q个词的逆文档频率值为IDF;
步骤3.3、计算出每个词的TF-IDF矩阵tfidf表示为:
tfidf=tf×idf
然后将矩阵tfidf除以矩阵tfidf的L2范数来进行矩阵归一化如公式(3),得出TF-IDF值,然后取TF-IDF值排名前N的候选词作为候选关键词:
Figure BDA0003041642020000092
步骤4,采用文本信息改进模块4对TF-IDF计算模块(3)计算得到的候选关键词进行优化,获得候选关键词新的TF-IDF值;具体为:
步骤4.1、文本信息改进模块4通过公式(4)计算经步骤3选出的候选关键词中的标题词的权重:
Figure BDA0003041642020000093
其中,weighttitle(wi)表示标题词wi的权重,
Figure BDA0003041642020000101
表示勘察报告j内包含词的总数;
步骤4.2、通过公式(5)依据词汇的长度计算该词汇的权重:
Figure BDA0003041642020000102
其中,weightlen(wi)表示词wi的长度权重,len(wi)表示词wi的长度,maxlen表示当前勘察报告中最长词的长度;
步骤4.3、给自定义词典、字符串、名词、动词以及专有名词赋予不同权重weightchar(wi),其中,当词性为自定义词典时weightchar(wi)=1.2,当词性为专有名词时weightchar(wi)=1.0,当词性为字符串时weightchar(wi)=0.8,当词性为名词时weightchar(wi)=0.8,当词性为动词时weightchar(wi)=0.6;
步骤4.4、通过公式(6)对关键词的TF-IDF值进行加权计算得出新的TF-IDF值Y:
Y=tfidf*(1.0*weighttitle(wi)+1.0*weightlen(wi)+1.3*weightchar(wi)) (6)
其中,Y表示当前词的最终TF-IDF值,如果当前词不是标题词,那么weighttitle(wi)=0,如果是标题词按照公式(4)计算weighttitle(wi);
步骤5,采用关键词输出模块5输出关键词,具体为:关键词输出模块5对经步骤4计算的所有词的最终TF-IDF值Y进行由大到小排序,取前X个进行输出,得到关键词,如图3所示;
步骤6,通过查找定位关键信息模块6查找定位关键信息,具体为:查找定位关键信息模块6通过编写Python语言程序查找定位出勘察报告文本中相应的关键信息。
本发明进行词性标注和停用词剔除,是因为TF-IDF算法在进行计算的时候不同的词性被作为关键词的概率区别较大,例如名词作为关键词的概率就远高于介词、副词、形容词等修饰性词语,因此在进行关键词计算之前进行词性标注会有利于提取的效率和准确性。至于停用词剔除是因为它并非反映文章主题或对文章的主要表述含义关系不大只是为了语法结构完整以及起到语句通顺的词汇,因此需要剔除此类词汇或短语。
本发明对候选词的TF-IDF值进行重新计算时,考虑因素融合的权重,使其能更大概率的提取出结合勘察要点的关键词,本发明经过对实验结果的多次模拟,确定weighttitle(wi)、weightlen(wi)、weightchar(wi)的权重取值确定为:1.0、1.0、1.3。
本发明以TF-IDF算法为基础,结合土木建筑工程项目的特点,对算法进行优化,准确度大大提高,实现了勘察报告规范文本的关键信息自动输出,大大节省了相关工程人员查看报告的时间和精力。

Claims (9)

1.一种勘察报告文本关键信息提取系统,其特征在于,包括依次电信号连接的文本输入模块(1)、文本预处理模块(2)、TF-IDF计算模块(3)、文本信息改进模块(4)、关键词输出模块(5)以及查找定位关键信息模块(6)。
2.根据权利要求1所述的一种勘察报告文本关键信息提取系统,其特征在于,所述文本输入模块(1)用于将勘察报告文本中的文字进行提取,并以.txt格式进行保存,然后去除图表、目录、公式、格式字符,同时将勘察报告以序号、标题、内容格式进行存储,并以.csv文档保存;所述文本预处理模块(2)用于对经文本输入模块(1)的文本进行预处理降噪;所述TF-IDF计算模块(3)用于对经文本预处理模块(2)所接收的信息通过TF-IDF算法计算,得到初步的候选关键词;所述文本信息改进模块(4)用于对经TF-IDF计算模块所得到的候选关键词进一步进行优化,得到优化后的关键词;所述关键词输出模块(5)用于对文本信息改进模块(4)得到的关键词取前X个进行输出;所述查找定位关键信息模块(6)用于对经关键词输出模块(5)所得到的关键词通过相关程序语言和字符串搜索技术查找定位到所需要的关键信息。
3.一种勘察报告文本关键信息提取方法,其特征在于,采用权利要求1所述的一种勘察报告文本关键信息提取系统,具体按照如下步骤实施:
步骤1,采用文本输入模块(1)进行文本输入;
步骤2,采用文本预处理模块(2)对输入的文本进行预处理降噪,得到候选词;
步骤3,使用TF-IDF计算模块(3)对经过预处理的文本进行计算,得到TF-IDF值排名前N的关键词作为候选关键词;
步骤4,采用文本信息改进模块(4)对TF-IDF计算模块(3)计算得到的候选关键词进行优化,获得候选关键词新的TF-IDF值;
步骤5,采用关键词输出模块(5)输出关键词;
步骤6,通过查找定位关键信息模块(6)查找定位关键信息。
4.根据权利要求3所述的一种勘察报告文本关键信息提取方法,其特征在于,所述步骤1具体为:
步骤1.1,将需要处理的勘察报告中的文字进行抓取并以.txt格式进行保存;
步骤1.2,去除经步骤1保存的.txt格式文本中的图表、目录、公式、格式字符,然后将勘察报告以序号、标题、内容的形式以.scv文档保存。
5.根据权利要求4所述的一种勘察报告文本关键信息提取方法,其特征在于,所述步骤2具体为:
步骤2.1、利用Python语言中的Jieba分词库进行勘察报告分词,根据勘察报告特点人为编写自定义词典,根据Jieba分词支持自定义分词的特点,通过Python语言嵌套进自定义词典进行辅助分词;
所述自定义词典包括一下词:详细勘察、单栋高层建筑、勘探点、地基均匀性、密集、高层建筑群、适当减少、每栋建筑物、至少应有、控制性勘探点、平面布设、高层建筑、平面形状、荷载的分布情况、层数、荷载、体型变异较大、布设、勘察等级;
步骤2.2、对经步骤2.1分词的勘察报告的每个词进行词性标注,词性为:名词、动词、介词、形容词、副词、标题词、自定义词典和专有名词和字符串,所述专有名词指设备名称、地名、实验名称;所述标题词为文本标题位置的词汇;
步骤2.3、选择哈尔滨工业大学停用词库,将勘察报告中的词汇与停用词库的词汇进行对比,剔除勘察报告中的停用词汇。
6.根据权利要求5所述的一种勘察报告文本关键信息提取方法,其特征在于,所述步骤3具体为:
步骤3.1、将经步骤2去除停用词之后的勘察报告中的词只保留动词、名词、标题词、自定义词典、专有名词和字符串,将其他词性的词汇进行剔除,得到的词作为候选词,根据公式(1)计算所有候选词的词频TF;
Figure FDA0003041642010000031
其中,TF表示当前词的词频,n表示当前词在勘察报告中的数量,∑n表示勘察报告中所有词的数量;
则,将当前词的词频矩阵tf为:[p][q][TF],表示第p个勘察报告文档中第q个词的词频值为TF;
步骤3.2、根据公式(2)计算所有候选词的逆文档频率IDF:
Figure FDA0003041642010000032
其中,IDF表示当前词逆文档频率,C表示语料库中勘察报告的总数量,df表示包含当前词的文档数量占所有文档数量的频率;
则,将当前词的逆文档频率矩阵idf为:[p][q][IDF],表示第p个勘察报告文档中第q个词的逆文档频率值为IDF;
步骤3.3、计算出每个词的TF-IDF矩阵tfidf表示为:
tfidf=tf×idf
然后将矩阵tfidf除以矩阵tfidf的L2范数来进行矩阵归一化如公式(3),得出TF-IDF值,然后取TF-IDF值排名前N的候选词作为候选关键词:
Figure FDA0003041642010000041
7.根据权利要求6所述的一种勘察报告文本关键信息提取方法,其特征在于,所述步骤4具体为:
步骤4.1、通过公式(4)计算经步骤3选出的候选关键词中的标题词的权重:
Figure FDA0003041642010000042
其中,weighttitle(wi)表示标题词wi的权重,
Figure FDA0003041642010000043
表示勘察报告j内包含词的总数;
步骤4.2、通过公式(5)依据词汇的长度计算该词汇的权重:
Figure FDA0003041642010000044
其中,weightlen(wi)表示词wi的长度权重,len(wi)表示词wi的长度,maxlen表示当前勘察报告中最长词的长度;
步骤4.3、给自定义词典、字符串、名词、动词以及专有名词赋予不同权重weightchar(wi),其中,当词性为自定义词典时weightchar(wi)=1.2,当词性为专有名词时weightchar(wi)=1.0,当词性为字符串时weightchar(wi)=0.8,当词性为名词时weightchar(wi)=0.8,当词性为动词时weightchar(wi)=0.6;
步骤4.4、通过公式(6)对关键词的TF-IDF值进行加权计算得出新的TF-IDF值Y:
Y=tfidf*(1.0*weighttitle(wi)+1.0*weightlen(wi)+1.3*weightchar(wi)) (6)
其中,Y表示当前词的最终TF-IDF值,如果当前词不是标题词,那么weighttitle(wi)=0,如果是标题词按照公式(4)计算weighttitle(wi)。
8.根据权利要求7所述的一种勘察报告文本关键信息提取方法,其特征在于,所述步骤5具体为:对经步骤4计算的所有词的最终TF-IDF值Y进行由大到小排序,取前X个进行输出,得到关键词。
9.根据权利要求8所述的一种勘察报告文本关键信息提取方法,其特征在于,所述步骤6具体为:通过编写Python语言程序查找定位出勘察报告文本中相应的关键信息。
CN202110459258.8A 2021-04-27 2021-04-27 一种勘察报告文本关键信息提取系统和提取方法 Active CN113515939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110459258.8A CN113515939B (zh) 2021-04-27 2021-04-27 一种勘察报告文本关键信息提取系统和提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110459258.8A CN113515939B (zh) 2021-04-27 2021-04-27 一种勘察报告文本关键信息提取系统和提取方法

Publications (2)

Publication Number Publication Date
CN113515939A true CN113515939A (zh) 2021-10-19
CN113515939B CN113515939B (zh) 2024-04-16

Family

ID=78063751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110459258.8A Active CN113515939B (zh) 2021-04-27 2021-04-27 一种勘察报告文本关键信息提取系统和提取方法

Country Status (1)

Country Link
CN (1) CN113515939B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946656A (zh) * 2021-10-22 2022-01-18 大连大学 一种基于关键词算法的海关进出口商品文本异常查验方法
CN113961674A (zh) * 2021-12-21 2022-01-21 深圳市迪博企业风险管理技术有限公司 一种关键信息与上市公司公告文本语义匹配方法及装置
CN116257488A (zh) * 2023-02-21 2023-06-13 深圳市勘察测绘院(集团)有限公司 岩土工程勘察大数据归档方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190171707A1 (en) * 2017-12-05 2019-06-06 myFavorEats Ltd. Systems and methods for automatic analysis of text-based food-recipes
CN111611807A (zh) * 2020-05-18 2020-09-01 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN111797616A (zh) * 2020-07-09 2020-10-20 民生科技有限责任公司 基于tf-idf词向量的银行名称批量校正方法及系统
CN112395875A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 一种关键词提取方法、装置、终端以及存储介质
WO2021072850A1 (zh) * 2019-10-15 2021-04-22 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190171707A1 (en) * 2017-12-05 2019-06-06 myFavorEats Ltd. Systems and methods for automatic analysis of text-based food-recipes
WO2021072850A1 (zh) * 2019-10-15 2021-04-22 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备
CN111611807A (zh) * 2020-05-18 2020-09-01 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN111797616A (zh) * 2020-07-09 2020-10-20 民生科技有限责任公司 基于tf-idf词向量的银行名称批量校正方法及系统
CN112395875A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 一种关键词提取方法、装置、终端以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
潘炜;沈超;: "面向层次分类标签的词性标注系统", 计算机工程, no. 21, 5 November 2009 (2009-11-05), pages 203 - 205 *
钱宇星;周华阳;周利琴;任美伶;李浩;: "老年在线社区用户健康信息需求挖掘研究", 现代情报, no. 06, 30 May 2019 (2019-05-30), pages 61 - 71 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946656A (zh) * 2021-10-22 2022-01-18 大连大学 一种基于关键词算法的海关进出口商品文本异常查验方法
CN113961674A (zh) * 2021-12-21 2022-01-21 深圳市迪博企业风险管理技术有限公司 一种关键信息与上市公司公告文本语义匹配方法及装置
CN116257488A (zh) * 2023-02-21 2023-06-13 深圳市勘察测绘院(集团)有限公司 岩土工程勘察大数据归档方法、装置、电子设备及介质
CN116257488B (zh) * 2023-02-21 2023-08-25 深圳市勘察测绘院(集团)有限公司 岩土工程勘察大数据归档方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN113515939B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN109284352B (zh) 一种基于倒排索引的评估类文档不定长词句的查询方法
CN107122413B (zh) 一种基于图模型的关键词提取方法及装置
CN113515939B (zh) 一种勘察报告文本关键信息提取系统和提取方法
US9971974B2 (en) Methods and systems for knowledge discovery
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
Ahmed et al. Language identification from text using n-gram based cumulative frequency addition
CN103064969A (zh) 自动建立关键词索引表的方法
CN102955772B (zh) 一种基于语义的相似度计算方法和装置
KR101195341B1 (ko) 미등록 단어의 카테고리 결정 방법 및 장치
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN111625621A (zh) 一种文档检索方法、装置、电子设备及存储介质
CN111310467B (zh) 一种在长文本中结合语义推断的主题提取方法及系统
CN111429184A (zh) 一种基于文本信息的用户画像抽取方法
CN111191413B (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN114266256A (zh) 一种领域新词的提取方法及系统
CN114328822A (zh) 一种基于深度数据挖掘的合同文本智能分析方法
Lin et al. Enhanced BERT-based ranking models for spoken document retrieval
CN113779987A (zh) 一种基于自注意力增强语义的事件共指消岐方法及系统
CN110245275B (zh) 一种大规模相似新闻标题快速归一化方法
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN113836941B (zh) 一种合同导航方法及装置
CN115329783A (zh) 一种基于跨语言预训练模型的藏汉神经机器翻译方法
Maheswari et al. Rule based morphological variation removable stemming algorithm
CN114580398A (zh) 文本信息提取模型生成方法、文本信息提取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant