CN110717045A - 一种基于信访信件概况的信件要素自动提取方法 - Google Patents

一种基于信访信件概况的信件要素自动提取方法 Download PDF

Info

Publication number
CN110717045A
CN110717045A CN201910976039.XA CN201910976039A CN110717045A CN 110717045 A CN110717045 A CN 110717045A CN 201910976039 A CN201910976039 A CN 201910976039A CN 110717045 A CN110717045 A CN 110717045A
Authority
CN
China
Prior art keywords
letter
letters
text
visit
automatically
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910976039.XA
Other languages
English (en)
Inventor
谢磊
张丽
焦安琪
何义民
李飞
何志成
曹珊
刘世旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Original Assignee
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd filed Critical TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority to CN201910976039.XA priority Critical patent/CN110717045A/zh
Publication of CN110717045A publication Critical patent/CN110717045A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种基于信访信件概况的信件要素自动提取方法,包括:信访信件要素的自动生成,利用CNLP中文自然语言处理、大数据、机器学习将大篇幅的信访文本生成为简短的信访概要;信访信件要素的自动提取,利用文本挖掘技术将文本进行碎片化处理,根据要求提取信访基本要素。智能化处理信访信件,客观科学提取信访信件的基本要素和概要,使信访处理科学高效,能够将信访信件中信访人语句和用词表达的情绪进行分析,帮助了解信访人的真实状态。

Description

一种基于信访信件概况的信件要素自动提取方法
技术领域
本发明涉及文本挖掘和计算机信息处理技术领域,尤其涉及知识元抽取技术、数据挖掘分析技术、自然语言处理技术、碎片标引和索引技术、机器学习技术的要素自动提取方法。
背景技术
随着信访渠道的多样化,信访工作变的非常复杂庞大,人工进行比对、分析、归类、整理传统信访接待方式明显力不从心,而传统的文本处理完全依托于本文的特征,对于文本的关联分析、趋势预测等文本挖掘的技术应用相对不足;同时本文挖掘技术本身也有局限性,受语料库、挖掘技术和计算机技术等的影响,有时即使正确的运用了文本挖掘的技术,也往往得不到预期的效果;对于信访类的文本处理缺乏情绪指标,不能够了解信访件的情绪状态。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于信访信件概况的信件要素自动提取方法。
本发明的目的通过以下的技术方案来实现:
一种基于信访信件概况的信件要素自动提取方法,包括:
信访信件要素的自动生成,利用CNLP中文自然语言处理、大数据、机器学习将大篇幅的信访文本生成为简短的信访概要;
信访信件要素的自动提取,利用文本挖掘技术将文本进行碎片化处理,根据要求提取信访基本要素。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
智能化处理信访信件,客观科学提取信访信件的基本要素和概要,使信访处理科学高效,能够对信访信件中信访人语句和用词表达的情绪进行分析,帮助了解信访人的真实状态。
附图说明
图1是基于信访信件概况的信件要素自动提取方法图;
图2是基于信访信件概况要素自动提取方法的逻辑图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,基于信访信件概况的信件要素自动提取方法,包括:
信访信件要素的自动生成,利用CNLP中文自然语言处理、大数据、机器学习等技术手段,对信访信件中信访人语句和用词表达的情绪进行分析,量化打分,利用人工智能剔除主观偏见,归纳信访数据的客观规律,从而将长篇信访信件进行自动文摘,生成简洁核心内容;
信访信件要素自动提取,利用文本挖掘和先进的CNLP自然语言处理模型中的CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短时记忆模型)进行知识关联与数据二次智能分类存储,对信访信件中信访人语句和用词表达的情绪进行分析,量化打分,进而对长篇信访信件进行碎片化处理,即时完成信件命名实体识别、自动摘要提取、核心诉求提取、在线分析归类,帮助构建新型信访管理体系;
上述信件概况自动生成:系统应用DCNN(Deep Convolutional Neural Network,深度卷积网络)与LSTM(Long Short Term Memory,长短时记忆网络),并将这两个网络框架整合到一起形成知网自有知识产权的中文自然语言处理框架:CNLP。CNLP是按照当代语言学理论,自然语言分符号、词法、句法、语义和语用五个层面。在符号层面,有语音、文字、图片和电子输入。在词法层面,有词典、词性标注、词的形态变化、构词法等。在句法层面,有词对词的关联/依存关系,以及短语对短语的结合/拼接关系。在语义层面,有语义标签与它们在现实/想象世界中的所指之间的映射关系和语义标签之间的角色指派关系。在语用层面,有语言成分与语境之间、字面意义和言外之意之间的复杂互动关系,针对自然语言的特性,CNLP框架会自动在形式语言理论框架下建立不同的模型,形成了自然语言处理的诸多形式化机制,基于规则的形式化机制包括LFG(词汇功能语法)、GPSG(广义短语结构语法)、HPSG(中心词驱动的短语结构语法)、DG(依存语法)、CG(范畴语法)、CCG(组合范畴语法)等,基于统计的形式化机制包括HMM(隐马尔科夫模型)、PCFG(概率上下文无关语法)等,基于联结的形式化机制包括CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短时记忆模型)等。利用以上机制,系统再次进行知识关联与数据二次智能分类存储,利用文本挖掘和先进的数据算法对信件中信访人语句和用词表达的情绪进行分析,量化打分,进而对长篇信访来件进行自动文摘,生成简洁核心内容。
如图2所示,信访信件要素自动提取:在文本数据处理之前建立要素的标准库,依托知网海量的数据信息和科学的分类标准,基于句法分析、文本分类、关键词抽取、相似词相关词计算等技术开发的知识元提取技术,并成功进行了概念、图片、创新点等知识元的提取,通过对海量文献的处理,建立一个庞大的数据标准库;
利用XML技术对信访件进行碎片标引和索引标引,然后针对现有的中文自然语言处理需求,例如通过自然语言的搜索查询相关文献记录中的指标,某个研究领域、某个研究技术等,发展面向中文文本的自然语言处理技术体系,包括分词、词法、句法、命名实体识别、实体关系预测、实体属性抽提等技术,基于高质量学术文献语料进行模型的重新的训练与测试,使相关技术模型的算法准确率、速度均达到国际先进水平,以更好的支撑大数据非结构化文本信息与知识的抽提;
根据信访信件的特性建立要素标准模型,根据模型设置学习策略进行文本信息抽取,抽取的内容包括命名实体抽取、关系抽取、属性抽取等,将抽取到的内容与模型规则进行匹配,将与之一致的识别出来,并将同类规则添加在相应的库中,即时完成信件命名实体识别、自动摘要提取、核心诉求提取、在线分析归类等信件操作,继而丰富标准库内容,使提取随着处理信件的增加,准确率也随之增加,从而完成信件要素自动提取过程。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (3)

1.一种基于信访信件概况的信件要素自动提取方法,其特征在于,所述方法包括:
信访信件要素的自动生成,利用CNLP中文自然语言处理、大数据、机器学习将大篇幅的信访文本生成为简短的信访概要;
信访信件要素的自动提取,利用文本挖掘技术将文本进行碎片化处理,根据要求提取信访基本要素。
2.如权利要求1所述的基于信访信件概况的信件要素自动提取方法,其特征在于,利用CNLP中文自然语言处理、大数据与机器学习技术手段主要包括对信访信件中信访人语句和用词表达的情绪进行分析,量化打分,利用人工智能剔除主观偏见,归纳信访数据的客观规律,从而将长篇信访信件进行自动文摘,生成简洁核心内容。
3.如权利要求1所述的信访信件概况的信件要素自动提取方法,其特征在于,所述信访信件要素的自动提取利用文本挖掘和先进的CNLP自然语言处理模型中的卷积神经网络CNN、循环神经网络RNN、长短时记忆模型LSTM进行知识关联与数据二次智能分类存储,对信访信件中信访人语句和用词表达的情绪进行分析,量化打分,进而对长篇信访信件进行碎片化处理,即时完成信件命名实体识别、自动摘要提取、核心诉求提取、在线分析归类,帮助构建新型信访管理体系。
CN201910976039.XA 2019-10-15 2019-10-15 一种基于信访信件概况的信件要素自动提取方法 Pending CN110717045A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910976039.XA CN110717045A (zh) 2019-10-15 2019-10-15 一种基于信访信件概况的信件要素自动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910976039.XA CN110717045A (zh) 2019-10-15 2019-10-15 一种基于信访信件概况的信件要素自动提取方法

Publications (1)

Publication Number Publication Date
CN110717045A true CN110717045A (zh) 2020-01-21

Family

ID=69211652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910976039.XA Pending CN110717045A (zh) 2019-10-15 2019-10-15 一种基于信访信件概况的信件要素自动提取方法

Country Status (1)

Country Link
CN (1) CN110717045A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN113435859A (zh) * 2021-07-12 2021-09-24 建信金融科技有限责任公司 信访件处理方法、装置、电子设备和计算机可读介质
CN113806548A (zh) * 2021-11-19 2021-12-17 北京北大软件工程股份有限公司 基于深度学习模型的信访要素抽取方法及抽取系统
CN114528409A (zh) * 2022-04-18 2022-05-24 北京北大软件工程股份有限公司 一种对信访件要素信息的抽取结果评价的方法及装置
CN117610562A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种结合组合范畴语法和多任务学习的关系抽取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294542A (zh) * 2016-07-25 2017-01-04 北京市信访矛盾分析研究中心 一种信访数据挖掘评分方法及系统
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294542A (zh) * 2016-07-25 2017-01-04 北京市信访矛盾分析研究中心 一种信访数据挖掘评分方法及系统
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN113435859A (zh) * 2021-07-12 2021-09-24 建信金融科技有限责任公司 信访件处理方法、装置、电子设备和计算机可读介质
CN113806548A (zh) * 2021-11-19 2021-12-17 北京北大软件工程股份有限公司 基于深度学习模型的信访要素抽取方法及抽取系统
CN114528409A (zh) * 2022-04-18 2022-05-24 北京北大软件工程股份有限公司 一种对信访件要素信息的抽取结果评价的方法及装置
CN117610562A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种结合组合范畴语法和多任务学习的关系抽取方法

Similar Documents

Publication Publication Date Title
CN108287822B (zh) 一种中文相似问题生成系统与方法
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
Amin et al. Bengali vader: A sentiment analysis approach using modified vader
Candito et al. Benchmarking of statistical dependency parsers for french
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
Antony et al. Kernel based part of speech tagger for kannada
CN111401058B (zh) 一种基于命名实体识别工具的属性值抽取方法及装置
Chien et al. Topic-based hierarchical segmentation
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
Chen et al. A study of language modeling for Chinese spelling check
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
Amanova et al. Creating annotated dialogue resources: Cross-domain dialogue act classification
Kshirsagar et al. A review on application of deep learning in natural language processing
CN115033753A (zh) 训练语料集构建方法、文本处理方法及装置
CN110222344B (zh) 一种针对小学生作文辅导的作文要素分析算法
CN113343717A (zh) 一种基于翻译记忆库的神经机器翻译方法
CN111400449B (zh) 一种正则表达式抽取方法及装置
CN111368540A (zh) 一种基于语义角色分析的关键词信息抽取方法
Iosif et al. Speech understanding for spoken dialogue systems: From corpus harvesting to grammar rule induction
CN116483314A (zh) 一种自动化智能活动图生成方法
Ansari et al. Language lexicons for Hindi-English multilingual text processing
Ducoffe et al. Machine Learning under the light of Phraseology expertise: use case of presidential speeches, De Gaulle-Hollande (1958-2016)
Akhtar et al. Unsupervised morphological expansion of small datasets for improving word embeddings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200121