CN109460551B - 签名信息提取方法及装置 - Google Patents
签名信息提取方法及装置 Download PDFInfo
- Publication number
- CN109460551B CN109460551B CN201811268593.4A CN201811268593A CN109460551B CN 109460551 B CN109460551 B CN 109460551B CN 201811268593 A CN201811268593 A CN 201811268593A CN 109460551 B CN109460551 B CN 109460551B
- Authority
- CN
- China
- Prior art keywords
- information
- information extraction
- sentence
- sequence
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种签名信息提取方法及装置,通过采用正则表达式分别提取每条语句中的结构化信息,能够非常便捷且快速地抽取出规则的签名信息。提取非结构化信息则使用机器学习分类模型与字符粒度序列标注的形式,能够解决传统方式中使用邮件模板比对得到抽取信息带来的局限性,在实施过程中通过分别提取每条语句的TF‑IDF词频特征和标注序列特征,并将提取得到的TF‑IDF词频特征和标注序列特征分别输入到地址二分类模型和字符粒度序列标注模型中,得到每条语句中的人名信息和地址信息,如此,通过提取TF‑IDF词频特征能够完整识别出地址信息,并利用标注序列特征,极大减轻由于错误分词对人名信息识别带来的负面影响,从而精准地对邮件签名信息进行提取。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种签名信息提取方法及装置。
背景技术
传统的邮件签名提取方法是一般采用邮件模板比对形式,但是其具有较大的局限性,一般只适用于标准格式的邮件签名抽取,如果需要抽取的邮件与标准模板不匹配,则对提取结果的准确性会造成极大的影响。另外的做法是通过对邮件全文进行分词,并根据每个词及前后文的特征,来提取邮件中姓名等实体信息,但是该方式受到分词工具的较大影响,往往存在分词后提取的姓名等实体信息部分丢失,或者不完善,或者存在多余词语的情况,从而也会对提取结果的准确性会造成极大的影响。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种签名信息提取方法及装置,以解决或者改善上述问题。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种签名信息提取方法,应用于电子设备,所述电子设备中配置有签名信息提取模型,所述签名信息提取模型包括结构化信息抽取模型和非结构化信息抽取模型,所述方法包括:
获取待抽取签名信息的文本数据,并对所述文本数据进行分句,得到多条语句;
依次将每条语句输入到所述结构化信息抽取模型中,通过所述结构化信息抽取模型中的各个正则表达式分别提取每条语句中的结构化信息;
分别提取每条语句的TF-IDF词频特征和标注序列特征,并将提取得到的TF-IDF词频特征和标注序列特征分别输入到所述非结构化信息抽取模型中的地址二分类模型和字符粒度序列标注模型中,得到每条语句中的非结构化信息,其中,所述非结构化信息包括人名信息和地址信息;
根据所述结构化信息和所述非结构化信息生成签名信息提取结果。
可选地,所述分别提取每条语句的TF-IDF词频特征和标注序列特征的步骤,包括:
对所述文本数据中的每条语句进行完全分词,得到每条语句的完全分词结果,并提取所述完全分词结果的TF-IDF词频特征;
同时对所述文本数据中的每条语句进行字符粒度拆分,得到拆分后的每条语句对应的各个词语;
分别提取每个词语的序列标注特征,以得到每条语句的标注序列特征。
可选地,所述将提取得到的TF-IDF词频特征和标注序列特征分别输入到所述非结构化信息抽取模型中的地址二分类模型和字符粒度序列标注模型中,得到每条语句中的非结构化信息的步骤,包括:
将所述TF-IDF词频特征输入到所述地址二分类模型中,得到对应的地址信息;
将所述标注序列特征输入到所述字符粒度序列标注模型中,得到对应的实体标注序列,并对所述实体标注序列中各个实体标签进行识别,根据识别结果输出对应的人名信息。
可选地,所述获取待抽取签名信息的文本数据的步骤之前,所述方法还包括:
训练所述地址二分类模型;以及
训练字符粒度序列标注模型。
可选地,所述训练所述地址二分类模型的步骤,包括:
获取多个地址二分类正例和多个地址二分类例;
将所述多个地址二分类正例和所述多个地址二分类例进行乱序处理,得到训练样本;
对所述训练样本进行完全分词,得到完全分词结果,并提取所述完全分词结果的TF-IDF词频特征;
根据提取的TF-IDF词频特征,选取在线主动攻击型分类器训练得到地址二分类模型。
可选地,所述训练字符粒度序列标注模型的步骤,包括:
获取预训练数据集;
根据预设规则将所述预训练数据集转换为目标数据集,其中,所述目标数据集包括多条语句以及每条语句中各个词语对应的实体类别标签;
按照字符粒度对所述目标数据集中每条语句和对应的各个词语对应的实体类别标签进行拆分,得到拆分结果,其中,所述拆分结果包括拆分后的各个词语和各个词语对应的实体类别标签;
对所述拆分结果进行序列标注,得到每条语句的实体标注序列,同时提取拆分后的各个词语的标注序列特征,得到每条语句的标注序列特征,其中,每条语句中的第一个实体词语采用第一实体符号标注、其它实体词语采用第二实体符号标注、非实体词语采用非实体符号标注;
通过CRF条件随机场对每条语句的标注序列特征与对应的实体标注序列进行训练,得到字符粒度序列标注模型。
可选地,所述根据预设规则将所述预训练数据集转换为目标数据集的步骤,包括:
查找所述预训练数据集中各个需要合并的词语,并将查找到的各个需要合并的词语进行合并,得到合并词语后的预训练数据集;
将所述合并词语后的预训练数据集中的各个词语的词性标签转换为对应的实体类别标签,以得到转换后的目标数据集。
可选地,所述通过所述结构化信息抽取模型中的各个正则表达式分别提取每条语句中的结构化信息的步骤,包括:
通过邮箱正则表达式提取所述每条语句中的邮箱信息;
通过电话正则表达式提取所述每条语句中的电话信息;
通过网址正则表达式提取所述每条语句中的网址信息;
其中,所述结构化信息包括邮箱信息、电话信息以及网址信息。
可选地,所述根据所述结构化信息和所述非结构化信息生成签名信息提取结果的步骤,包括:
根据所述结构化信息和所述非结构化信息生成对应的发件人的名片信息。
第三方面,本申请实施例还提供一种签名信息提取装置,应用于电子设备,所述电子设备中配置有签名信息提取模型,所述签名信息提取模型包括结构化信息抽取模型和非结构化信息抽取模型,所述装置包括:
获取模块,用于获取待抽取签名信息的文本数据,并对所述文本数据进行分句,得到多条语句;
结构化信息提取模块,用于依次将每条语句输入到所述结构化信息抽取模型中,通过所述结构化信息抽取模型中的各个正则表达式分别提取每条语句中的结构化信息;
非结构化信息提取模块,用于分别提取每条语句的TF-IDF词频特征和标注序列特征,并将提取得到的TF-IDF词频特征和标注序列特征分别输入到所述非结构化信息抽取模型中的地址二分类模型和字符粒度序列标注模型中,得到每条语句中的非结构化信息,其中,所述非结构化信息包括人名信息和地址信息;
生成模块,用于根据所述结构化信息和所述非结构化信息生成签名信息提取结果。
第三方面,本申请实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述的签名信息提取方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请实施例提供一种签名信息提取方法及装置,通过采用正则表达式分别提取每条语句中的结构化信息,能够非常便捷且快速地抽取出规则的签名信息。提取非结构化信息则使用机器学习分类模型与字符粒度序列标注的形式,能够解决传统方式中使用邮件模板比对得到抽取信息带来的局限性,在实施过程中通过分别提取每条语句的TF-IDF词频特征和标注序列特征,并将提取得到的TF-IDF词频特征和标注序列特征分别输入到地址二分类模型和字符粒度序列标注模型中,得到每条语句中的人名信息和地址信息,如此,通过提取TF-IDF词频特征能够完整识别出地址信息,并利用标注序列特征,极大减轻由于错误分词对人名信息识别带来的负面影响,从而精准地对邮件签名信息进行提取。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的用于实现签名信息提取方法的电子设备的结构示意框图。
图2为本申请实施例提供的签名信息提取装置的功能模块图;
图3为本申请实施例提供的签名信息提取方法的流程示意图;
图4为本申请实施例提供的结构化信息提取示意图。
图标:100-电子设备;110-总线;120-处理器;130-存储介质;140-总线接口;150-网络适配器;160-用户接口;200-签名信息提取装置;210-获取模块;220-结构化信息提取模块;230-非结构化信息提取模块;240-生成模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
电子邮件是新的刑诉法规定的电子数据类证据,在涉网案件侦办中的作用越来越重要。在邮件作为证据时,尽快清理出人物和事件地点及其他相关的重要信息,是一个值得持续研究的问题。邮件签名是将邮件与现实中的人物及事件对应起来的重要信息,在案件侦办数据分析中尤为重要。此外,邮件签名表征了发件人的关键信息,将邮件签名快速且准确地抽取出来并生成对应的名片形式,为收件人的阅读提供了方便。
传统的邮件签名提取方法是一般采用邮件模板比对形式,但是其具有较大的局限性,一般只适用于标准格式的邮件签名抽取,如果需要抽取的邮件与标准模板不匹配,则对提取结果的准确性会造成极大的影响。另外的做法是通过对邮件全文进行分词,并根据每个词及前后文的特征,来提取邮件中姓名等实体信息,但是该方式受到分词工具的较大影响,往往存在分词后提取的姓名等实体信息部分丢失,或者不完善,或者存在多余词语的情况,从而也会对提取结果的准确性会造成极大的影响。
基于上述技术问题的发现,本申请发明人提出下述技术方案以解决或者改善上述问题,需要注意的是,以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
本申请发明人在解决上述技术问题的过程中,经过长期研究,提出了通过采用正则表达式分别提取每条语句中的结构化信息,能够非常便捷且快速地抽取出规则的签名信息。提取非结构化信息则使用机器学习分类模型与字符粒度序列标注的形式,能够解决传统方式中使用邮件模板比对得到抽取信息带来的局限性,在实施过程中通过分别提取每条语句的TF-IDF词频特征和标注序列特征,并将提取得到的TF-IDF词频特征和标注序列特征分别输入到地址二分类模型和字符粒度序列标注模型中,得到每条语句中的人名信息和地址信息,如此,通过提取TF-IDF词频特征能够完整识别出地址信息,并利用标注序列特征,极大减轻由于错误分词对人名信息识别带来的负面影响,从而精准地对邮件签名信息进行提取。
请参阅图1,为本申请实施例提供的用于下述签名信息提取方法的电子设备100的一种结构示意框图。本实施例中,所述电子设备100可以由总线110作一般性的总线体系结构来实现。根据电子设备100的具体应用和整体设计约束条件,总线110可以包括任意数量的互连总线和桥接。总线110将各种电路连接在一起,这些电路包括处理器120、存储介质130和总线接口140。可选地,电子设备100可以使用总线接口140将网络适配器150等经由总线110连接。网络适配器150可用于实现电子设备100中物理层的信号处理功能,并通过天线实现射频信号的发送和接收。用户接口160可以连接外部设备,例如:键盘、显示器、鼠标或者操纵杆等。总线110还可以连接各种其它电路,如定时源、外围设备、电压调节器或者功率管理电路等,这些电路是本领域所熟知的,因此不再详述。
可以替换的,电子设备100也可配置成通用处理系统,例如通称为芯片,该通用处理系统包括:提供处理功能的一个或多个微处理器,以及提供存储介质130的至少一部分的外部存储器,所有这些都通过外部总线体系结构与其它支持电路连接在一起。
可替换的,电子设备100可以使用下述来实现:具有处理器120、总线接口140、用户接口160的ASIC(专用集成电路);以及集成在单个芯片中的存储介质130的至少一部分,或者,电子设备100可以使用下述来实现:一个或多个FPGA(现场可编程门阵列)、PLD(可编程逻辑器件)、控制器、状态机、门逻辑、分立硬件部件、任何其它适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。
其中,处理器120负责管理总线110和一般处理(包括执行存储在存储介质130上的软件)。处理器120可以使用一个或多个通用处理器和/或专用处理器来实现。处理器120的例子包括微处理器、微控制器、DSP处理器和能够执行软件的其它电路。应当将软件广义地解释为表示指令、数据或其任意组合,而不论是将其称作为软件、固件、中间件、微代码、硬件描述语言还是其它。
在图1中存储介质130被示为与处理器120分离,然而,本领域技术人员很容易明白,存储介质130或其任意部分可位于电子设备100之外。举例来说,存储介质130可以包括传输线、用数据调制的载波波形、和/或与无线节点分离开的计算机制品,这些介质均可以由处理器120通过总线接口140来访问。可替换地,存储介质130或其任意部分可以集成到处理器120中,例如,可以是高速缓存和/或通用寄存器。
所述处理器120可执行下述实施例,具体地,所述存储介质130中可以存储有签名信息提取装置200,所述处理器120可以用于执行所述签名信息提取装置200。
进一步地,请参阅图2,所述签名信息提取装置200可包括如下功能模块:
获取模块210,用于获取待抽取签名信息的文本数据,并对所述文本数据进行分句,得到多条语句。
结构化信息提取模块220,用于依次将每条语句输入到所述结构化信息抽取模型中,通过所述结构化信息抽取模型中的各个正则表达式分别提取每条语句中的结构化信息。
非结构化信息提取模块230,用于分别提取每条语句的TF-IDF词频特征和标注序列特征,并将提取得到的TF-IDF词频特征和标注序列特征分别输入到所述非结构化信息抽取模型中的地址二分类模型和字符粒度序列标注模型中,得到每条语句中的非结构化信息,其中,所述非结构化信息包括人名信息和地址信息。
生成模块240,用于根据所述结构化信息和所述非结构化信息生成签名信息提取结果。
请参阅图3,为本申请实施例提供的签名信息提取方法的一种流程示意图,下面结合图3对上述签名信息提取装置200的各功能模块进行详细说明。所应说明的是,本申请实施例提供的签名信息提取方法不以图3及以下的具体顺序为限制。该方法的具体流程如下:
步骤S210,获取待抽取签名信息的文本数据,并对所述文本数据进行分句,得到多条语句。其中,该步骤S210可以由上述的获取模块210执行。
本实施例中,文本数据可以是各个需要提取邮件签名信息的邮件的邮件内容,在获取到待抽取签名信息的文本数据后,对所述文本数据进行分句,即可得到多条语句。
步骤S220,依次将每条语句输入到所述结构化信息抽取模型中,通过所述结构化信息抽取模型中的各个正则表达式分别提取每条语句中的结构化信息。其中,该步骤S220可以由上述的结构化信息提取模块220执行。
一般而言,结构化信息,例如邮箱、电话、网址等信息一般格式都比较固定,故为了较快而准确地提取结构化信息,本实施例使用正则表达式去匹配每条语句。例如,结合图4,以结构化信息为邮箱信息、电话信息、网址信息为例,本实施例预先配置有邮箱正则表达式、电话正则表达式以及网址正则表达式,在实施时可以通过邮箱正则表达式提取所述每条语句中的邮箱信息,通过电话正则表达式提取所述每条语句中的电话信息,通过网址正则表达式提取所述每条语句中的网址信息。其中,为了提高匹配效率,可以在当某条语句中已经提取出邮箱信息、电话信息、网址信息中的任意一种信息之后,不再通过其它的正则表达式对该条语句进行匹配,例如,若通过电话正则表达式从某条语句中提取出电话信息,则不再通过邮箱正则表达式和网址正则表达式对该条语句进行匹配,如此可以加速整体匹配效率。
作为一种实施方式,上述的邮箱正则表达式可以是r"""\w+@\S+.com"""、r"""\w+@\S+.cn""",上述的电话正则表达式可以是r"""1\d{10}"""、r"""1\d{2}-\d{4}-\d{4}"""、r"""1\d{3}-\d{4}-\d{3}""",上述的网址正则表达式可以是r"""[a-zA-z]\S+.com"""、r"""[a-zA-z]\S+.cn"""、r"""[a-zA-z]\S+.net"""。
如此,本实施例通过采用正则表达式分别提取每条语句中的结构化信息,能够非常便捷且快速地抽取出规则的签名信息。
步骤S230,分别提取每条语句的TF-IDF词频特征和标注序列特征,并将提取得到的TF-IDF词频特征和标注序列特征分别输入到所述非结构化信息抽取模型中的地址二分类模型和字符粒度序列标注模型中,得到每条语句中的非结构化信息。其中,该步骤S230可以由上述的非结构化信息提取模块230执行。
可选地,所述非结构化信息可包括人名信息和地址信息。本不难看出,非结构化信息与结构化信息的区别在于,非结构化信息一般没有固定的格式,故无法通过正则表达式匹配得到,为了解决这一难题,本实施例中通过训练的地址二分类模型和字符粒度序列标注模型可以分别提取得到括地址信息和人名信息。在对步骤S230进行进一步阐述之前,下面首先对训练所述地址二分类模型以及训练字符粒度序列标注模型的过程进行说明。
作为一种实施方式,训练所述地址二分类模型可以通过如下步骤实现:
首先,获取多个地址二分类正例和多个地址二分类例。其中,可以将当前存在的地址信息,例如中国的省市区街乡镇五级地区信息作为所述地址二分类正例,并可以通过faker包随机获取句子数据作为地址二分类负例,其中大多数地址二分类负例均为与地址无关的句子数据。
然后,将所述多个地址二分类正例和所述多个地址二分类例进行乱序处理,得到训练样本。接着,对所述训练样本进行完全分词,得到完全分词结果,并提取所述完全分词结果的TF-IDF(Term Frequency–Inverse Document Frequency)词频特征。也即,可以将所述训练样本切分成多个单独的词语,然后提取每个词语的TF-IDF词频特征。其中,TF-IDF可以用以评估每个词语对于整个训练样本的重要程度。每个词语的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在训练样本中出现的频率成反比下降。TF-IDF词频特征可包括TF词频(Term Frequency)以及IDF逆向文件频率(Inverse DocumentFrequency)。TF表示各个词语在训练样本中出现的频率。IDF的主要思想是:如果包含词语的样本越少,IDF越大,则说明词语具有很好的类别区分能力。
最后,根据提取的TF-IDF词频特征,选取在线主动攻击型分类器(PassiveAggressive Classifier)训练得到地址二分类模型。
作为一种实施方式,训练所述训练字符粒度序列标注模型可以通过如下步骤实现:
首先,获取预训练数据集。可选地,该预训练数据集可以采用人民日报集。
然后,根据预设规则将所述预训练数据集转换为目标数据集。可选地,可以查找所述预训练数据集中各个需要合并的词语,并将查找到的各个需要合并的词语进行合并,得到合并词语后的预训练数据集。例如,可以对所述预训练数据集中的大粒度分词进行处理,将中括号里的内容合并,比如将[华为创始人,任正非]合并为[华为创始人任正非]。同时,还可以将标注人名为姓、名分开的形式,将姓名与对应词性进行合并,以及将全角字符转为半角字符等。接着,则将所述合并词语后的预训练数据集中的各个词语的词性标签转换为对应的实体类别标签,以得到转换后的目标数据集,例如,根据人民日报的词性标注,将词性标签转换为实体类别标签,对应关系可以为:(时间词)t—T,(人名)nr—PER,(地名)ns—LOC,(机构)nt—ORG。例如,转换前的句子为A地的B同学,词性标签为nr,ns,对应的实体类别标签为LOC,PER。如此,转换得到的所述目标数据集可包括多条语句以及每条语句中各个词语对应的实体类别标签。
而后,按照字符粒度对所述目标数据集中每条语句和对应的各个词语对应的实体类别标签进行拆分,得到拆分结果,其中,所述拆分结果包括拆分后的各个词语和各个词语对应的实体类别标签。可选地,本实施例中还可以在每条语句的最前与最末分别加上'<BOS>'和'<EOS>',方便后续进行特征提取。
接着,对所述拆分结果进行序列标注,得到每条语句的实体标注序列,同时提取拆分后的各个词语的标注序列特征,得到每条语句的标注序列特征,其中,每条语句中的第一个实体词语采用第一实体符号标注、其它实体词语采用第二实体符号标注、非实体词语采用非实体符号标注。例如,可以按照BIO形式进行序列标注,即每条语句中的第一个实体词语的第一个字符为’B-’+实体类别的形式,其它实体词语为’I-’+实体类别的形式,非实体词语则全部采用’O’进行标注。
例如,按照字符粒度对所述目标数据集中每条语句和对应的各个词语对应的实体类别标签进行拆分,得到拆分结果可以为['<BOS>','电','子','科','大','的','银','杏','深','深','吸','引','了','张','小','明','<EOS>'],对应的实体标注序列可以为:
['B_ORG','I_ORG','I_ORG','I_ORG','O','O','O','O','O','O','O','O','B_PER','I_PER','I_PER']
同时,在提取拆分后的各个词语的标注序列特征的过程中,将上一个词'w-1',当前词'w',下一个词'w+1',上一个词与当前词构成词语'w-1:w',当前词与下一个词构成词语'w:w+1'作为提取的标注序列特征。例如,与上述示例相对应的标注序列特征可以为:
[{'w-1':'<BOS>','w':'电','w+1':'子','w-1:w':'<BOS>中','w:w+1':'电子','bias':1.0},{'w-1':'中','w':'子','w+1':'中','w-1:w':'电子','w:w+1':'子中','bias':1.0},{'w-1':'子','w':'中','w+1':'大','w-1:w':'子科','w:w+1':'科大','bias':1.0},{'w-1':'科','w':'大','w+1':'的','w-1:w':'科大','w:w+1':'大的','bias':1.0},{'w-1':'大','w':'的','w+1':'银','w-1:w':'大的','w:w+1':'的银','bias':1.0},{'w-1':'的','w':'银','w+1':'杏','w-1:w':'的银','w:w+1':'银杏','bias':1.0},{'w-1':'银','w':'杏','w+1':'深','w-1:w':'银杏','w:w+1':'杏深','bias':1.0},{'w-1':'杏','w':'、'深'w+1':'深','w-1:w':'杏深','w:w+1':'深深','bias':1.0},{'w-1':'深','w':'深','w+1':'吸','w-1:w':'深深','w:w+1':'深吸','bias':1.0},{'w-1':'深','w':'吸','w+1':'引','w-1:w':'深吸','w:w+1':'吸引','bias':1.0},{'w-1':'吸','w':'引','w+1':'了','w-1:w':'吸引','w:w+1':'引了','bias':1.0},{'w-1':'引','w':'了','w+1':'张','w-1:w':'引了','w:w+1':'了张','bias':1.0},{'w-1':'了','w':'张','w+1':'小','w-1:w':'了张','w:w+1':'张小','bias':1.0},{'w-1':'张','w':'小','w+1':'明','w-1:w':'张小','w:w+1':'小明','bias':1.0},{'w-1':'小','w':'明','w+1':'<EOS>','w-1:w':'小明','w:w+1':'明<EOS>','bias':1.0}]
最后,通过CRF条件随机场对每条语句的标注序列特征与对应的实体标注序列进行训练,得到字符粒度序列标注模型。
如此,通过使用机器学习分类模型与字符粒度序列标注的形式,能够解决传统方式中使用邮件模板比对得到抽取信息带来的局限性,地址信息抽取时使用地址二分类模型进行分类,能够完整识别出详细地址,人名信息抽取时通过标注序列特征进行提取,如此利用字符特征与上下文字符的拼接特征等信息,使用CRF条件随机场进行序列标注,极大减轻了错误分词对识别带来的负面影响。
在上述基础上,提取每条语句的TF-IDF词频特征和标注序列特征可以通过如下方式实现:
对所述文本数据中的每条语句进行完全分词,得到每条语句的完全分词结果,并提取所述完全分词结果的TF-IDF词频特征。同时对所述文本数据中的每条语句进行字符粒度拆分,得到拆分后的每条语句对应的各个词语,再分别提取每个词语的序列标注特征,以得到每条语句的标注序列特征。
然后,将所述TF-IDF词频特征输入到所述地址二分类模型中,得到对应的地址信息,同时将所述标注序列特征输入到所述字符粒度序列标注模型中,得到对应的实体标注序列,并对所述实体标注序列中各个实体标签进行识别,根据识别结果输出对应的人名信息,例如,可以通过识别得到的实体标注序列中带有人名标签PER对应的文字输出对应的人名信息。
步骤S240,根据所述结构化信息和所述非结构化信息生成签名信息提取结果。其中,该步骤S240可以由上述的生成模块240执行。
本实施例中,在提取得到上述的结构化信息和非结构化信息后,可以根据所述结构化信息和所述非结构化信息生成对应的发件人的名片信息。如此,可以将邮件签名快速且准确地提取出来并生成对应的名片形式,为收件人的阅读提供了方便。
进一步地,本申请实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的签名信息提取方法。
综上所述,本申请实施例提供一种签名信息提取方法及装置,通过采用正则表达式分别提取每条语句中的结构化信息,能够非常便捷且快速地抽取出规则的签名信息。提取非结构化信息则使用机器学习分类模型与字符粒度序列标注的形式,能够解决传统方式中使用邮件模板比对得到抽取信息带来的局限性,在实施过程中通过分别提取每条语句的TF-IDF词频特征和标注序列特征,并将提取得到的TF-IDF词频特征和标注序列特征分别输入到地址二分类模型和字符粒度序列标注模型中,得到每条语句中的人名信息和地址信息,如此,通过提取TF-IDF词频特征能够完整识别出地址信息,并利用标注序列特征,极大减轻由于错误分词对人名信息识别带来的负面影响,从而精准地对邮件签名信息进行提取。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
可以替换的,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其它可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的电子设备、服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,术语"包括"、"包含"或者其任何其它变体意在涵盖非排它性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (10)
1.一种签名信息提取方法,其特征在于,应用于电子设备,所述电子设备中配置有签名信息提取模型,所述签名信息提取模型包括结构化信息抽取模型和非结构化信息抽取模型,所述方法包括:
获取待抽取签名信息的文本数据,并对所述文本数据进行分句,得到多条语句;
依次将每条语句输入到所述结构化信息抽取模型中,通过所述结构化信息抽取模型中的各个正则表达式分别提取每条语句中的结构化信息;
分别提取每条语句的TF-IDF词频特征和标注序列特征,并将提取得到的TF-IDF词频特征和标注序列特征分别输入到所述非结构化信息抽取模型中的地址二分类模型和字符粒度序列标注模型中,得到每条语句中的非结构化信息,其中,所述非结构化信息包括人名信息和地址信息;
根据所述结构化信息和所述非结构化信息生成签名信息提取结果。
2.根据权利要求1所述的签名信息提取方法,其特征在于,所述分别提取每条语句的TF-IDF词频特征和标注序列特征的步骤,包括:
对所述文本数据中的每条语句进行完全分词,得到每条语句的完全分词结果,并提取所述完全分词结果的TF-IDF词频特征;
同时对所述文本数据中的每条语句进行字符粒度拆分,得到拆分后的每条语句对应的各个词语;
分别提取每个词语的序列标注特征,以得到每条语句的标注序列特征。
3.根据权利要求1或2所述的签名信息提取方法,其特征在于,所述将提取得到的TF-IDF词频特征和标注序列特征分别输入到所述非结构化信息抽取模型中的地址二分类模型和字符粒度序列标注模型中,得到每条语句中的非结构化信息的步骤,包括:
将所述TF-IDF词频特征输入到所述地址二分类模型中,得到对应的地址信息;
将所述标注序列特征输入到所述字符粒度序列标注模型中,得到对应的实体标注序列,并对所述实体标注序列中各个实体标签进行识别,根据识别结果输出对应的人名信息。
4.根据权利要求3所述的签名信息提取方法,其特征在于,所述获取待抽取签名信息的文本数据的步骤之前,所述方法还包括:
训练所述地址二分类模型;以及
训练字符粒度序列标注模型。
5.根据权利要求4所述的签名信息提取方法,其特征在于,所述训练所述地址二分类模型的步骤,包括:
获取多个地址二分类正例和多个地址二分类例;
将所述多个地址二分类正例和所述多个地址二分类例进行乱序处理,得到训练样本;
对所述训练样本进行完全分词,得到完全分词结果,并提取所述完全分词结果的TF-IDF词频特征;
根据提取的TF-IDF词频特征,选取在线主动攻击型分类器训练得到地址二分类模型。
6.根据权利要求4所述的签名信息提取方法,其特征在于,所述训练字符粒度序列标注模型的步骤,包括:
获取预训练数据集;
根据预设规则将所述预训练数据集转换为目标数据集,其中,所述目标数据集包括多条语句以及每条语句中各个词语对应的实体类别标签;
按照字符粒度对所述目标数据集中每条语句和对应的各个词语对应的实体类别标签进行拆分,得到拆分结果,其中,所述拆分结果包括拆分后的各个词语和各个词语对应的实体类别标签;
对所述拆分结果进行序列标注,得到每条语句的实体标注序列,同时提取拆分后的各个词语的标注序列特征,得到每条语句的标注序列特征,其中,每条语句中的第一个实体词语采用第一实体符号标注、其它实体词语采用第二实体符号标注、非实体词语采用非实体符号标注;
通过CRF条件随机场对每条语句的标注序列特征与对应的实体标注序列进行训练,得到字符粒度序列标注模型。
7.根据权利要求6所述的签名信息提取方法,其特征在于,所述根据预设规则将所述预训练数据集转换为目标数据集的步骤,包括:
查找所述预训练数据集中各个需要合并的词语,并将查找到的各个需要合并的词语进行合并,得到合并词语后的预训练数据集;
将所述合并词语后的预训练数据集中的各个词语的词性标签转换为对应的实体类别标签,以得到转换后的目标数据集。
8.根据权利要求1所述的签名信息提取方法,其特征在于,所述通过所述结构化信息抽取模型中的各个正则表达式分别提取每条语句中的结构化信息的步骤,包括:
通过邮箱正则表达式提取所述每条语句中的邮箱信息;
通过电话正则表达式提取所述每条语句中的电话信息;
通过网址正则表达式提取所述每条语句中的网址信息;
其中,所述结构化信息包括邮箱信息、电话信息以及网址信息。
9.根据权利要求1所述的签名信息提取方法,其特征在于,所述根据所述结构化信息和所述非结构化信息生成签名信息提取结果的步骤,包括:
根据所述结构化信息和所述非结构化信息生成对应的发件人的名片信息。
10.一种签名信息提取装置,其特征在于,应用于电子设备,所述电子设备中配置有签名信息提取模型,所述签名信息提取模型包括结构化信息抽取模型和非结构化信息抽取模型,所述装置包括:
获取模块,用于获取待抽取签名信息的文本数据,并对所述文本数据进行分句,得到多条语句;
结构化信息提取模块,用于依次将每条语句输入到所述结构化信息抽取模型中,通过所述结构化信息抽取模型中的各个正则表达式分别提取每条语句中的结构化信息;
非结构化信息提取模块,用于分别提取每条语句的TF-IDF词频特征和标注序列特征,并将提取得到的TF-IDF词频特征和标注序列特征分别输入到所述非结构化信息抽取模型中的地址二分类模型和字符粒度序列标注模型中,得到每条语句中的非结构化信息,其中,所述非结构化信息包括人名信息和地址信息;
生成模块,用于根据所述结构化信息和所述非结构化信息生成签名信息提取结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811268593.4A CN109460551B (zh) | 2018-10-29 | 2018-10-29 | 签名信息提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811268593.4A CN109460551B (zh) | 2018-10-29 | 2018-10-29 | 签名信息提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109460551A CN109460551A (zh) | 2019-03-12 |
CN109460551B true CN109460551B (zh) | 2023-04-18 |
Family
ID=65608692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811268593.4A Active CN109460551B (zh) | 2018-10-29 | 2018-10-29 | 签名信息提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109460551B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348003B (zh) * | 2019-05-22 | 2023-10-17 | 安徽省泰岳祥升软件有限公司 | 文本有效信息的抽取方法及装置 |
CN110457683B (zh) * | 2019-07-15 | 2023-04-07 | 北京百度网讯科技有限公司 | 模型优化方法、装置、计算机设备及存储介质 |
CN111368526B (zh) * | 2020-03-03 | 2023-04-25 | 支付宝(杭州)信息技术有限公司 | 一种序列标注方法和系统 |
CN111753840A (zh) * | 2020-06-18 | 2020-10-09 | 北京同城必应科技有限公司 | 一种同城物流配送名片下单技术 |
CN112101007A (zh) * | 2020-09-21 | 2020-12-18 | 国网辽宁省电力有限公司电力科学研究院 | 一种从非结构化文本数据中提取结构化数据的方法及系统 |
CN112184178A (zh) * | 2020-10-14 | 2021-01-05 | 深圳壹账通智能科技有限公司 | 邮件内容提取方法、装置、电子设备及存储介质 |
CN112580339B (zh) * | 2020-12-18 | 2022-04-05 | 北京百度网讯科技有限公司 | 模型的训练方法、装置、电子设备及存储介质 |
CN112632924B (zh) * | 2020-12-18 | 2024-04-02 | 上海明略人工智能(集团)有限公司 | 规则化执行序列标注的方法、系统、电子设备及存储介质 |
CN112711950A (zh) * | 2020-12-23 | 2021-04-27 | 深圳壹账通智能科技有限公司 | 地址信息抽取方法、装置、设备及存储介质 |
CN113408271B (zh) * | 2021-06-16 | 2021-11-30 | 北京来也网络科技有限公司 | 基于rpa及ai的信息抽取方法、装置、设备及介质 |
CN114492383B (zh) * | 2021-12-20 | 2024-09-10 | 北京邮电大学 | 一种数字货币交易地址的实体名称识别方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9842110B2 (en) * | 2013-12-04 | 2017-12-12 | Rakuten Kobo Inc. | Content based similarity detection |
CN103902673B (zh) * | 2014-03-19 | 2017-11-24 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN107783960B (zh) * | 2017-10-23 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
-
2018
- 2018-10-29 CN CN201811268593.4A patent/CN109460551B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109460551A (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460551B (zh) | 签名信息提取方法及装置 | |
CN109885691B (zh) | 知识图谱补全方法、装置、计算机设备及存储介质 | |
US10423649B2 (en) | Natural question generation from query data using natural language processing system | |
CN102227724B (zh) | 对于音译的机器学习 | |
US8843815B2 (en) | System and method for automatically extracting metadata from unstructured electronic documents | |
US9305083B2 (en) | Author disambiguation | |
CN111177532A (zh) | 一种垂直搜索方法、装置、计算机系统及可读存储介质 | |
WO2018017378A1 (en) | Extracting actionable information from emails | |
CN111859968A (zh) | 一种文本结构化方法、文本结构化装置及终端设备 | |
CN108932218B (zh) | 一种实例扩展方法、装置、设备和介质 | |
CN110909123B (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN108549723B (zh) | 一种文本概念分类方法、装置及服务器 | |
CN110413787A (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN110737770B (zh) | 文本数据敏感性识别方法、装置、电子设备及存储介质 | |
CN110674297B (zh) | 舆情文本分类模型构建和舆情文本分类方法、装置及设备 | |
CN111259160A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN114861677B (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
CN112231494A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN110738055A (zh) | 文本的实体识别方法、设备及存储介质 | |
CN112989043A (zh) | 指代消解方法、装置、电子设备及可读存储介质 | |
CN111555960A (zh) | 信息生成的方法 | |
CN113836316B (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
CN111177421A (zh) | 一种面向数字人文的电子邮件历史事件轴生成方法及装置 | |
CN114298007A (zh) | 一种文本相似度确定方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 311501, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing Applicant after: BEIJING KNOWNSEC INFORMATION TECHNOLOGY Co.,Ltd. Address before: Room 311501, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing Applicant before: BEIJING KNOWNSEC INFORMATION TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |