CN111401004B - 一种基于机器学习的文章断句方法 - Google Patents

一种基于机器学习的文章断句方法 Download PDF

Info

Publication number
CN111401004B
CN111401004B CN202010232911.2A CN202010232911A CN111401004B CN 111401004 B CN111401004 B CN 111401004B CN 202010232911 A CN202010232911 A CN 202010232911A CN 111401004 B CN111401004 B CN 111401004B
Authority
CN
China
Prior art keywords
sentence
text
segmentation model
feature
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010232911.2A
Other languages
English (en)
Other versions
CN111401004A (zh
Inventor
李鑫
沈伟
鲍琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Jiqian Quantum Technology Co ltd
Original Assignee
Suzhou Machine Digital Core Micro Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Machine Digital Core Micro Technology Co ltd filed Critical Suzhou Machine Digital Core Micro Technology Co ltd
Priority to CN202010232911.2A priority Critical patent/CN111401004B/zh
Publication of CN111401004A publication Critical patent/CN111401004A/zh
Application granted granted Critical
Publication of CN111401004B publication Critical patent/CN111401004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出的一种基于机器学习的文章断句方法,首先获取文本中的分隔符号,提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记;将文本的特征标记输入预设的切分模型,通过切分模型从特征标记中筛选有效分隔符合并输出;然后根据有效分割符号获得文本断句结果。本发明中,切分模型的输入为特征标记,特征标记的提取简化了切分模型对待断句文本的前期处理,使得切分模型的输入更加简洁并具有针对性,从而提高了断句效率。本发明向开发者和科研人员提供了相应的工具对化学专业领域的文档进行分句以保证数据处理后续步骤的顺利运行。

Description

一种基于机器学习的文章断句方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于机器学习的文章断句方法。
背景技术
随着统计分析在化学研究中越来越多的应用,化学科研数据的采集整理愈加重要,化学科研数据及相关信息主要存储于文本文件中,从文本文件中将科研数据相关信息提取出来就需要应用自然语言处理的相关技术。分句(句子边界检测)将完整的长文本信息切分成单个句子,是很多自然语言处理任务数据处理的优先步骤。分句阶段的误差将直接传递到后续的数据处理步骤中并被逐渐放大,所以为了自然语言处理的一些下游任务在化学信息学的成功实施,例如信息抽取,抽取相关化学物质的属性,实验性质以及应用信息.优秀的分句工具必不可少。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于机器学习的文章断句方法。
本发明提出的一种基于机器学习的文章断句方法,首先获取文本中的分隔符号,提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记;将文本的特征标记输入预设的切分模型,通过切分模型从特征标记中筛选有效分隔符合并输出;然后根据有效分割符号获得文本断句结果。
优选的,特征标记的获取方法具体包括:
读取文本,以标示句子结尾的符号作为句子结尾符号,使用正则找到文本中出现句子结尾符号的位置作为句子边界位置;
通过分词工具对各句子结尾符号相邻两侧语句进行切分,获得各句子结尾符号相邻两侧的词语作为边界邻近词语;
组合句子边界位置和对应的边界邻近词语形成特征标记。
优选的,寻找句子边界位置时,首先对文本中用于标示句子结尾的符号进行统一。
优选的,通过二元平均感知器对文本进行学习,以获取边界邻近词语。
优选的,切分模型的训练方式包括:首先获得文本样本,并将文本样本人工标注断句结果;提取各文本样本的特征标记,然后抽取部分文本样本作为训练样本,根据训练样本对应的人工标注和特征标记训练切分模型;再将另一部分文本样本作为修正样本,将修正样本的特征标记输入切分模型获取模型断句结果,再通过修正样本对应的人工标注和模型断句结果的对比,对切分模型进行验证;然后对切分模型进行循环训练,直至验证通过。
本发明提出的一种基于机器学习的文章断句方法,通过切分模型实现文本断句。切分模型通过机器学习训练获得,如此,保证了断句的准确度和效率。
本发明中,切分模型的输入为特征标记,特征标记的提取简化了切分模型对待断句文本的前期处理,使得切分模型的输入更加简洁并具有针对性,从而提高了断句效率。
本发明向开发者和科研人员提供了相应的工具对化学专业领域的文档进行分句以保证数据处理后续步骤的顺利运行。
附图说明
图1为本发明提出的一种基于机器学习的文章断句方法流程图;
图2为特征标记的获取方法流程图。
具体实施方式
参照图1,本发明提出的一种基于机器学习的文章断句方法,首先获取文本中的分隔符号,提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记;将文本的特征标记输入预设的切分模型,通过切分模型从特征标记中筛选有效分隔符合并输出;然后根据有效分割符号获得文本断句结果。具体的,本实施方式可用于纯文本或者PDF格式的文本。
本实施方式中,切分模型通过机器学习训练获得,如此,通过切分模型对文本进行断句,保证了断句的准确度和效率。
具体的,本实施方式中,切分模型的训练方式包括:首先获得文本样本,并将文本样本人工标注断句结果;提取各文本样本的特征标记,然后抽取部分文本样本作为训练样本,根据训练样本对应的人工标注和特征标记训练切分模型;再将另一部分文本样本作为修正样本,将修正样本的特征标记输入切分模型获取模型断句结果,再通过修正样本对应的人工标注和模型断句结果的对比,对切分模型进行验证;然后对切分模型进行循环训练,直至验证通过。
具体的,本实施方式中,通过修正样本对应的人工标注和模型断句结果的重合率对切分模型进行验证,如果重合率达到要求,则固定切分模型;反之,则更新训练样本和修正样本,对切分模型进行循环训练。
具体实施时,本实施方式中,考虑普通词语和领域内专业词汇特点,可以根据具体内容训练专用模型来进行分句处理。考虑不同专业领域文本特点的差异可以使用针对领域内文本分句的模型训练以提高对特定领域文本分句的准确度。模型一旦训练完成就可以存储于特定位置以备循环使用。
本实施方式中,为了提高切分模型的断句效率,断句对象采用完成分句的纯文本文件,然后通过文本预处理提取文本中的特征标记作为切分模型的输入。
具体的,参照图2,本实施方式中,对文本进行处理时,特征标记的获取方法具体包括以下步骤:
步骤一、读取文本,以标示句子结尾的符号作为句子结尾符号,使用正则找到文本中出现句子结尾符号的位置作为句子边界位置。
本实施方式中,寻找句子边界位置时,首先对文本中用于标示句子结尾的符号进行统一。具体实施时,可在获取文本后,首先将用于标示句子结尾的符号统一为“.”,然后对文本进行分句。
步骤二、通过分词工具对各句子结尾符号相邻两侧语句进行切分,获得各句子结尾符号相邻两侧的词语作为边界邻近词语。具体实施时,本步骤中,通过二元平均感知器对文本进行学习,以获取边界邻近词语。
步骤三、组合句子边界位置和对应的边界邻近词语形成特征标记。具体的,特征标记可记作(P,L,R),其中,P为句子边界位置,L为P左侧词语,R为P右侧词语。
具体的,本实施方式中,在进行文章断句时,可将文本中提取的特征标记队列化输入切分模型,也可将特征标记逐一输入切分模型。切分模型对各特征标记进行单独识别,通过遍历所有特征标记,完成文章断句。
以上所述,仅为本发明涉及的较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (1)

1.一种基于机器学习的文章断句方法,其特征在于,首先获取文本中的分隔符号,提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记;将文本的特征标记输入预设的切分模型,通过切分模型从特征标记中筛选有效分隔符合并输出;然后根据有效分割符号获得文本断句结果;
特征标记的获取方法具体包括:读取文本,以标示句子结尾的符号作为句子结尾符号,使用正则找到文本中出现句子结尾符号的位置作为句子边界位置;通过分词工具对各句子结尾符号相邻两侧语句进行切分,获得各句子结尾符号相邻两侧的词语作为边界邻近词语;组合句子边界位置和对应的边界邻近词语形成特征标记;
寻找句子边界位置时,首先对文本中用于标示句子结尾的符号进行统一;
通过二元平均感知器对文本进行学习,以获取边界邻近词语;
切分模型的训练方式包括:首先获得文本样本,并将文本样本人工标注断句结果;提取各文本样本的特征标记,然后抽取部分文本样本作为训练样本,根据训练样本对应的人工标注和特征标记训练切分模型;再将另一部分文本样本作为修正样本,将修正样本的特征标记输入切分模型获取模型断句结果,再通过修正样本对应的人工标注和模型断句结果的对比,对切分模型进行验证;然后对切分模型进行循环训练,直至验证通过。
CN202010232911.2A 2020-03-28 2020-03-28 一种基于机器学习的文章断句方法 Active CN111401004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010232911.2A CN111401004B (zh) 2020-03-28 2020-03-28 一种基于机器学习的文章断句方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010232911.2A CN111401004B (zh) 2020-03-28 2020-03-28 一种基于机器学习的文章断句方法

Publications (2)

Publication Number Publication Date
CN111401004A CN111401004A (zh) 2020-07-10
CN111401004B true CN111401004B (zh) 2023-12-22

Family

ID=71433685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010232911.2A Active CN111401004B (zh) 2020-03-28 2020-03-28 一种基于机器学习的文章断句方法

Country Status (1)

Country Link
CN (1) CN111401004B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632988A (zh) * 2020-12-29 2021-04-09 文思海辉智科科技有限公司 句段的断句方法、装置和电子设备
CN112949261A (zh) * 2021-02-04 2021-06-11 维沃移动通信有限公司 文本还原方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268314A (zh) * 2013-05-02 2013-08-28 百度在线网络技术(北京)有限公司 一种获取泰文断句规则的方法及装置
CN103902524A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语句子边界识别方法
CN107491439A (zh) * 2017-09-07 2017-12-19 成都信息工程大学 一种基于贝叶斯统计学习的医学古汉语句子切分方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902524A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语句子边界识别方法
CN103268314A (zh) * 2013-05-02 2013-08-28 百度在线网络技术(北京)有限公司 一种获取泰文断句规则的方法及装置
CN107491439A (zh) * 2017-09-07 2017-12-19 成都信息工程大学 一种基于贝叶斯统计学习的医学古汉语句子切分方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄成哲 等.英文句子边界自动识别.微处理机.2003,第30-34页. *

Also Published As

Publication number Publication date
CN111401004A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN109635279B (zh) 一种基于神经网络的中文命名实体识别方法
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN111198948B (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN112836052B (zh) 一种汽车评论文本观点挖掘方法、设备及存储介质
CN109948120B (zh) 一种基于二元化的简历解析方法
CN111401004B (zh) 一种基于机器学习的文章断句方法
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN106372053B (zh) 句法分析的方法和装置
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
CN111737623A (zh) 网页信息提取方法及相关设备
CN111008526A (zh) 一种基于双通道神经网络的命名实体识别方法
CN114880468A (zh) 基于BiLSTM与知识图谱的建筑规范审查方法与系统
CN112380864A (zh) 一种基于回译的文本三元组标注样本增强方法
CN112395392A (zh) 一种意图识别方法及装置、可读存储介质
CN115618883A (zh) 一种业务语义识别方法及装置
CN112784601B (zh) 关键信息提取方法、装置、电子设备和存储介质
CN112101003B (zh) 语句文本的切分方法、装置、设备和计算机可读存储介质
CN107451215B (zh) 特征文本抽取方法及装置
CN110362803B (zh) 一种基于领域特征词法组合的文本模板生成方法
TW201117024A (en) A unified machine learning-based Chinese word segmentation and part-of-speech tagging algorithm
CN111460834B (zh) 基于lstm网络的法条语义标注方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240530

Address after: Room 1102-A009, 11th Floor, Zhongxin Wang'an Building, northeast corner of the intersection of Chuangxin Avenue and Wangjiang West Road, High tech Zone, Hefei City, Anhui Province, 230088

Patentee after: Hefei Jiqian Quantum Technology Co.,Ltd.

Country or region after: China

Address before: 215000 room 505-3, building 1, Suzhou nano City, No. 99, Jinjihu Avenue, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee before: Suzhou machine digital core Micro Technology Co.,Ltd.

Country or region before: China