CN114519357B - 基于机器学习的自然语言处理方法和系统 - Google Patents

基于机器学习的自然语言处理方法和系统 Download PDF

Info

Publication number
CN114519357B
CN114519357B CN202210045865.4A CN202210045865A CN114519357B CN 114519357 B CN114519357 B CN 114519357B CN 202210045865 A CN202210045865 A CN 202210045865A CN 114519357 B CN114519357 B CN 114519357B
Authority
CN
China
Prior art keywords
word
sentence
semantic analysis
model
breaking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210045865.4A
Other languages
English (en)
Other versions
CN114519357A (zh
Inventor
韩晓然
李克秋
赵来平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210045865.4A priority Critical patent/CN114519357B/zh
Publication of CN114519357A publication Critical patent/CN114519357A/zh
Application granted granted Critical
Publication of CN114519357B publication Critical patent/CN114519357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于机器学习的自然语言处理的方法和系统,通过将语句输入句法模型中,进行初步断句,得到第一词分量,将所述第一词分量逐个输入语义分析模型,得到第二词分量,重复输入语义分析模型的步骤,直到每一个第二词分量都被认定初步断句成功为止,按照预先设置的词组类型与权重值的映射关系,组成新的语句,从而可以识别出该新的语句的含义。

Description

基于机器学习的自然语言处理方法和系统
技术领域
本申请涉及网络多媒体领域,尤其涉及一种基于机器学习的自然语言处理的方法和系统。
背景技术
随着网络的快速发展,海量的信息爆炸式地充斥在网络中,其中信息包含了含义依靠现有的语义分析机器难以准确理解,而人工修正的工作量非常巨大,迫切需要改进语义分析机器识别语言的能力。
现有技术使用多层网络对一整句或多个句子建模,导致效率比较低,并且非常依赖对句子结构的准确断句,越来越不适应现在复杂多变的网络语言环境。
因此,急需一种针对性的基于机器学习的自然语言处理的方法和系统。
发明内容
本发明的目的在于提供一种基于机器学习的自然语言处理的方法和系统,通过将语句输入句法模型中,进行初步断句,得到第一词分量,将所述第一词分量逐个输入语义分析模型,得到第二词分量,重复输入语义分析模型的步骤,直到每一个第二词分量都被认定初步断句成功为止,按照预先设置的词组类型与权重值的映射关系,组成新的语句,从而可以识别出该新的语句的含义。
第一方面,本申请提供一种基于机器学习的自然语言处理的方法,所述方法包括:
获取网络数据流,从中提取出语句和附加元素信息,所述附加元素信息是指用于区分不同语句、不同来源的标识、冗余和帧结构;
将所述语句输入句法模型中,进行初步断句,得到第一词分量,所述句法模型根据每个单词类型设置不同宽度的提取窗口,以该提取窗口为断句依据,窗口宽度内的单词组成所述第一词分量;
将所述第一词分量逐个输入语义分析模型,如果还能够识别成短句的话,则认定该第一词分量的初步断句没有成功,需要将该第一词分量再次输入所述句法模型,再次进行断句,得到第二词分量;如果无法识别成短句、被识别成词组的话,则认定该第一词分量的初步断句成功,所述第一词分量直接标识为第二词分量;所述词组由若干个单词组成,不具有句法结构;
重复将所述第二词分量逐个输入语义分析模型,直到每一个第二词分量都被认定初步断句成功为止;
按照预先设置的词组类型与权重值的映射关系,分析所有初步断句后的第二词分量,将权重值大于阈值的第二词分量进行聚类,组成新的语句,识别出该新的语句的含义。
结合第一方面,在第一方面第一种可能的实现方式中,所述根据每个单词类型设置不同宽度的提取窗口,包括更新单词的类型,将新的单词类型与提取窗口宽度建立对应关系。
结合第一方面,在第一方面第二种可能的实现方式中,所述语义分析模型按照句子语法要求进行语义分析。
结合第一方面,在第一方面第三种可能的实现方式中,所述语义分析模型和句法模型的内核均使用神经网络模型。
第二方面,本申请提供一种基于机器学习的自然语言处理的系统,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。
第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面四种可能中任一项所述的方法。
本发明提供一种基于机器学习的自然语言处理的方法和系统,通过将语句输入句法模型中,进行初步断句,得到第一词分量,将所述第一词分量逐个输入语义分析模型,得到第二词分量,重复输入语义分析模型的步骤,直到每一个第二词分量都被认定初步断句成功为止,按照预先设置的词组类型与权重值的映射关系,组成新的语句,从而可以识别出该新的语句的含义。
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
图1为本申请提供的基于机器学习的自然语言处理的方法的流程图,包括:
获取网络数据流,从中提取出语句和附加元素信息,所述附加元素信息是指用于区分不同语句、不同来源的标识、冗余和帧结构;
将所述语句输入句法模型中,进行初步断句,得到第一词分量,所述句法模型根据每个单词类型设置不同宽度的提取窗口,以该提取窗口为断句依据,窗口宽度内的单词组成所述第一词分量;
将所述第一词分量逐个输入语义分析模型,如果还能够识别成短句的话,则认定该第一词分量的初步断句没有成功,需要将该第一词分量再次输入所述句法模型,再次进行断句,得到第二词分量;如果无法识别成短句、被识别成词组的话,则认定该第一词分量的初步断句成功,所述第一词分量直接标识为第二词分量;所述词组由若干个单词组成,不具有句法结构;
重复将所述第二词分量逐个输入语义分析模型,直到每一个第二词分量都被认定初步断句成功为止;
按照预先设置的词组类型与权重值的映射关系,分析所有初步断句后的第二词分量,将权重值大于阈值的第二词分量进行聚类,组成新的语句,识别出该新的语句的含义。
在一些优选实施例中,所述根据每个单词类型设置不同宽度的提取窗口,包括更新单词的类型,将新的单词类型与提取窗口宽度建立对应关系。
在一些优选实施例中,所述语义分析模型按照句子语法要求进行语义分析。
在一些优选实施例中,所述语义分析模型和句法模型的内核均使用神经网络模型。
本申请提供一种基于机器学习的自然语言处理的系统,所述系统包括:所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的方法。
本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所有实施例中任一项所述的方法。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可以存储有程序,该程序执行时可包括本发明各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体(简称:ROM)或随机存储记忆体(简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书各个实施例之间相同相似的部分互相参见即可。尤其,对于实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (4)

1.一种基于机器学习的自然语言处理方法,其特征在于,所述方法包括:
获取网络数据流,从中提取出语句和附加元素信息,所述附加元素信息是指用于区分不同语句、不同来源的标识、冗余和帧结构;
将所述语句输入句法模型中,进行初步断句,得到第一词分量,所述句法模型根据每个单词类型设置不同宽度的提取窗口,以该提取窗口为断句依据,窗口宽度内的单词组成所述第一词分量;
其中,所述根据每个单词类型设置不同宽度的提取窗口,包括更新单词的类型,将新的单词类型与提取窗口宽度建立对应关系;
将所述第一词分量逐个输入语义分析模型,所述语义分析模型按照句子语法要求进行语义分析,如果还能够识别成短句的话,则认定该第一词分量的初步断句没有成功,需要将该第一词分量再次输入所述句法模型,再次进行断句,得到第二词分量;如果无法识别成短句、被识别成词组的话,则认定该第一词分量的初步断句成功,所述第一词分量直接标识为第二词分量;所述词组由若干个单词组成,不具有句法结构;
重复将所述第二词分量逐个输入语义分析模型,直到每一个第二词分量都被认定初步断句成功为止;
按照预先设置的词组类型与权重值的映射关系,分析所有初步断句后的第二词分量,将权重值大于阈值的第二词分量进行聚类,组成新的语句,识别出该新的语句的含义,降低对句子结构断句准确性的依赖。
2.根据权利要求1所述的一种基于机器学习的自然语言处理方法,其特征在于:所述语义分析模型和句法模型的内核均使用神经网络模型。
3.一种基于机器学习的自然语言处理系统,其特征在于,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行实现权利要求1-2任一项所述的方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行实现权利要求1-2任一项所述的方法。
CN202210045865.4A 2022-01-17 2022-01-17 基于机器学习的自然语言处理方法和系统 Active CN114519357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210045865.4A CN114519357B (zh) 2022-01-17 2022-01-17 基于机器学习的自然语言处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210045865.4A CN114519357B (zh) 2022-01-17 2022-01-17 基于机器学习的自然语言处理方法和系统

Publications (2)

Publication Number Publication Date
CN114519357A CN114519357A (zh) 2022-05-20
CN114519357B true CN114519357B (zh) 2023-12-08

Family

ID=81596040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210045865.4A Active CN114519357B (zh) 2022-01-17 2022-01-17 基于机器学习的自然语言处理方法和系统

Country Status (1)

Country Link
CN (1) CN114519357B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180125746A (ko) * 2017-05-16 2018-11-26 동아대학교 산학협력단 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111950256A (zh) * 2020-06-23 2020-11-17 北京百度网讯科技有限公司 断句处理方法、装置、电子设备和计算机存储介质
CN111984778A (zh) * 2020-09-08 2020-11-24 四川长虹电器股份有限公司 基于依存句法分析和汉语语法的多轮语义分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8224092B2 (en) * 2008-07-08 2012-07-17 Xerox Corporation Word detection method and system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180125746A (ko) * 2017-05-16 2018-11-26 동아대학교 산학협력단 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111950256A (zh) * 2020-06-23 2020-11-17 北京百度网讯科技有限公司 断句处理方法、装置、电子设备和计算机存储介质
CN111984778A (zh) * 2020-09-08 2020-11-24 四川长虹电器股份有限公司 基于依存句法分析和汉语语法的多轮语义分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
双锴.自然语言处理.北京邮电大学出版社,2021,第209-211页. *
语义网自动构建中句子成分识别的研究;李曦;中国优秀硕士学位论文全文数据库信息科技辑;第2-4章 *

Also Published As

Publication number Publication date
CN114519357A (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
WO2021042503A1 (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN114238629A (zh) 一种基于自动提示推荐的语言处理方法、装置及终端
CN114639386A (zh) 文本纠错及文本纠错词库构建方法
CN115544240A (zh) 文本类敏感信息识别方法、装置、电子设备和存储介质
CN110781673B (zh) 文档验收方法、装置、计算机设备及存储介质
CN111737424A (zh) 一种问题的匹配方法、装置、设备及存储介质
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN111723182B (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN111831792A (zh) 一种电力知识库构建方法及系统
CN114519357B (zh) 基于机器学习的自然语言处理方法和系统
CN110705258A (zh) 文本实体识别方法及装置
CN116483314A (zh) 一种自动化智能活动图生成方法
CN115510192A (zh) 一种新闻事件脉络关系检测方法及装置
CN115563278A (zh) 一种句子文本的问题分类处理方法及装置
CN112071304B (zh) 一种语意分析方法及装置
CN114638229A (zh) 笔录数据的实体识别方法、装置、介质及设备
CN112632229A (zh) 文本聚类方法及装置
CN111737988B (zh) 一种复述句识别的方法及装置
CN114942980B (zh) 一种确定文本匹配方法及装置
CN112364666B (zh) 文本表征方法、装置及计算机设备
CN114254177A (zh) 基于词义分布假设构造的语言处理方法和系统
CN114254631A (zh) 基于面向数据流的自然语言分析方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant