CN116562270A - 一种支持多模态输入的自然语言处理系统及其方法 - Google Patents

一种支持多模态输入的自然语言处理系统及其方法 Download PDF

Info

Publication number
CN116562270A
CN116562270A CN202310826751.8A CN202310826751A CN116562270A CN 116562270 A CN116562270 A CN 116562270A CN 202310826751 A CN202310826751 A CN 202310826751A CN 116562270 A CN116562270 A CN 116562270A
Authority
CN
China
Prior art keywords
data
module
processing unit
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310826751.8A
Other languages
English (en)
Inventor
郭燕飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Yike Technology Co ltd
Original Assignee
Tianjin Yike Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Yike Technology Co ltd filed Critical Tianjin Yike Technology Co ltd
Priority to CN202310826751.8A priority Critical patent/CN116562270A/zh
Publication of CN116562270A publication Critical patent/CN116562270A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言技术领域,具体地说,涉及一种支持多模态输入的自然语言处理系统及其方法。其包括数据输入单元、特征提取单元、处理单元、综合处理单元,数据输入单元接收多模态的输入数据,将接收的数据定义成初步的数据,并对初步的数据进行预处理操作,将预处理操作后的初步的数据传入特征提取单元中,使特征提取单元进行审核,识别出不同类型的数据。本发明对不同类型的数据进行提取文本、图像、语音数据,可以把得到的图像、语音数据运用图像识别技术和语音识别技术都转化为文本形式数据,再运用信息熵算法对图像数据和语音数据转化为文本数据进行拆分,词性标注和命名实体标注,再将处理后的数据进行整合分析得出新的文本数据。

Description

一种支持多模态输入的自然语言处理系统及其方法
技术领域
本发明涉及自然语言处理技术领域,具体地说,涉及一种支持多模态输入的自然语言处理系统及其方法。
背景技术
自然语言是指人类平时使用的口头交流语言或书面语言,人类的自然语言包含了丰富的语言结构、语法规则和语义知识,可用于表达各种不同的意图,人类可以使用自然语言进行沟通和交流,而计算机则需要学习和理解自然语言才能够理解和利用人类的语言,自然语言处理是一个涉及计算机科学、人工智能和语言学等多个领域的交叉领域,主要研究如何使用计算机处理和分析自然语言,自然语言处理是一项非常重要的技术,可以为人们提供丰富的自然语言交流和信息处理体验,同时也为各个行业和领域带来了很多的机会和挑战。
从上述描述可以看出,目前的自然语言处理系统主要针对文本数据进行处理,对于多模态输入数据的处理能力较弱,用户往往不能同时使用多种输入模态,如文字描述、图片和语音的数据同时进行,适应实际应用场景的局限性,不能对多模态的信息进行融合和整合,因此我们提出了一种支持多模态输入的自然语言处理系统及其方法。
发明内容
本发明的目的在于提供一种支持多模态输入的自然语言处理系统的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明目的之一在于,提供了一种支持多模态输入的自然语言处理系统,包括数据输入单元、特征提取单元、处理单元、综合处理单元;
数据输入单元接收多模态的输入数据,将接收的数据定义成初步的数据,并对初步的数据进行预处理操作;
特征提取单元对预处理后的初步的数据进行审核,识别出不同类型的数据,并对不同类型的数据进行数据提取,将提取出的数据传到处理单元中;
处理单元接收特征提取单元提取出的数据并进行图像识别处理、语音识别处理和文本识别处理,将处理后的数据转化为文本数据,并对文本数据进行处理;
综合处理单元接收处理后的文本数据进行整合和分析;
数据输入单元接收多模态的输入数据,将接收的数据定义成初步的数据,并对初步的数据进行预处理操作,将预处理操作后的初步的数据传入特征提取单元中,使特征提取单元对接收的数据进行审核,识别出不同类型的数据,并对不同类型的数据进行数据提取,将提取出的数据传到处理单元中,当处理单元接收到提取出的数据时,直接进行图像数据识别处理、语音数据识别处理和文本数据识别处理,将处理后的数据转化为文本数据,并对文本数据进行处理,最后利用综合处理单元将接收处理后的文本数据进行整合和分析,得出新的文本数据。
作为本技术方案的进一步改进,数据输入单元包括数据接收模块和数据预处理模块,数据接收模块用于接收多模态的输入数据,将接收的数据定义成初步的数据,数据预处理模块用于接收初步的数据,并对初步的数据进行预处理操作。
作为本技术方案的进一步改进,预处理操作步骤包括清洗步骤、去重步骤和统一数据格式步骤,清洗步骤运用异常值处理算法去除初步的数据中语音数据的噪声,去重步骤用于移除重复的数据,统一数据格式步骤用于把文本数据、图像数据和语音数据转化为统一的数据格式,并在格式转化后将数据存储在数据库中。
作为本技术方案的进一步改进,特征提取单元包括执行特征模块和识别提取模块,执行特征模块用于提取数据库中统一数据格式的数据,并对提取的数据进行审核,确定是否出现乱码现象,识别提取模块用于接收执行特征模块审核后的数据,识别出不同类型的数据,并从不同类型的数据中提取出文本数据、图像数据和语音数据。
作为本技术方案的进一步改进,处理单元包括文本处理单元、图像处理单元和语音处理单元,文本处理单元用于接收特征提取单元提取出的文本数据,并对接收的文本数据进行处理,图像处理单元用于接收特征提取单元提取出的图像数据,并对图像数据进行物体场景的图像识别和目标检测处理,语音处理单元用于接收特征提取单元提取出的语音数据,并对语音数据进行处理,文本处理单元、图像处理单元和语音处理单元用于接收特征提取单元提取出的文本数据、图像数据和语音数据,图像处理单元将图像数据进行图像数据识别处理,语音处理单元对语音数据进行语音数据识别处理,图像处理单元和语音处理单元将处理的数据转化为文本数据,转化后的文本数据传入本处理单元中进行处理。
作为本技术方案的进一步改进,文本处理单元包括分词模块和词性标注模块,分词模块用于接收识别提取模块提取出的文本数据,并对文本数据进行拆分,将文本数据中的连续字段拆分成有序字段,词性标注模块用于接收分词模块拆分后的文本数据,并对拆分后的文本数据进行词性标注和命名实体标注。
作为本技术方案的进一步改进,图像处理单元包括图像识别模块和目标检测模块,图像识别模块用于接收识别提取模块提取出的图像数据,使用Haar-like矩形特征算法识别图像数据中的图像,获取图像中的物体或场景,目标检测模块用于接收图像识别模块识别出图像中的物体或场景,并使用目标检测技术对图像中的物体和场景进行目标检测,利用信息熵算法将图像转化为文本数据,再将文本数据传入分词模块中。
作为本技术方案的进一步改进,语音处理单元包括语音识别模块,语音识别模块用于接收识别提取模块提取出的语音数据,并使用语音识别技术将接收的语音数据转化为文本数据,再将文本数据传入分词模块中。
作为本技术方案的进一步改进,综合处理单元包括信息融合模块和联合分析模块,信息融合模块用于接收词性标注模块处理后的文本数据,并对处理后的文本数据进行整理,得出新的文本数据,联合分析模块用于接收括信息融合模块新的文本数据进行分析,当分析出含有问题,并向数据接收模块进行反馈。
本发明目的之二在于,提供了一种操作上述所述的支持多模态输入的自然语言处理系统及其方法,包括如下方法步骤:
S1、数据输入单元接收多模态的输入数据,将接收的数据定义成初步的数据,并对初步的数据进行清洗语音数据中的噪声,移除重复的数据,统一数据格式的预处理操作;
S2、特征提取单元接收预处理操作后的数据格式进行审核,当数据格式审核有问题时,重新接收多模态的输入数据,数据格式审核无问题时直接进行识别,并将提取出的文本数据、图像数据和语音数据分配到文本处理单元、图像处理单元、语音处理单元不同的处理单元中进行处理;
S3、综合处理单元接收处理单元处理后的数据进行整理,得出新的文本数据,并对新的文本数据进行分析。
与现有技术相比,本发明的有益效果:
1、该支持多模态输入的自然语言处理系统的方法中,可以同时接收文本、图像、语音数据多模态输入数据定义成初步的数据,并对初步的数据进行去除初步的数据中语音数据的噪声,移除重复的字段,把文本数据、图像数据和语音数据统一数据格式,并将数据格式存储在数据库中,确保存入数据库中数据的质量,数据统一存储在数据库中方便了使用者更好地管理和查询数据。
2、该支持多模态输入的自然语言处理系统的方法中,可以把得到的图像、语音数据运用图像识别技术和语音识别技术都转化为文本形式数据,再运用信息熵算法对图像数据和语音数据转化为文本数据进行拆分,词性标注和命名实体标注,再将处理后的数据进行整合分析得出新的文本数据,便于使用者的理解。
附图说明
图1为本发明的整体框图;
图2为本发明的数据输入单元框图;
图3为本发明的特征提取单元框图;
图4为本发明的文本处理单元框图;
图5为本发明的图像处理单元框图;
图6为本发明的语音处理单元框图;
图7为本发明的综合处理单元框图。
图中各个标号意义为:
1、数据输入单元;11、数据接收模块;12、数据预处理模块;
2、特征提取单元;21、执行特征模块;22、识别提取模块;
3、文本处理单元;31、分词模块;32、词性标注模块;
4、图像处理单元;41、图像识别模块;42、目标检测模块;
5、语音处理单元;51、语音识别模块;
6、综合处理单元;61、信息融合模块;62、联合分析模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例1:请参阅图1-图7所示,本实施例目的之一在于,提供了一种支持多模态输入的自然语言处理系统,包括数据输入单元1、特征提取单元2、处理单元、综合处理单元6;
考虑到现实场景中的系统不能同时接收多模态的数据,且处理技术的能力较弱,因此提出一种能够同时处理多种模态数据的自然语言处理系统,该系统由数据输入单元1接收多模态的输入数据,将接收的数据定义成初步的数据,并对初步的数据进行预处理操作,预处理后的初步的数据传入特征提取单元2中,特征提取单元2对预处理后的初步的数据进行审核,识别出不同类型的数据,并对不同类型的数据进行数据提取,将提取出的数据传到处理单元中,处理单元接收特征提取单元2提取出的数据并进行图像识别处理、语音识别处理和文本识别处理,将处理后的数据转化为文本数据,并对文本数据进行处理,综合处理单元6接收处理后的文本数据进行整合和分析,在该系统中运用了不同的处理技术,比如语音识别技术和Haar-like矩形特征算法,语音识别技术是指将语音数据转换成文本数据的技术,可以帮助用户更快速、更自然地进行操作,使该系统理解用户语言,为用户提供智能、自然、高效的服务。
数据输入单元1接收多模态的输入数据,将接收的数据定义成初步的数据,并对初步的数据进行预处理操作,将预处理操作后的初步的数据传入特征提取单元2中,使特征提取单元2对接收的数据进行审核,识别出不同类型的数据,并对不同类型的数据进行数据提取,将提取出的数据传到处理单元中,当处理单元接收到提取出的数据时,直接进行图像数据识别处理、语音数据识别处理和文本数据识别处理,将处理后的数据转化为文本数据,并对文本数据进行处理,将文本数据进行分词、词性标注、命名实体识别处理,最后利用综合处理单元6将接收处理后的文本数据进行整合和分析,得出新的文本数据,便于用户的理解。
以下对上述单元进行细化,请参考图2-图7所示:
数据输入单元1包括数据接收模块11和数据预处理模块12;
数据接收模块11用于接收多模态的输入数据,将接收的数据定义成初步的数据,初步的数据含有文本、图像和语音的数据,如一段文字描述、一张图片和一段语音录音,当初步的数据传入数据预处理模块12中;
数据预处理模块12用于接收初步的数据,并对初步的数据进行预处理操作,预处理操作步骤包括清洗步骤、去重步骤和统一数据格式步骤,清洗步骤运用异常值处理算法去除初步的数据中语音数据的噪声,若一段语音数据中除了使用者自身的声音还夹杂着其他声音时,当其他声音进行测量超过45分贝时为噪音,并对语音数据进行清洗,如果其他声音没有超过45分贝时则不为噪音,直接进行去重步骤,去重步骤用于移除重复的数据,如一段文字中出现了两句一模一样的连续字段,移除一段重复字段,移除重复字段后再进行统一数据格式,统一数据格式步骤用于把文本数据、图像数据和语音数据转化为统一的数据格式,并在格式转化后将数据存储在数据库中,这样可以确保存入数据库中数据的质量,数据统一存储在数据库中实现了更好地管理和查询数据,可以实现更快更准确地进行数据可视化、数据挖掘。
特征提取单元2包括执行特征模块21和识别提取模块22;
执行特征模块21用于提取数据库中统一数据格式的数据,并对提取的数据进行审核,确定是否出现乱码现象,当数据格式审核出现乱码现象时,重新利用数据接收模块11接收多模态数据,当数据格式审核无乱码现象时,直接将审核通过的数据格式传入识别提取模块22中;
识别提取模块22用于接收执行特征模块21审核后的数据,识别出不同类型的数据,并从不同类型的数据中提取出文本数据、图像数据和语音数据,再将提取出文本数据、图像数据和语音数据分配到处理单元中,在这里的审核可以减少数据中的问题,提高了后面处理功能处理数据的安全性。
处理单元包括文本处理单元3、图像处理单元4和语音处理单元5;
文本处理单元3、图像处理单元4和语音处理单元5用于接收特征提取单元2提取出的文本数据、图像数据和语音数据,图像处理单元4将图像数据进行图像数据识别处理,语音处理单元5对语音数据进行语音数据识别处理,图像处理单元4和语音处理单元5将处理的数据转化为文本数据,转化后的文本数据传入文本处理单元3中进行处理。
其中,文本处理单元3用于接收特征提取单元2提取出的文本数据,并对接收的文本数据进行处理,文本处理单元3包括分词模块31和词性标注模块32,分词模块31用于接收识别提取模块22提取出的文本数据,并对文本数据进行拆分,将文本数据中的连续字段拆分成有序字段,如“我们在实际应用中这些组成部分需要经过深入的研究和优化保证检测系统具有高精度”连续字段,拆分成“我们在实际应用中,这些组成部分需要经过深入的研究和优化,保证检测系统具有高精度。”的有序字段,将拆分后的文本数据传入词性标注模块32中,词性标注模块32用于接收分词模块31拆分后的文本数据,并对拆分后的文本数据进行词性标注和命名实体标注,将标注后的文本数据传入信息融合模块61中,词性标注用于标注名词、动词、形容词、副词、介词、连词,命名实体标注用于标注人名、地名、组织机构名称、日期、时间,该系统对文本数据进行拆分和标注不仅使用户便于理解文本内容,还丰富了文本内容的多样性。
图像处理单元4用于接收特征提取单元2提取出的图像数据,并对图像数据进行物体场景的图像识别和目标检测处理,图像处理单元4包括图像识别模块41和目标检测模块42,图像识别模块41用于接收识别提取模块22提取出的图像数据,并使用Haar-like矩形特征算法识别图像数据中的图像,获取图像中的物体或场景,将获取后的物体和场景传入目标检测模块42中,目标检测模块42用于接收图像识别模块41识别出图像中的物体或场景,并使用目标检测技术对图像中的物体和场景进行目标检测,目标检测技术主要算出图像中物体和场景的准确位置,这样可以便于使用者在现实场景中找到图像中的物体和场景,再利用信息熵算法将图像转化为文本数据,再将文本数据传入分词模块31中;
Haar-like矩形特征算法数学公式步骤:
步骤一:两个相邻的图像的差:,其中/>和/>分别表示两个相邻的图像内像素点的灰度值之和;
步骤二:三个相邻的图像:,其中/>、/>和/>分别表示三个相邻图像内像素点的灰度值之和;
步骤三:四个相邻的图像:,其中/>、/>、/>分别表示四个相邻图像内像素点的灰度值之和;
该公式主要是计算像素的灰度值,灰度值也就是图像的颜色和亮度,当该公式计算出的灰度值越高时,像素越清晰,提高了该系统识别出的物体和场景更清晰;
信息熵算法数学公式:
Σ表示文本求数据和运算,Pi*log2(Pi)表示数据中的信息量,-Σ[Pi * log2(Pi)]表示将图像数据中的信息量转化为文本数据的取值求和计算。
语音处理单元5用于接收特征提取单元2提取出的语音数据,并对语音数据进行处理,语音处理单元5包括语音识别模块51,语音识别模块51用于接收识别提取模块22提取出的语音数据,并使用语音识别技术将接收的语音数据转化为文本数据,语音技术采用了HMM模型算法,再将文本数据传入分词模块31中;
HMM模型算法数学公式:
可以由语音数据得到,/>可以通过计算语音数据中的数据得到。因此,语音识别算法的关键是计算/>和/>的估计值,并寻找最大概率对应的文本输出。
综合处理单元6包括信息融合模块61和联合分析模块62,信息融合模块61用于接收词性标注模块32处理后的文本数据,接收三个处理后的文本数据,三个处理后的文本数据指的是文本处理单元3自身处理的文本数据,还有图像处理单元4和语音处理单元5中传入文本处理单元3中的文本数据,并对处理后的文本数据进行整理,得出新的文本数据,将得出新的文本数据传入联合分析模块62中,联合分析模块62用于接收信息融合模块61新的文本数据进行分析,当分析出含有问题,如发现错别字“吃范”时,并向数据接收模块11进行反馈,如果分析出没有问题,则不需要向数据接收模块11进行反馈。
当数据接收模块11接收多模态的输入数据,并对接收的数据定义成初步的数据,将初步的数据传入数据预处理模块12中,数据预处理模块12接收初步的数据,并对初步的数据进行预处理操作,预处理操作后的初步的数据进行清洗步骤、去重步骤和统一数据格式步骤,将数据格式传入执行特征模块21中,执行特征模块21接收数据格式,并对数据格式进行审核,确定是否出现乱码现象,当数据格式审核出现乱码现象时,重新利用数据接收模块11接收多模态数据,当数据格式审核无乱码现象时,直接将审核通过的数据格式传入识别提取模块22,识别提取模块22接收审核通过的数据格式,识别出不同类型的数据,并从不同类型的数据中提取出文本数据、图像数据和语音数据,将提取出的图像数据和语音数据分别传入图像识别模块41和语音识别模块51中,利用信息熵算法将图像数据转化为文本数据,利用HMM模型算法将语音数据转化为文本数据,将图像数据和语音数据转化为的文本数据传入分词模块31中,提取出的文本数据直接传入分词模块31中,分词模块31不仅接收识别提取模块22提取出的文本数据,还有图像数据和语音数据转化为的文本数据,并对这三个文本数据进行拆分,将三个文本数据中的连续字段拆分成有序字段,拆分后的三个文本数据传入词性标注模块32中,词性标注模块32接收分词模块31拆分后的三个文本数据,并对拆分后的三个文本数据进行词性标注和命名实体标注,将标注后的三个文本数据传入信息融合模块61中,信息融合模块61接收标注后的三个文本数据,并对这三个文本数据进行融合,得出新的文本数据,再将得出新的文本数据传入联合分析模块62中,联合分析模块62在接收到新的文本数据时,并对新的文本数据进行分析,当分析出含有问题,并向数据接收模块11进行反馈,如果分析出没有问题,则不需要向数据接收模块11进行反馈。
本发明目的之二在于,提供了一种用于操作包括上述任意一项所述的支持多模态输入的自然语言处理系统的方法,包括如下方法步骤:
S1、数据输入单元1接收多模态的输入数据,将接收的数据定义成初步的数据,并对初步的数据进行清洗语音数据中的噪声,移除重复的数据,统一数据格式的预处理操作;
S2、特征提取单元2接收预处理操作后的数据格式进行审核,当数据格式审核有问题时,重新接收多模态的输入数据,数据格式审核无问题时直接进行识别,并将提取出的文本数据、图像数据和语音数据分配到文本处理单元3、图像处理单元4、语音处理单元5不同的处理单元中进行处理;
S3、综合处理单元6接收处理单元处理后的数据进行整理,得出新的文本数据,并对新的文本数据进行分析。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种支持多模态输入的自然语言处理系统,其特征在于:包括数据输入单元(1)、特征提取单元(2)、处理单元、综合处理单元(6):
所述数据输入单元(1)接收多模态的输入数据,将接收的数据定义成初步的数据,并对初步的数据进行预处理操作;
所述特征提取单元(2)对预处理后的初步的数据进行审核,识别出不同类型的数据,并对不同类型的数据进行数据提取,将提取出的数据传到处理单元中;
所述处理单元接收特征提取单元(2)提取出的数据并进行图像识别处理、语音识别处理和文本识别处理,将处理后的数据转化为文本数据,并对文本数据进行处理;
所述综合处理单元(6)接收处理后的文本数据进行整合和分析;
所述数据输入单元(1)接收多模态的输入数据,将接收的数据定义成初步的数据,并对初步的数据进行预处理操作,将预处理操作后的初步的数据传入特征提取单元(2)中,使特征提取单元(2)对接收的数据进行审核,识别出不同类型的数据,并对不同类型的数据进行数据提取,将提取出的数据传到处理单元中,当处理单元接收到提取出的数据时,直接进行图像数据识别处理、语音数据识别处理和文本数据识别处理,将处理后的数据转化为文本数据,并对文本数据进行处理,最后利用综合处理单元(6)将接收处理后的文本数据进行整合和分析,得出新的文本数据。
2.根据权利要求1所述的支持多模态输入的自然语言处理系统,其特征在于:所述数据输入单元(1)包括数据接收模块(11)和数据预处理模块(12);
所述数据接收模块(11)用于接收多模态的输入数据,将接收的数据定义成初步的数据;
所述数据预处理模块(12)用于接收初步的数据,并对初步的数据进行预处理操作。
3.根据权利要求2所述的支持多模态输入的自然语言处理系统,其特征在于:所述预处理操作步骤包括清洗步骤、去重步骤和统一数据格式步骤;
所述清洗步骤运用异常值处理算法去除初步的数据中语音数据的噪声;
所述去重步骤用于移除重复的数据;
所述统一数据格式步骤用于把文本数据、图像数据和语音数据转化为统一的数据格式,并在格式转化后将数据存储在数据库中。
4.根据权利要求3所述的支持多模态输入的自然语言处理系统,其特征在于:所述特征提取单元(2)包括执行特征模块(21)和识别提取模块(22);
所述执行特征模块(21)用于提取数据库中统一数据格式的数据,并对提取的数据进行审核,确定是否出现乱码现象;
所述识别提取模块(22)用于接收执行特征模块(21)审核后的数据,识别出不同类型的数据,并从不同类型的数据中提取出文本数据、图像数据和语音数据。
5.根据权利要求4所述的支持多模态输入的自然语言处理系统,其特征在于:所述处理单元包括文本处理单元(3)、图像处理单元(4)和语音处理单元(5);
所述文本处理单元(3)用于接收特征提取单元(2)提取出的文本数据,并对接收的文本数据进行处理;
所述图像处理单元(4)用于接收特征提取单元(2)提取出的图像数据,并对图像数据进行物体场景的图像识别和目标检测处理;
所述语音处理单元(5)用于接收特征提取单元(2)提取出的语音数据,并对语音数据进行处理;
所述文本处理单元(3)、图像处理单元(4)和语音处理单元(5)用于接收特征提取单元(2)提取出的文本数据、图像数据和语音数据,图像处理单元(4)将图像数据进行图像数据识别处理,语音处理单元(5)对语音数据进行语音数据识别处理,图像处理单元(4)和语音处理单元(5)将处理的数据转化为文本数据,转化后的文本数据传入文本处理单元(3)中进行处理。
6.根据权利要求5所述的支持多模态输入的自然语言处理系统,其特征在于:所述文本处理单元(3)包括分词模块(31)和词性标注模块(32);
所述分词模块(31)用于接收识别提取模块(22)提取出的文本数据,并对文本数据进行拆分,将文本数据中的连续字段拆分成有序字段;
所述词性标注模块(32)用于接收分词模块(31)拆分后的文本数据,并对拆分后的文本数据进行词性标注和命名实体标注。
7.根据权利要求6所述的支持多模态输入的自然语言处理系统,其特征在于:所述图像处理单元(4)包括图像识别模块(41)和目标检测模块(42);
所述图像识别模块(41)用于接收识别提取模块(22)提取出的图像数据,使用Haar-like矩形特征算法识别图像数据中的图像,获取图像中的物体或场景;
所述目标检测模块(42)用于接收图像识别模块(41)识别出图像中的物体或场景,并使用目标检测技术对图像中的物体和场景进行目标检测,利用信息熵算法将图像转化为文本数据,再将文本数据传入分词模块(31)中。
8.根据权利要求7所述的支持多模态输入的自然语言处理系统,其特征在于:所述语音处理单元(5)包括语音识别模块(51),语音识别模块(51)用于接收识别提取模块(22)提取出的语音数据,并使用语音识别技术将接收的语音数据转化为文本数据,再将文本数据传入分词模块(31)中。
9.根据权利要求8所述的支持多模态输入的自然语言处理系统,其特征在于:所述综合处理单元(6)包括信息融合模块(61)和联合分析模块(62);
所述信息融合模块(61)用于接收词性标注模块(32)处理后的文本数据,并对处理后的文本数据进行整理,得出新的文本数据;
所述联合分析模块(62)用于接收信息融合模块(61)新的文本数据进行分析,当分析出有问题,并向数据接收模块(11)进行反馈。
10.一种用于操作包括权利要求1-9中任意一项所述的支持多模态输入的自然语言处理系统的方法,其特征在于:包括如下方法步骤:
S1、数据输入单元(1)接收多模态的输入数据,将接收的数据定义成初步的数据,并对初步的数据进行清洗语音数据中的噪声,移除重复的数据,统一数据格式的预处理操作;
S2、特征提取单元(2)接收预处理操作后的数据格式进行审核,当数据格式审核有问题时,重新接收多模态的输入数据,数据格式审核无问题时直接进行识别,并将提取出的文本数据、图像数据和语音数据分配到文本处理单元(3)、图像处理单元(4)、语音处理单元(5)不同的处理单元中进行处理;
S3、综合处理单元(6)对接收处理单元处理后的数据进行整理,得出新的文本数据,并对新的文本数据进行分析。
CN202310826751.8A 2023-07-07 2023-07-07 一种支持多模态输入的自然语言处理系统及其方法 Pending CN116562270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310826751.8A CN116562270A (zh) 2023-07-07 2023-07-07 一种支持多模态输入的自然语言处理系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310826751.8A CN116562270A (zh) 2023-07-07 2023-07-07 一种支持多模态输入的自然语言处理系统及其方法

Publications (1)

Publication Number Publication Date
CN116562270A true CN116562270A (zh) 2023-08-08

Family

ID=87488301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310826751.8A Pending CN116562270A (zh) 2023-07-07 2023-07-07 一种支持多模态输入的自然语言处理系统及其方法

Country Status (1)

Country Link
CN (1) CN116562270A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992301A (zh) * 2019-12-02 2021-06-18 金色熊猫有限公司 数据处理方法、装置、电子设备及存储介质
CN117133294A (zh) * 2023-10-26 2023-11-28 中铁四局集团有限公司 基于lstm模型的语音特征单元提取的改进型智慧工单系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法
CN108564942A (zh) * 2018-04-04 2018-09-21 南京师范大学 一种基于敏感度可调的语音情感识别方法及系统
CN110489636A (zh) * 2018-05-15 2019-11-22 南京大学 一种基于代码分析与图像处理的网页广告屏蔽方法
CN112738556A (zh) * 2020-12-22 2021-04-30 上海哔哩哔哩科技有限公司 视频处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法
CN108564942A (zh) * 2018-04-04 2018-09-21 南京师范大学 一种基于敏感度可调的语音情感识别方法及系统
CN110489636A (zh) * 2018-05-15 2019-11-22 南京大学 一种基于代码分析与图像处理的网页广告屏蔽方法
CN112738556A (zh) * 2020-12-22 2021-04-30 上海哔哩哔哩科技有限公司 视频处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡志刚,等: ""科技论文中学术信息的提取方法综述"", 《数字图书馆论坛》, no. 10, pages 4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992301A (zh) * 2019-12-02 2021-06-18 金色熊猫有限公司 数据处理方法、装置、电子设备及存储介质
CN112992301B (zh) * 2019-12-02 2024-03-29 金色熊猫有限公司 数据处理方法、装置、电子设备及存储介质
CN117133294A (zh) * 2023-10-26 2023-11-28 中铁四局集团有限公司 基于lstm模型的语音特征单元提取的改进型智慧工单系统
CN117133294B (zh) * 2023-10-26 2024-01-05 中铁四局集团有限公司 基于lstm模型的语音特征单元提取的改进型智慧工单系统

Similar Documents

Publication Publication Date Title
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN110457689B (zh) 语义处理方法及相关装置
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN116562270A (zh) 一种支持多模态输入的自然语言处理系统及其方法
US7739110B2 (en) Multimedia data management by speech recognizer annotation
CN111832293B (zh) 基于头实体预测的实体和关系联合抽取方法
CN112784696A (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN114419387A (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN113642536B (zh) 数据处理方法、计算机设备以及可读存储介质
CN114298121A (zh) 基于多模态的文本生成方法、模型训练方法和装置
CN113392265A (zh) 多媒体处理方法、装置及设备
CN113535925B (zh) 语音播报方法、装置、设备及存储介质
CN117743526A (zh) 一种基于大语言模型和自然语言处理的表格问答方法
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
CN117688220A (zh) 一种基于大语言模型的多模态信息检索方法及系统
CN118097534A (zh) 园区安防视频监控方法、装置、设备及存储介质
CN117235605A (zh) 一种基于多模态注意力融合的敏感信息分类方法及装置
CN116842944A (zh) 一种基于词增强的实体关系抽取方法及装置
CN116629236A (zh) 一种待办事项提取方法、装置、设备及存储介质
CN116822513A (zh) 一种融合实体类型与关键词特征的命名实体识别方法
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN116010545A (zh) 一种数据处理方法、装置及设备
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN116090450A (zh) 一种文本处理方法及计算设备
CN113627186B (zh) 基于人工智能的实体关系检测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination