CN113220885B - 一种文本处理方法和系统 - Google Patents

一种文本处理方法和系统 Download PDF

Info

Publication number
CN113220885B
CN113220885B CN202110562028.4A CN202110562028A CN113220885B CN 113220885 B CN113220885 B CN 113220885B CN 202110562028 A CN202110562028 A CN 202110562028A CN 113220885 B CN113220885 B CN 113220885B
Authority
CN
China
Prior art keywords
target
text
sentences
description
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110562028.4A
Other languages
English (en)
Other versions
CN113220885A (zh
Inventor
李天明
管丹萍
王世镇
周志衡
李智
王康
朱韡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110562028.4A priority Critical patent/CN113220885B/zh
Publication of CN113220885A publication Critical patent/CN113220885A/zh
Application granted granted Critical
Publication of CN113220885B publication Critical patent/CN113220885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本说明书实施例公开了一种文本处理方法和系统。其中,该方法包括:获取目标文本;目标文本包含多条语句;基于目标文本,通过第一预测模型确定目标文本中的一条或多条目标语句关联的对象;基于一条或多条目标语句通过第二预测模型,确定各目标语句对其关联的对象的描述观点;基于各目标语句对其关联的对象的描述观点,确定目标文本对一个或多个对象的描述结论。

Description

一种文本处理方法和系统
技术领域
本说明书涉及信息技术领域,特别涉及一种文本处理方法和系统。
背景技术
随着网络的飞速发展和广泛应用,互联网上的各类数据爆炸式增长,如何高效地从海量数据中获取有价值的观点信息是目前亟需解决的问题。
因此,有必要提出一种文本处理方法和系统,以智能、高效地从各类数据的文本信息中挖掘数据观点。
发明内容
本说明书实施例的一个方面提供一种文本处理方法。该方法包括:获取目标文本;所述目标文本包含多条语句;基于所述目标文本,通过第一预测模型确定所述目标文本中的一条或多条目标语句及其关联的对象;基于所述一条或多条目标语句通过第二预测模型,确定各目标语句对其关联的对象的描述观点;基于所述各目标语句对其关联的对象的描述观点,确定所述目标文本对一个或多个对象的描述结论。
本说明书实施例的另一个方面提供一种文本处理系统。该系统包括:文本获取模块,可以用于获取目标文本;所述目标文本包含多条语句。目标语句确定模块,可以用于基于所述目标文本,通过第一预测模型确定所述目标文本中的一条或多条目标语句及其关联的对象。描述观点确定模块,可以用于基于所述一条或多条目标语句通过第二预测模型,确定各目标语句对其关联的对象的描述观点。描述结论确定模块,可以用于基于所述各目标语句对其关联的对象的描述观点,确定所述目标文本对一个或多个对象的描述结论。
本说明书实施例的另一个方面提供一种文本处理装置包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现该文本处理方法。
本说明书实施例的另一个方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行该文本处理方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书的一些实施例所示的文本处理系统的应用场景的示例性示意图;
图2是根据本说明书一些实施例所示的文本处理方法的示例性流程图;
图3是根据本说明书一些实施例所示的文本处理系统的示例性模块图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
自然语言处理是目前人工智能中的一个非常重要的方向,通过“处理自然语言”可以达到让机器去理解人的文本或语言的目的。目前,自然语言处理被广泛应用于各种场景,例如,金融场景、互联网场景、工业场景等。以金融场景为例,自然语言处理技术可以用于基于货币政策、分析师研报、媒体新闻、财报、舆情等数据,进行文本信息挖掘,以获取其中有价值的信息,为企业机构或个人提供决策或操作帮助。比如通过对经济形势相关的文章数据进行分析来制定相应的投融资策略,可以便于金融从业人员更好地感知经济策略,以更好地进行债券市场资金管理等操作。
然而,及时有效地的信息大量分布在非结构化数据(比如各类文章、报道、新闻、生产日志等)中,与对结构化数据进行分析不同,从非结构化信息中提取有效信息较为困难。例如,仍以金融场景为例,大量及时有效的信息分布在比如研报、新闻资讯、博客等这些媒介当中。这些非结构化数据的数量巨大,内容多样,并且在语言上较为抽象和隐晦,难以从其中高效、智能的提取出观点信息,例如,从非结构化的分析师研报数据中提取利率预测观点就较为困难。
因此,本说明书实施例提出一种文本处理方法和系统,可以从非结构化数据中提取利率预测观点。应当理解,以上例子仅出于示例地目的,并不限于以上所示例的应用,例如,还可以从非结构化数据中提取股票走势预测观点、机票价格的走势预测观点、设备的性能走向预测观点、工业生产需求走向预测观点等。以下通过对附图的描述详细阐述本说明书披露的技术方案。
图1是根据本说明书的一些实施例所示的文本处理系统的应用场景的示例性示意图。
如图1所示,在应用场景中可以包括服务器110、网络120、终端设备130以及存储设备140。
文本处理系统100可以应用于各种自然语言处理场景,例如,机器翻译、语义理解、舆情风报分析等。
服务器110可用于处理与文本处理相关的信息和/或数据来执行在本说明书中披露的一个或者多个功能。例如,服务器110可以获取目标文本;所述目标文本包含多条语句;服务器110可以基于所述目标文本通过第一预测模型,确定所述目标文本中的一条或多条目标语句及其关联的对象;服务器110可以基于所述一条或多条目标语句通过第二预测模型,确定各目标语句对其关联的对象的描述观点;服务器110可以基于所述各目标语句对其关联的对象的描述观点,确定所述目标文本对一个或多个对象的描述结论。在一些实施例中,服务器110可以是本地的或远程的。例如,服务器110可以在终端设备130本地连接终端设备130以获取其发送的信息和/或数据。又例如,服务器110可以经由网络120远程接收终端设备130发送的信息和/数据。例如,从终端设备130处获取目标文本。在一些实施例中,服务器110可以在云平台上实施。仅作为示例,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。在一些实施例中,服务器110包括处理设备112。
网络120可以促进信息和/或数据的交换。在一些实施例中,文本处理系统100的一个或者多个组件(例如服务器110、终端设备130、存储设备140)可以通过网络120传送信息至文本处理系统100的其他组件。例如,服务器110可以通过网络120从各类数据源获取与人们关注的一个或多个目标对象相关的非结构化数据,以进行处理,获取非结构化数据对目标对象的描述结论。又例如,服务器110可以将获得的描述结论通过网络120提供给终端设备130。在一些实施例中,网络120可以是任意形式的有线或者无线网络,或其任意组合。仅作为范例,网络120可以是有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共交换电话网络(PSTN)、蓝牙网络等中的一种或多种组合。
终端设备130可以是用户所使用的一个或多个终端设备或软件。在一些实施例中,终端设备130可以是移动设备130-1、平板计算机130-2、膝上型计算机130-3、台式计算机130-4等具有输入和/或输出功能的设备中的一种或其任意组合。在一些实施例中,终端设备130可以产生非结构化数据。在一些实施例中,终端设备130可以通过网络与服务器110进行数据交互,例如,终端设备130可以接收服务器110推送的与目标对象相关的描述结论。在一些实施例中,服务器110可以与终端设备130集成在一起。
存储设备140可以存储与文本处理相关的数据和/或指令。例如,存储已在系统保存的目标文本、非结构化数据等。在一些实施例中,存储设备140可以存储终端设备130和/或服务器110获得/获取的数据。例如,存储非结构化数据、对象的描述结论等。在一些实施例中,存储设备140可以存储服务器110用于执行或使用来完成本说明书中描述的示例性方法的数据和/或指令。在一些实施例中,存储设备140可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性的大容量储存器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性的挥发性只读存储器可以包括随机存取内存(RAM)。示例性的RAM可包括动态RAM(DRAM)、双倍速率同步动态RAM(DDRSDRAM)、静态RAM(SRAM)、闸流体RAM(T-RAM)和零电容RAM(Z-RAM)等。示例性的ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(PEROM)、电子可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用磁盘ROM等。在一些实施例中,所述存储设备140可以在云平台上实现。仅作为示例,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
在一些实施例中,存储设备140可以连接到网络120以与文本处理系统100中的一个或以上组件(例如,服务器110、终端设备130)通信。文本处理系统100中的一个或以上组件可以通过网络120访问存储设备140中存储的数据或指令。在一些实施例中,存储设备140可以与文本处理系统100中的一个或以上组件(例如,服务器110、终端设备130等)直接连接或通信。在一些实施例中,存储设备140可以是服务器110的一部分。
图2是根据本说明书一些实施例所示的文本处理方法的示例性流程图。在一些实施例中,流程200可以由处理设备(例如,处理设备112)执行。例如,流程200可以以程序或指令的形式存储在存储装置(如处理设备的自带存储单元或外接存储设备)中,所述程序或指令在被执行时,可以实现流程200。流程200可以包括以下操作。
步骤202,获取目标文本。在一些实施例中,步骤202可以由文本获取模块310执行。
目标文本可以是指需要提取文本中的语句的观点信息的文本数据。在一些实施例中,所述目标文本可以包含多条语句。示例性的,目标文本可以是研报、时事评论等篇章级文本,其包含的语句数量较大。
在一些实施例中,目标文本可以基于非结构化原始数据获取得到。结构化数据可以是指具有高度组织和整齐格式的数据,其可以放入数据库二维表来表现的一种数据类型。比如,信用卡号码、证件号码、日期、财务金额、电话号码等。与之对应的是非结构化数据,非结构化数据的数据结构不规则,没有预定义的数据模型。由于非结构化数据的格式非常多样,从计算机技术角度非结构化数据更难标准化和理解。示例性的,非结构化数据可以包括文本数据(比如,文字、电子表格、演示文稿、电子邮件等)、社交媒体数据(比如,来自微博、论坛、社交聊天等平台的数据)、移动数据(比如,短信、位置等)、即时通讯数据、媒体数据(比如,MP3、音视频等)、应用程序数据、图像数据等。
在一些实施中,非结构化原始数据可以是指从数据源直接获取的非结构化数据,其具体可以是论文、博文、研报等篇章及文本文件,也可以是音频文件,或者图像文件等。
示例性地,处理设备可以通过下文实施例所描述的方法,通过对非结构化原始数据进行处理得到所述目标文本。
在一些实施例中,处理设备可以获取非结构化原始数据。处理设备可以从不同的数据源处获取得到所述非结构化原始数据。
处理设备可以将非结构化原始数据转换为文本数据。文本数据是指以文字记录信息的数据。在一些实施例中,处理设备可以通过自然语言处理技术,例如,利用模型、OCR、语音识别、图像识别等技术,将不同形式的非结构化原始数据转换为文本数据。在一些实施例中,处理设备可以将非结构化原始数据转换为统一格式的文本数据,如txt数据。
处理设备可以对所述文本数据进行预处理,以获得所述目标文本。在一些实施例中,预处理可以包括文本分段、文本分句、语句去重、语句剔除、目标字段抽取等处理方式中的一种或多种组合。文本分段可以基于原始数据的自然段对文本数据进行段落划分,也可以基于文本内容进行段落重新组合。文本分句可以是基于文本数据中的终止符号将文本分为较为短小的语句,终止符号可以包括句号、感叹号、问号或其他预先约定的截断符号。语句去重是指将文本数据中与文本中其他语句相同的语句删除,例如可以通过文本匹配确定文本中重复的语句,以去重。语句剔除可以是删除文本中与目标对象无关的语句,例如文本中的免责声明。在一些实施例中,可以通过规则匹配(如关键词匹配)确定文本中的无关语句,以精简。目标字段抽取是指从文本中抽取关心字段,如文章题目、作者名称、发表时间等。示例性的,可以通过正则表达式等手段抽取文本中的目标字段。通过预处理,对文本数据进行清洗、过滤,有利于提高后续处理效率。
在一些实施例中,处理设备也可以通过从数据库、存储设备读取、调用数据接口等方式获取得到所述目标文本。在一些实施例中,目标文本可以是预先对非结构化原始数据进行处理后得到并存储在数据库、存储设备中。
步骤204,基于所述目标文本,通过第一预测模型确定所述目标文本中的一条或多条目标语句关联的对象。在一些实施例中,步骤204可以由目标语句确定模块320执行。
对象可以是目标文本中涉及的某些类别的信息的指代。对象可以包括利率、基金、股票、时间、地点、缴费、房价、机票价格、设备性能、能源、产品制造、设备组装、原料采购、批发经营等等。对象可以包括一种或多种子类型,例如,利率子类型可以包括:国债利率、准备金利率、回购利率、债券收益率、存款基准利率、房贷利率等;基金子类型可以包括:指数型基金、股票型基金等;时间子类型可以包括:年、月、日、小时等;缴费子类型可以包括:水电气、话费、充值等;能源子类型可以包括:新能源、不可再生能源等。目标对象可以是用户所想要从目标文本中了解的对象,其可以预先指定。
在目标文本中可以包括一条或多条语句,其中与目标对象相关的语句可以被确定为所述目标语句。
目标语句关联的对象可以是指目标语句涉及到的对象和/或对象的类型。例如,目标语句关联的对象为利率,或目标语句关联的对象为利率下的国债利率。
在一些实施例中,在确定目标语句是否与目标对象关联时,可以通过判断目标语句中是否包括了与所述对象关联的关键词来实现,例如,以关键词为“利率”为例,若目标语句为“XX利率将会上行”、“看好XX利率走势”,则可以表示目标语句关联的对象为“利率”或“XX利率”。在一些实施例中,也可以通过判断目标语句的语义是否与所述对象关联来实现,例如,以对象为时间例,“我明儿回去”、“我十二点到”等语义包含时间对象的语句则可以认为该句子为目标语句,且目标语句关联的对象为时间。
在一些实施例中,处理设备可以将所述目标文本的语句输入至第一预测模型,由第一预测模型对所述目标文本的语句进行处理后,从输入的一条或多条语句中确定一条或多条目标语句,以及确定所述目标文本中的一条或多条目标语句关联的对象。
在一些实施例中,第一预测模型可以是分类模型,可以包括二分类模型和多分类模型。例如,在需要通过第一预测模型确定目标语句是否与目标对象(比如,利率)关联时,第一预测模型可以为二分类模型时。在将目标文本中的语句输入至第一预测模型后,第一预测模型可以判断该输入的语句是否与所述对象关联,进而确定是否为目标语句。第一预测模型可以输出预测的语句是否与目标对象关联的结果,例如,关联时可以输出“1”,不关联则输出“0”。又例如,在需要通过第一预测模型确定目标语句是否与多个目标对象(比如,国债利率、房贷利率、债券收益率等对象分类)关联时,第一预测模型可以为多分类模型时。在将目标文本的语句输入至第一预测模型后,第一预测模型可以确定目标文本中的语句涉及各个对象的概率,并将概率最大的对象作为所述目标语句关联的对象。
示例性地,处理设备可以通过下文实施例所描述的方式,通过第一预测模型,确定目标语句关联的对象。
在一些实施例中,第一预测模型为二分类模型。处理设备可以将所述目标文本中的多条语句分别输入第一预测模型,得到各条语句是否与目标对象关联的预测结果。目标对象是指第一预测模型在处理过程中所关心的对象,例如,利率、机票价格、房价等。如上文所述,第一预测模型可以通过对各条语句进行处理来是否与目标对象关联,若关联,则预测结果可以为是,若不关联,则预测结果可以为否。
处理设备可以将与所述目标对象关联的语句作为目标语句,所述目标对象作为目标语句关联的对象。
在一些实施例中,可以从目标文本中获取对多个目标对象的描述结论。因此,第一预测模型可以为多分类模型。其中,多分类的多个类别可以包括多个目标对象以及其他类。多个目标对象可以是指多个关心的对象或某对象下的多个子类型对应的对象,例如,多个目标对象可以包括国债利率、准备金利率、回购利率、债券收益率、存款基准利率、房贷利率等。其他类则可以是指目标对象无关的一类。
处理设备将所述目标文本中的多条语句分别输入第一预测模型,得到各条语句在所述多个类别下的概率值。
将最大概率值对应的类别不是所述其他类的语句作为目标语句,以及将最大概率值对应的目标对象作为相应目标语句关联的对象。
其他类可以是与预设的多个目标类别无关的类别。因此,当目标文本中某条语句的输出是在其他类上取得最大概率值,则可以认为该语句与预设的多个目标对象无关,这类语句自然也不作为目标语句。对于第一预测模型判断出的与目标对象关联的目标语句,可以进一步基于其取最大概率值的类型(或目标对象),确定该目标语句关联的对象。例如目标语句在第一预测模型的输出的多个概率值中的最大概率值对应的是国债利率这一类别,则可以确定该目标语句关联的对象为国债利率。
在一些实施例中,第一预测模型可以包括BERT模型、XLNet模型、ERNIE模型、BPT模型等。
在一些实施例中,第一预测模型可以基于经过所述对象所属的领域的语料预训练后的语言模型得到。例如,第一预测模型可以基于经过金融领域的语料预训练后的语言模型得到。预训练的方式是使用金融领域的相关语料(比如,货币政策分析报告、分析师研报、金融新闻等)对语言模型(可以是初始模型,也可以是经过公共语料预训练后的模型,比如,BERT模型等)进行训练。例如,随机掩盖语料的部分字符等,并输入到语言模型中,调整模型的参数,使模型对掩盖字符的预测结果符合真实字符。经过预训练后,语言模型对相关领域语料的处理会更加准确。
在一些实施例中,第一预测模型可以基于经过预训练后的语言模型构造获得。具体的,可以对语言模型的输出层进行调整,以使语言模型的输出符合预测任务的需要。例如,使模型的输出为一个概率值,或者使模型输出多个概率值,以对应多个类别。
在一些实施例中,处理设备可以获取训练样本及其标签。训练样本可以是多条语句样本,标签可以是样本文本中一条或多条语句样本所关联的对象。其中,标签可以通过人工标注或其他方式得到,本说明书对此不作限定。
处理设备可以使用所述训练样本对第一预测模型进行训练,得到所述第一预测模型。在一些实施例中,第一预测模型为二分类模型,此时模型的输入可以是语句样本,输出为一个分类结果,该分类结果可以是0或1,或者位于0和1之间的概率值。此时,可以基于标签与输出构造损失函数,标签反映该语句样本关联的对象是否是目标对象,是为“1”,否为“0”。调整模型参数,以使得模型的输出与标签之间的差异最小化。在一些实施例中,第一预测模型为多分类模型,此时模型的输入可以是语句样本,输出可以是多个概率值,分别对应多个类别。此时,可以基于标签与模型的输出构造损失函数(损失函数可以用极大似然函数表征),语句样本的标签包括对于多个的多个数值,其中语句样本真实关联的对象对应的类别的数值为1,其余类别的数值为0。调整模型参数,以使得模型的输出与标签之间的差异最小化。
在一些实施例中,处理设备也可以直接使用训练样本对初始预测模型(比如未经过预训练或未使用特定领域的语料进行预训练的模型)进行训练,得到所述第一预测模型。
步骤206,基于所述一条或多条目标语句通过第二预测模型,确定各目标语句对其关联的对象的描述观点。在一些实施例中,步骤206可以由描述观点确定模块330执行。
描述观点可以是指对所述对象的看法。例如,所述对象为利率时,描述观点可以包括上涨、持平或下跌。又例如,所述对象为设备性能时,描述观点可以包括设备性能优秀、设备性能良好、设备性能损耗异常等。
在一些实施例中,处理设备可以将所述一条或多条目标语句输入至第二预测模型,由第二预测模型对所述目标语句进行处理后,确定各目标语句对其关联的对象的描述观点。例如,以目标语句为“明年的利率供给将大概率明显的下降”和“利率区间震荡的格局并未扭转,大概率维持当前范围区间”为例,通过第二预测模型,可以确定第一条目标语句对其关联的对象(利率)的描述观点为利率“下降”,第二条目标语句对其关联的对象的描述观点为利率“持平”。
在一些实施例中,第二预测模型为多分类模型,其中多分类的多个类别可以对应多个描述观点。不同的对象的描述观点可以不同,例如,利率的描述观点可以包括上涨、下跌、持平;房价的描述观点也可以包括上涨、下跌、持平;工业领域的设备性能的描述观点则可以包括性能优秀、性能良好、性能不足等。
在一些实施例中,处理设备可以将一条或多条目标语句分别输入第二预测模型,得到各条目标语句在所述多个类别下的概率值。在一些实施例中,处理设备可以是将与不同对象关联的一条或多条目标语句输入至一个第二预测模型,也可以是输入至多个第二预测模型,且与同一个对象关联的目标语句输入至同一个第二预测模型。例如,金融领域中,国债利率、准备金利率、回购利率分别为一个子类别,可以分别具有一个对应的第二预测模型。不同的对象可以使用不同的第二预测模型进行处理,以得到更加准确的描述观点。
处理设备可以将最大概率值对应的描述观点作为相应目标语句对其关联的对象的描述观点。例如,目标语句“明年的利率供给将大概率明显的下降”经过第二预测模型处理后,输出三个概率值,其中“下降”对应的概率值为0.72,“持平”对应的概率值为0.19,“上涨”对应的概率值为0.09,因此,可以确定该目标语句对其关联对象“利率”的描述观点为下降。
在一些实施例中,第二预测模型也可以基于经过金融领域的语料预训练后的语言模型得到。训练第二预测模型的方法可以与训练第一预测模型的方法相同,并且可以使用训练第一预测模型的文本样本,其不同之处在于,在训练第二预测模型时所使用的标签与训练第一预测模型的标签不同,训练第二预测模型时所使用的标签为与各目标语句所对应的描述观点。关于模型训练的更多细节,可以参见步骤206中对训练第一预测模型的相关描述,此处不再赘述。
在一些实施例中,可以用不同的数值来区分多个描述观点。例如,对于利率描述观点,上涨可以用数值1表示、下跌用数值-1表示,持平用数值0表示。步骤208,基于所述各目标语句对其关联的对象的描述观点,确定所述目标文本对一个或多个对象的描述结论。在一些实施例中,步骤208可以由描述结论确定模块340执行。
描述结论可以是指对多个目标语句对其关联的对象的描述观点的总结。描述结论与所述描述观点相关,例如,对象为利率时,描述观点可以包括上涨、下跌和持平,一个或多个描述观点可能不同,比如,有的为上涨,有的为下跌,基于一个或多个描述观点,可以得到所述描述结论。描述结论可以用于帮助用户进行数据分析、决策辅助、设备管理等。
在一些实施例中,处理设备可以基于所述各目标语句对其关联的对象的描述观点,基于多种方式确定所述目标文本对一个或多个对象的描述结论。
在一些实施例中,可以统计各目标语句对其关联的对象的描述观点在多个描述观点中所占的比例或数量,将比例最高或数量最多的描述观点作为所述描述结论。例如,目标文本中与国债利率相关的目标语句有10条,其中8条的描述观点均为上涨,则可以确定目标文本对国债利率这一目标对象的描述结论为上涨。
在一些实施例中,可以用不同的数值来区分多个描述观点,并对多个描述观点对应的数值进行计算,基于计算结果确定描述结论。
在一些实施例中,处理设备可以对与相同对象关联的目标语句的描述观点进行加权求和得到求和结果。将各个描述观点对应的数值与权值相乘后进行求和。权值可以与目标语句在目标文本中的位置相关,例如,在时事评论类文本数据中,文章的开头和结尾更容易出现代表作者当前观点的语句,因此当目标语句出现在目标文本的首段或末段中时,其权重可以大于位于文章其他位置的目标语句。
处理设备可以基于求和结果确定所述目标文本对该对象的描述结论。沿用上述示例,求和结果可能在[-1,1]之间,则求和结果小于0时,可以确定描述结论为下跌,若求和结果等于0,则可以确定描述结论为持平,若求和结果大于0,则可以确定描述结论为上涨。
需要说明的是,以上例子仅出于示例的目的,随着用于区分描述观点的数值的不同,基于求和结果确定相应描述结论的方式也可能有所变化,这些修正和改变仍在本说明书的范围之内,本说明书对此不做限定。
在本说明书实施例中,面对机器难以理解的非结构化数据,通过获取得到其的目标文本,利用第一预测模型对目标文本中的语句进行处理,确定语句所关联的对象(比如,是否与利率相关),之后再利用第二预测模型对确定了关联的对象的目标语句进行处理,确定目标语句关联的对象的描述观点(比如,利率是上涨、下跌还是持平)。其中,通过特定模型进行预测,可以更好的针对所要预测的信息,可以更加高效准确地从目标文本中提取到有效信息。
应当注意的是,上述有关各流程的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,对本说明书有关流程步骤的改变,如添加预处理步骤和存储步骤等。
图3是根据本说明书一些实施例所示的文本处理系统的示例性模块图。如图3所示,系统300可以包括文本获取模块310、目标语句确定模块320、描述观点确定模块330和描述结论确定模块340。
文本获取模块310可以用于获取目标文本。
所述目标文本包含多条语句。
在一些实施例中,文本获取模块310可以获取非结构化原始数据;将所述非结构化原始数据转换为文本数据;对所述文本数据进行预处理,以获得所述目标文本。
在一些实施例中,文本获取模块310也可以通过从数据库、存储设备读取、调用数据接口等方式获取得到所述目标文本。在一些实施例中,目标文本可以是预先对非结构化原始数据进行处理后得到并存储在数据库、存储设备中。
目标语句确定模块320可以用于基于所述目标文本,通过第一预测模型确定所述目标文本中的一条或多条目标语句关联的对象。
目标语句是指涉及到所关心的对象的语句。对象可以是用户所想要从所述目标文本中了解的信息和/或观点。所述对象可以包括利率。
在一些实施例中,所述第一预测模型为二分类模型。目标语句确定模块320可以将所述目标文本中的多条语句分别输入第一预测模型,得到各条语句是否与目标对象关联的预测结果;将与所述目标对象关联的语句作为目标语句,所述目标对象作为目标语句关联的对象。
在一些实施例中,所述第一预测模型为多分类模型。其中,多个类别包括多个目标对象以及其他类。目标语句确定模块320可以将所述目标文本中的多条语句分别输入第一预测模型,得到各条语句在所述多个类别下的概率值;将最大概率值对应的类别不是所述其他类的语句作为目标语句,将最大概率值对应的目标对象作为相应目标语句关联的对象。
在一些实施例中,所述第一预测模型所述第二预测模型基于经过金融领域的语料预训练后的语言模型得到。
描述观点确定模块330可以用于基于所述一条或多条目标语句通过第二预测模型,确定各目标语句对其关联的对象的描述观点。
描述观点可以是指对所述对象的看法。例如,所述对象为利率时,描述观点可以包括上涨、持平或下跌。
在一些实施例中,所述第二预测模型为多分类模型,其中,多个类别包括多个描述观点。描述观点确定模块330可以将一条或多条目标语句分别输入第二预测模型,得到各条目标语句在所述多个类别下的概率值;将最大概率值对应的描述观点作为相应目标语句对其关联的对象的描述观点。
在一些实施例中,第二预测模型基于经过金融领域的语料预训练后的语言模型得到。
描述结论确定模块340可以用于基于所述各目标语句对其关联的对象的描述观点,确定所述目标文本对一个或多个对象的描述结论。
描述结论可以是指对个目标语句对其关联的对象的描述观点的总结。
在一些实施例中,所述多个描述观点用不同的数值区分。描述结论确定模块340可以用于对与相同对象关联的目标语句的描述观点进行加权求和;权值与目标语句在目标文本中的位置相关;基于求和结果确定所述目标文本对该对象的描述结论。
关于以上所示的系统的各模块的具体描述,可以参考本说明书流程图部分,例如,图2的相关说明。
应当理解,图3所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于文本处理系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,文本获取模块310、目标语句确定模块320、描述观点确定模块330和描述结论确定模块340可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,文本获取模块310和目标语句确定模块320可以是两个模块,也可以是一个模块同时具有获取和确定功能。例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
本说明书实施例可能带来的有益效果包括但不限于:(1)针对文本数据,利用机器学习模型准确地从文本数据中挖掘出其中的语句所关联的对象,和该语句所对应的观点信息;(2)针对非结构化数据也可以有效地提取到关键信息。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (11)

1.一种文本处理方法,所述方法包括:
获取目标文本;所述目标文本包含多条语句;
基于所述目标文本,通过第一预测模型确定所述目标文本中的一条或多条目标语句及其关联的对象;
基于所述一条或多条目标语句通过第二预测模型,确定各目标语句对其关联的对象的描述观点;其进一步包括:将一条或多条目标语句分别输入第二预测模型,得到各条目标语句在多个类别下的概率值;将最大概率值对应的描述观点作为相应目标语句对其关联的对象的描述观点;其中,所述第二预测模型为多分类模型,所述多个类别包括多个描述观点;
基于所述各目标语句对其关联的对象的描述观点,确定所述目标文本对一个或多个对象的描述结论。
2.根据权利要求1所述的方法,还包括:
获取非结构化原始数据;
将所述非结构化原始数据转换为文本数据;
对所述文本数据进行预处理,以获得所述目标文本。
3.根据权利要求2所述的方法,所述预处理包括以下处理中的一种或多种的组合:文本分段、文本分句、语句去重、语句剔除、目标字段抽取。
4.根据权利要求1所述的方法,所述第一预测模型为二分类模型;
所述基于所述目标文本,通过第一预测模型确定所述目标文本中的一条或多条目标语句及其关联的对象,包括:
将所述目标文本中的多条语句分别输入第一预测模型,得到各条语句是否与目标对象关联的预测结果;
将与所述目标对象关联的语句作为目标语句,所述目标对象作为目标语句关联的对象。
5.根据权利要求1所述的方法,所述第一预测模型为多分类模型,其中,多个类别包括多个目标对象以及其他类;
所述基于所述目标文本,通过第一预测模型确定所述目标文本中的一条或多条目标语句及其关联的对象,包括:
将所述目标文本中的多条语句分别输入第一预测模型,得到各条语句在所述多个类别下的概率值;
将最大概率值对应的类别不是所述其他类的语句作为目标语句,将最大概率值对应的目标对象作为相应目标语句关联的对象。
6.根据权利要求1所述的方法,不同的描述观点用不同的数值表征;所述基于所述各目标语句对其关联的对象的描述观点,确定所述目标文本对一个或多个对象的描述结论,包括:
对与相同对象关联的目标语句的描述观点进行加权求和;权值与目标语句在目标文本中的位置相关;
基于求和结果确定所述目标文本对该对象的描述结论。
7.根据权利要求1所述的方法,所述对象包括利率;所述描述观点或描述结论包括上涨、持平或者下跌。
8.根据权利要求7所述的方法,所述第一预测模型和/或所述第二预测模型基于经过金融领域的语料预训练后的语言模型得到。
9.一种文本处理系统,所述系统包括:
文本获取模块,用于获取目标文本;所述目标文本包含多条语句;
目标语句确定模块,用于基于所述目标文本,通过第一预测模型确定所述目标文本中的一条或多条目标语句及其关联的对象;
描述观点确定模块,用于基于所述一条或多条目标语句通过第二预测模型,确定各目标语句对其关联的对象的描述观点;其进一步包括:将一条或多条目标语句分别输入第二预测模型,得到各条目标语句在多个类别下的概率值;将最大概率值对应的描述观点作为相应目标语句对其关联的对象的描述观点;其中,所述第二预测模型为多分类模型,所述多个类别包括多个描述观点;
描述结论确定模块,用于基于所述各目标语句对其关联的对象的描述观点,确定所述目标文本对一个或多个对象的描述结论。
10.一种文本处理装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1-8任一项所述的方法。
CN202110562028.4A 2021-05-21 2021-05-21 一种文本处理方法和系统 Active CN113220885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110562028.4A CN113220885B (zh) 2021-05-21 2021-05-21 一种文本处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110562028.4A CN113220885B (zh) 2021-05-21 2021-05-21 一种文本处理方法和系统

Publications (2)

Publication Number Publication Date
CN113220885A CN113220885A (zh) 2021-08-06
CN113220885B true CN113220885B (zh) 2023-02-07

Family

ID=77097905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110562028.4A Active CN113220885B (zh) 2021-05-21 2021-05-21 一种文本处理方法和系统

Country Status (1)

Country Link
CN (1) CN113220885B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023145051A1 (ja) * 2022-01-31 2023-08-03 日本電気株式会社 推定装置、推定方法、および推定プログラム
CN117252514B (zh) * 2023-11-20 2024-01-30 中铁四局集团有限公司 基于深度学习和模型训练的建筑物资库数据处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754352A (zh) * 2020-06-22 2020-10-09 平安资产管理有限责任公司 一种观点语句正确性的判断方法、装置、设备和存储介质
CN112100384A (zh) * 2020-11-10 2020-12-18 北京智慧星光信息技术有限公司 一种数据观点抽取方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738046B (zh) * 2018-07-03 2023-06-06 百度在线网络技术(北京)有限公司 观点抽取方法及装置
CN110399484A (zh) * 2019-06-25 2019-11-01 平安科技(深圳)有限公司 长文本的情感分析方法、装置、计算机设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754352A (zh) * 2020-06-22 2020-10-09 平安资产管理有限责任公司 一种观点语句正确性的判断方法、装置、设备和存储介质
CN112100384A (zh) * 2020-11-10 2020-12-18 北京智慧星光信息技术有限公司 一种数据观点抽取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113220885A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN110163478B (zh) 一种合同条款的风险审查方法及装置
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
US8577823B1 (en) Taxonomy system for enterprise data management and analysis
CN112182246B (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN114168716B (zh) 基于深度学习的工程造价自动抽取和分析方法及装置
CN108153729B (zh) 一种面向金融领域的知识抽取方法
CN113220885B (zh) 一种文本处理方法和系统
US11568503B2 (en) Systems and methods for determining structured proceeding outcomes
CN116152843B (zh) 合同模板待填写内容的类别识别方法、装置及存储介质
Fu et al. A sentiment-aware trading volume prediction model for P2P market using LSTM
Jagdish et al. Identification of end-user economical relationship graph using lightweight blockchain-based BERT model
CN113297852B (zh) 一种医学实体词的识别方法和装置
CN113902569A (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
CN113011156A (zh) 审核文本的质检方法、装置、介质以及电子设备
Terblanche et al. Ontology‐based employer demand management
CN112699245A (zh) 预算管理知识图谱的构建方法、装置及应用方法、装置
Arshed et al. DeepFinancial Model for Exchange Rate Impacts Prediction of Political and Financial Statements
CN115759078A (zh) 文本信息的处理方法、系统、设备及存储介质
CN110941952A (zh) 一种完善审计分析模型的方法及装置
RU2755606C2 (ru) Способ и система классификации данных для выявления конфиденциальной информации в тексте
CN113849618A (zh) 基于知识图谱的策略确定方法、装置、电子设备及介质
JP2024518458A (ja) テキスト内の自動トピック検出のシステム及び方法
Sumathi et al. Sentiment Analysis on Feedback Data of E-commerce Products Based on NLP
Congleton et al. Tracing Political Positioning of Dutch Newspapers
US20240054280A1 (en) Segmenting an Unstructured Set of Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant