CN116610717A - 数据处理方法、装置、电子设备以及存储介质 - Google Patents

数据处理方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN116610717A
CN116610717A CN202310558807.6A CN202310558807A CN116610717A CN 116610717 A CN116610717 A CN 116610717A CN 202310558807 A CN202310558807 A CN 202310558807A CN 116610717 A CN116610717 A CN 116610717A
Authority
CN
China
Prior art keywords
vocabulary
chat
data
business
bond
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310558807.6A
Other languages
English (en)
Inventor
王连诚
吴金杰
冯泽华
张梦涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Minsheng Banking Corp Ltd
Original Assignee
China Minsheng Banking Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Minsheng Banking Corp Ltd filed Critical China Minsheng Banking Corp Ltd
Priority to CN202310558807.6A priority Critical patent/CN116610717A/zh
Publication of CN116610717A publication Critical patent/CN116610717A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种数据处理方法、装置、电子设备以及存储介质。该方法包括:接收即时通讯服务器发送的聊天文本数据;聊天文本数据包括至少一个聊天词汇;基于预设的债券业务关键词库对聊天词汇进行关键词识别,确定聊天词汇是否为债券业务对应的业务词汇;若聊天词汇为业务词汇,则对聊天词汇进行正则化解析,得到聊天词汇对应的第一结构数据;若聊天词汇为非业务词汇,则对聊天词汇进行词汇实体识别处理,得到聊天词汇对应的第二结构数据;基于第一结构数据和第二结构数据生成聊天文本数据对应的展示数据表,并将展示数据表进行可视化展示。本申请的方法,提升了业务人员查看场外市场债券信息的效率,从而实现提升债券数据的流转质量。

Description

数据处理方法、装置、电子设备以及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、电子设备以及存储介质。
背景技术
中国债券市场分为场外债券交易市场与场内交易市场(交易所),场外交易市场的交易占比80%以上。场外交易市场作为直接融资的中坚力量,它的健康发展不仅丰富上市企业的融资渠道,也能促进非上市中小企业融资的规范发展,有利于促进我国资本行业和资本市场持续、健康的发展,弥补非上市企业不能健康融资的缺撼。
不同于交易所有统一的询价场所,场外交易市场是一个分散的无形市场,缺乏统一的组织和章程。场外市场目前参与机构多达3000多家,涉及交易员超过10万,不同于交易所完善的竞价机制,场外交易采取一对一的询价方式协商议价。
但是,债券场外市场(OTC)业务没有统一的渠道和工具,大部分都是通过一些公共聊天工具来进行(如QQ、微信等),导致信息分散、业务效率低下,数据流动效率低。
发明内容
本申请提供一种数据处理方法、装置、电子设备以及存储介质,用以解决场外离散数据不规范、不标准的问题,通过对业务信息进行加工整理,提升了业务人员查看场外市场债券信息的效率,从而实现提升债券数据的流转质量。
第一方面,本申请提供一种数据处理方法,包括:
接收即时通讯服务器发送的聊天文本数据;所述聊天文本数据包括至少一个聊天词汇;
基于预设的债券业务关键词库对所述聊天词汇进行关键词识别,确定所述聊天词汇是否为债券业务对应的业务词汇;
若所述聊天词汇为业务词汇,则对所述聊天词汇进行正则化解析,得到所述聊天词汇对应的第一结构数据;
若所述聊天词汇为非业务词汇,则对所述聊天词汇进行词汇实体识别处理,得到所述聊天词汇对应的第二结构数据;
基于所述第一结构数据和所述第二结构数据生成所述聊天文本数据对应的展示数据表,并将所述展示数据表进行可视化展示。
可选的,所述对所述聊天词汇进行词汇实体识别处理,得到所述聊天词汇对应的第二结构数据,包括:
获取预先建立的敏感词库,基于所述敏感词库对所述非业务词汇进行敏感词筛选,得到筛选后的非业务词汇;
对筛选后的非业务词汇进行词汇实体识别处理,得到所述聊天词汇对应的第二结构数据。
可选的,所述对筛选后的非业务词汇进行词汇实体识别处理,得到所述聊天词汇对应的第二结构数据,包括:
获取预先训练完成的关于债券业务的实体识别模型,将所述筛选后的非业务词汇输入至所述实体识别模型,得到所述实体识别模型输出的第二结构数据。
可选的,所述基于所述第一结构数据和所述第二结构数据生成所述聊天文本数据对应的展示数据表,并将所述展示数据表进行可视化展示,包括:
对所述第一结构数据和所述第二结构数据进行数据去重处理,得到处理后的目标结构数据;
获取包含至少一个业务字段的初始数据表,并基于所述目标结构数据分别对应的至少一个数据字段以及所述业务字段,将所述目标结构数据对应存储至所述初始数据表,得到所述聊天文本数据对应的展示数据表;
将所述展示数据表发送至预设的展示终端,对所述展示数据表进行可视化展示。
可选的,所述接收即时通讯服务器发送的聊天文本数据,包括:
在所述即时通讯服务器对应的即时通讯应用程序中登录预设的虚拟账号;所述虚拟账号处于包含多个业务用户账号的消息群中;
所述即时通讯服务器在基于所述虚拟账号接收到所述消息群中的聊天消息时,确定所述聊天消息对应的聊天文本数据,并将所述聊天文本数据进行发送。
可选的,在所述接收即时通讯服务器发送的聊天文本数据,之后还包括:
获取预设的分词方法,基于所述分词方法对所述聊天文本数据进行分词处理,得到至少一个聊天词汇。
可选的,在所述基于预设的债券业务关键词库对所述聊天词汇进行关键词识别之前,还包括:
获取与债券业务关联的网络信息,对所述网络信息进行信息解析以及关键词提取,得到多个债券业务关键词;
基于各所述债券业务关键词生成所述债券业务关键词库。
第二方面,本申请提供一种数据处理装置,包括:
聊天文本数据获取模块,用于接收即时通讯服务器发送的聊天文本数据;所述聊天文本数据包括至少一个聊天词汇;
关键词识别模块,用于基于预设的债券业务关键词库对所述聊天词汇进行关键词识别,确定所述聊天词汇是否为债券业务对应的业务词汇;
第一结构数据获取模块,用于若所述聊天词汇为业务词汇,则对所述聊天词汇进行正则化解析,得到所述聊天词汇对应的第一结构数据;
第二结构数据获取模块,用于若所述聊天词汇为非业务词汇,则对所述聊天词汇进行词汇实体识别处理,得到所述聊天词汇对应的第二结构数据;
数据可视化模块,用于基于所述第一结构数据和所述第二结构数据生成所述聊天文本数据对应的展示数据表,并将所述展示数据表进行可视化展示。
可选的,第二结构数据获取模块,包括:
非业务词汇确定单元,用于获取预先建立的敏感词库,基于所述敏感词库对所述非业务词汇进行敏感词筛选,得到筛选后的非业务词汇;
第二结构数据确定单元,用于对筛选后的非业务词汇进行词汇实体识别处理,得到所述聊天词汇对应的第二结构数据。
可选的,第二结构数据确定单元,包括:
第二结构数据确定子单元,用于获取预先训练完成的关于债券业务的实体识别模型,将所述筛选后的非业务词汇输入至所述实体识别模型,得到所述实体识别模型输出的第二结构数据。
可选的,数据可视化模块,包括:
目标结构数据确定单元,用于对所述第一结构数据和所述第二结构数据进行数据去重处理,得到处理后的目标结构数据;
展示数据表确定单元,用于获取包含至少一个业务字段的初始数据表,并基于所述目标结构数据分别对应的至少一个数据字段以及所述业务字段,将所述目标结构数据对应存储至所述初始数据表,得到所述聊天文本数据对应的展示数据表;
数据可视化单元,用于将所述展示数据表发送至预设的展示终端,对所述展示数据表进行可视化展示。
可选的,聊天文本数据获取模块,包括:
虚拟账号登录单元,用于在所述即时通讯服务器对应的即时通讯应用程序中登录预设的虚拟账号;所述虚拟账号处于包含多个业务用户账号的消息群中;
聊天文本数据发送单元,用于所述即时通讯服务器在基于所述虚拟账号接收到所述消息群中的聊天消息时,确定所述聊天消息对应的聊天文本数据,并将所述聊天文本数据进行发送。
可选的,所述装置还包括:
聊天词汇获得模块,用于获取预设的分词方法,基于所述分词方法对所述聊天文本数据进行分词处理,得到至少一个聊天词汇。
可选的,所述装置还包括:
债券业务关键词获得模块,用于获取与债券业务关联的网络信息,对所述网络信息进行信息解析以及关键词提取,得到多个债券业务关键词;
债券业务关键词库生成模块,用于基于各所述债券业务关键词生成所述债券业务关键词库。
第三方面,本申请提供一种终端设备,包括:处理器以及与处理器通信连接的存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,以实现第一方面涉及的数据处理方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机指令,计算机指令被处理器执行时用于实现第一方面涉及的数据处理方法。
第五方面,本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面所述的数据处理方法。
本申请提供的处理方法,通过即时通讯服务器采集虚拟机器人账号接收到的聊天消息,进一步对采集到的聊天消息进行债券业务的关键词的过滤识别,对聊天消息中的业务词汇进行消息解析,得到对应的结构化数据;为了避免消息遗漏,进一步的对非业务词汇进行词汇实体识别,得到识别后的结构化数据,并将整理后的结构化数据向业务人员进行可视化展示,以实现解决场外离散数据不规范、不标准的问题,以及实现自动采集、汇聚场外离散债券信息的机制,统一加工汇聚到预设数据表中进行数据可视化,极大提升业务查看场外市场债券信息效率,以及提升债券数据流转质量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请提供的数据处理方法的一种应用场景图;
图2为本申请实施例提供的一种数据处理方法的流程示意图;
图3为本申请实施例提供的另一种数据处理方法的流程示意图;
图4为本申请实施例提供的另一种数据处理方法的流程示意图;
图5为本申请实施例提供的一种数据展示的界面示意图;
图6为本申请根据一示例性实施例提供的一种数据处理装置的结构示意图;
图7为本申请实施例提供的一种终端设备的结构示意图;
图8是根据一示例性实施例示出的一种终端设备的框图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在实际应用中,债券场外市场(OTC)业务没有统一的渠道和工具,大部分都是通过一些即时通讯应用程序来进行(如QQ、微信等)。具体的,各业务人员通过在即时通讯应用程序预先建立的消息群里发送债券交易信息。但是并不是所有的业务人员都在同一消息群里,导致有些业务人员并不能及时的获知消息群中的交易信息,从而导致债券场外市场(OTC)业务的信息分散、业务效率低下,数据流动效率低。
本申请提供的数据处理方法,旨在解决现有技术的如上技术问题。具体的,将预设的虚拟机器人账号加入各消息群中,并通过即时通讯服务器采集虚拟机器人账号接收到的聊天消息,进一步对采集到的聊天消息进行债券业务的关键词的过滤识别,对聊天消息中的业务词汇进行消息解析,得到对应的结构化数据;为了避免消息遗漏,进一步的对非业务词汇进行词汇实体识别,得到识别后的结构化数据,并将整理后的结构化数据向业务人员进行可视化展示,以实现解决场外离散数据不规范、不标准的问题,以及实现自动采集、汇聚场外离散债券信息的机制,统一加工汇聚到预设数据表中进行数据可视化,极大提升业务查看场外市场债券信息效率,以及提升债券数据流转质量。
图1为本申请提供的数据处理方法的一种应用场景图。便于理解,下面结合图1对本申请实施例所适用的应用场景进行说明。参见图1,包括即时通讯服务器、处理装置和展示终端。在图1所示的实施例中,即时通讯服务器预先安装有对应的即时通讯应用程序,在即时通讯应用程序中登录了预设的虚拟账号,并且与处理装置连接,用于将虚拟账号接收到的聊天消息发送到处理装置中。处理装置中设置有正则化解析组件和实体识别模型,用于分别对不同的聊天消息进行解析识别处理,得到聊天消息对应的展示数据表;处理装置中还设置有数据库,用于存储上述展示数据表,进一步的将上述展示数据表发送至展示终端。展示终端基于接收到的展示数据表进行数据展示。
具体的,将各业务人员对应的业务人员账号在各业务终端预先安装的即时通讯应用程序中进行登录,以及将虚拟账号在即时通讯服务器安装的即时通讯应用程序上进行登录。上述各业务人员账号和虚拟账号处于即时通讯应用程序的同一消息群里。当虚拟账号接收到任一业务人员账号在消息群里发送聊天消息时,即时通讯服务器将接收到的聊天消息以文本数据方式转发至处理装置中,处理装置对接收到的聊天文本数据进行关键词识别,确定上述聊天文本数据中所包含的聊天词汇是否为债券业务对应的业务词汇。若是,则对聊天词汇进行正则化解析,得到聊天词汇对应的第一结构数据;若否,则对聊天词汇进行词汇实体识别处理,得到聊天词汇对应的第二结构数据;进而对第一结构数据和第二结构数据进行数据处理,得到处理后的展示数据表,并将展示数据表存储至预设数据库中。进一步的,将展示数据表发送至展示终端,将展示数据表进行可视化展示。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的一种数据处理方法的流程示意图。该方法可以由数据处理装置执行,该数据处理装置可以是服务器也可以是电子设备,以下以电子设备为例进行说明,本实施例中的方法可以通过软件、硬件或者软硬件结合的方式来实现,如图2所示,该方法包括如下步骤。
S210、接收即时通讯服务器发送的聊天文本数据;聊天文本数据包括至少一个聊天词汇。
其中,即时通讯服务器为提供即时通讯应用程序提供服务的服务器。即时通讯应用程序可以理解为允许两人或多人使用网络实时的传递文字消息、文件、语音与视频交流的通讯软件。在本申请实施例中,即时通讯服务器发送的聊天文本数据是基于即时通讯服务器对应的即时通讯应用程序中登录的虚拟账号所接收到的聊天消息所得到的。具体可以是即时通讯服务器在基于虚拟账号接收到消息群中的聊天消息时,确定聊天消息对应的聊天文本数据,并将聊天文本数据发送至执行当前数据处理方法的处理装置中。
具体的,聊天文本数据可以理解为中文句子。为在实际应用中,中文句子是由字组成的连续字符串,为了便于后续文本处理需要先将文本句子划分为以词为基本单位的词串。并且,由于词是最小能够独立活动的有意义的语言成分,所以中文分词是中文信息处理的基础和关键。在本申请中,为了便于后续是被聊天文本数据中的业务关键词汇,可以先对聊天文本数据进行分词处理,得到聊天文本数据对应的至少一个聊天词汇。可选的,进行分词得到聊天词汇的方法可以包括:获取预设的分词方法,基于分词方法对聊天文本数据进行分词处理,得到至少一个聊天词汇。
具体的,分词的方法可以包括基于字典的分词方法、基于统计的分词方法以及基于机器学习的分词方法等。示例性的,基于字典的分词方法可以是正向最大匹配法、最短路径法等。基于机器学习的分词方法可以是基于进行神经网络进行模型训练所得到的分词模型。例如隐马尔可夫模型等。
示例性的,以分词模型为例,将上述聊天文本数据输入至预先训练完成的分词模型中,进行分词处理,得到模型输出的分词结果。其中,分词结果中包括至少一个聊天词汇。
S220、基于预设的债券业务关键词库对聊天词汇进行关键词识别,确定聊天词汇是否为债券业务对应的业务词汇。
在本申请实施例中,债券业务关键词库可以理解为预先生成的词汇数据库。该数据库中存储着与债券业务相关的多个词汇。
具体的,为了提高匹配效率,可以获取空闲时间预先生成的债券业务关键词库,并分别将上述分词得到的各聊天词库在债券业务关键词库中进行关键词识别,以确定各聊天词汇是否为债券业务对应的业务词汇。示例性的,对任一聊天词汇,在债券业务关键词库中进行词汇查找,若差找到该词汇,则说明该聊天词汇为业务词汇;反之,若未查到,则说明该聊天词汇为非业务词汇。
在上述实施方式基础上,债券业务关键词的生成过程可以包括:获取与债券业务关联的网络信息,对网络信息进行信息解析以及关键词提取,得到多个债券业务关键词;基于各债券业务关键词生成债券业务关键词库。
具体的,利用网络爬虫技术对互联网中的债券行业的信息进行信息抓取,得到债券行业的信息数据。由于爬取到的数据可能为网页数据,因此,需要对爬取到的信息数据进行页面信息解析,进而得到结构化以及非结构化的数据,并对上述数据进行数据清洗和数据提取,进而进行文本分词和关键词提取,提取出债券行业的多个债券业务关键词。进一步的,预先建立空白数据库,将上述得到的多个债券业务关键词存储至上述空白数据库中,生成债券业务关键词库。
进一步的,为了保证关键词识别结果的准确性,还可以定期进行网络数据的爬取,并基于爬取结果更新上述债券业务关键词库。
可选的,若聊天词汇为业务词汇,则执行步骤S230;反之,若聊天词汇为非业务词汇,则执行步骤S240。
S230、对聊天词汇进行正则化解析,得到聊天词汇对应的第一结构数据。
在实际应用中,由于债券行业中的业务数据充满了多样性,导致便于数据后续的存储以及展示,需要对数据进行正则化解析处理,以得到规整的结构化数据。
具体的,在基于上述实施方式确定聊天词汇为业务词汇时,可以直接基于正则表达式对聊天词汇进行正则化处理,以得到上述业务词汇对应的结构化数据,即第一结构数据。
示例性的,可以采用预先设置的java正则化表达式对业务词汇进行处理,得到业务词汇对应的第一结构数据。例如,业务词汇包括“出7天资金5000万元,押利率债”,基于java正则化表达式对其进行正则化解析处理,得到解析后的第一结构数据"{"amount":50000000.0,"direction":"出","term":"7天","termEnd":7,"termStart":7,"transactionLimits":"","transactionMode":"押利率"}"。
S240、对聊天词汇进行词汇实体识别处理,得到聊天词汇对应的第二结构数据。
在实际应用中,由于业务人员在消息群中发出的消息为简化消息,导致处理装置并没有识别出该简化消息为业务词汇,为了避免数据的遗漏,本申请的技术方案在上述检测到聊天词汇中包含非业务词汇时,还会对上述识别为非业务词汇的聊天词汇进行一步的实体识别解析,得到识别解析后的结构化数据,即第二结构数据。
具体的,可以获取预先基于债券行业的业务数据训练而成的实体识别模型,并将上述为非业务词汇的聊天词汇输入至该实体识别模型中,并得到模型输出的第二结构数据。
例如,当对聊天词汇“出隔夜、7D、14D 1000+2000+3000W押利率限银信”进行关键词识别后,识别出“隔夜、7D、14D”为非业务词汇。将上述词汇输入至实体识别模型中,得到模型输出的第二结构数据。
可选的,为了提高实体识别模型的识别准确性,还可以直接将上述全部聊天词汇输入至实体识别模型中,得到模型输出的第二结构数据。例如,当将上述聊天词汇全部输入至实体识别模型中后,得到的第二结构数据包括:"{"amount":"1000+2000+3000W","direction":"出","term":"隔夜、7D、14D","termStart":"","termEnd":"","transactionLimits":"限银行,限农信","transactionMode":"押利率"}"。
S250、基于第一结构数据和第二结构数据生成聊天文本数据对应的展示数据表,并将展示数据表进行可视化展示。
具体的,若第二结构数据仅为非业务词汇的聊天词汇对应的结构化数据,则第一结构数据和第二结构数据对应的是不同的聊天词汇,为了保证信息的完整,将第一结构数据和第二结构数据进行数据整合,并基于整合后的目标结构数据生成聊天文本数据对应的展示数据表。进一步的,将展示数据表发送至展示终端,以实现实时对将展示数据表进行可视化展示。
在上述技术方案中,通过即时通讯服务器采集虚拟机器人账号接收到的聊天消息,进一步对采集到的聊天消息进行债券业务的关键词的过滤识别,对聊天消息中的业务词汇进行消息解析,得到对应的结构化数据;为了避免消息遗漏,进一步的对非业务词汇进行词汇实体识别,得到识别后的结构化数据,并将整理后的结构化数据向业务人员进行可视化展示,以实现解决场外离散数据不规范、不标准的问题,以及实现自动采集、汇聚场外离散债券信息的机制,统一加工汇聚到预设数据表中进行数据可视化,极大提升业务查看场外市场债券信息效率,以及提升债券数据流转质量。
图3为本申请实施例提供的另一种数据处理方法的流程示意图。本实施例可理解为上述实施例介绍的方法中提及步骤的具体化介绍实施例,参见图3,该方法具体可以包括:
S310、接收即时通讯服务器发送的聊天文本数据;聊天文本数据包括至少一个聊天词汇。
具体的,对步骤S310中技术手段、技术效果、技术名词的理解与举例,可参照上述实施例中对步骤S210的解释。
在上述实施方式的基础上,在本实施例中,步骤S310中判断的步骤中具体可以包括:
S311、在即时通讯服务器对应的即时通讯应用程序中登录预设的虚拟账号;虚拟账号处于包含多个业务用户账号的消息群中。
在本申请实施例中,可以预先注册多个虚拟账号,并将各虚拟账号分别加入多个债券行业的业务用户所在的消息群中。
具体的,将即时通讯服务器模拟为多个即时通讯应用程序所在的客户端,基于各虚拟账号的账号和密码,分别将各虚拟账号在即时通讯应用程序上进行账号登录,以实现各虚拟账号可以接收所在消息群的交易信息。
S312、即时通讯服务器在基于虚拟账号接收到消息群中的聊天消息时,确定聊天消息对应的聊天文本数据,并将聊天文本数据进行发送。
在本申请实施例中,还预先为各虚拟账号配置对应的HTTP监听地址、消息推送接口地址,以实现基于HTTP监听地址获取对应虚拟账号所在消息群的聊天消息,并且基于HTTP监听地址、消息推送接口地址将获取到的聊天消息发送至处理装置。
具体的,在将聊天消息发送之前,若聊天消息问语音聊天消息,还需要进行语音文本转换,得到聊天消息对应的聊天文本数据,并将聊天文本数据进行发送。其效果在于,上传文本数据可以便于后续对文本数据进行数据整理以及数据展示。当然,也可以直接将聊天消息发送至处理装置,处理装置基于接收到的聊天消息进行文本转换,得到对应的聊天文本数据,并基于聊天文本数据进行后续的数据处理以及数据展示。
S320、基于预设的债券业务关键词库对聊天词汇进行关键词识别,确定聊天词汇是否为债券业务对应的业务词汇。
具体的,对步骤S320中技术手段、技术效果、技术名词的理解与举例,可参照上述实施例中对步骤S220的解释。
S330、对聊天词汇进行正则化解析,得到聊天词汇对应的第一结构数据。
具体的,对步骤S330中技术手段、技术效果、技术名词的理解与举例,可参照上述实施例中对步骤S230的解释。
S340、对聊天词汇进行词汇实体识别处理,得到聊天词汇对应的第二结构数据。
具体的,对步骤S340中技术手段、技术效果、技术名词的理解与举例,可参照上述实施例中对步骤S240的解释。
在上述实施方式的基础上,在本实施例中,步骤S340的步骤中具体可以包括:
S341、获取预先建立的敏感词库,基于敏感词库对非业务词汇进行敏感词筛选,得到筛选后的非业务词汇。
在实际应用中,由于在消息群中业务人员也可以进行其他内容的聊天。所以,得到的聊天消息中可能包含一些存在敏感信息的聊天内容。为了使后续处理得到的展示数据表可以合理展示,本申请实施例可以对得到的聊天词汇进行敏感词筛选。
可选的,由于业务词汇基本都为非敏感词汇,可以直接进行展示,所以为了提高筛选效率,可以直接对非业务词汇进行敏感词筛选,从而可以快速得到筛选后的词汇,进而进行处理和展示。
具体的,可以基于网络获取到的各敏感词生成敏感词库。进而对于任一非业务词汇,将该非业务词汇与敏感词库中的各敏感词进行比对;若比对结果一致,则说明该非业务词汇为敏感词汇,需要进行筛除;反之,若比对结果均不一致,则说明该非业务词汇为非敏感词汇,可以进行后续的实体识别解析。
S342、对筛选后的非业务词汇进行词汇实体识别处理,得到聊天词汇对应的第二结构数据。
具体的,对筛选后的非业务词汇进行实体识别的方法可以包括但不限于:获取预先训练完成的关于债券业务的实体识别模型,将筛选后的非业务词汇输入至实体识别模型,得到实体识别模型输出的第二结构数据。
示例性的,可以采用NER(Named Entity Recognition,命名实体识别)模型进行实体识别。具体的,识别过程可以是:采用预先训练完成的bert-base-chinese模型对上述非业务词汇进行文本编码,得到非业务词汇对应的文本向量,进而基于上述训练好的NER模型确定文本向量的标签概率矩阵,并预测最大概率的标签列表;进而通过标签组合概率,调整标签序列的组合,并得到标签序列组合,进一步的,解析标签序列得到非业务词汇对应的实体,最终输出第二结构数据,即非业务词汇和实体的对应关系。
需要说明的是,上述非业务词汇可以是仅包含非业务词汇的聊天词汇,也可以是包含有业务词汇和非业务词汇的聊天词汇。
示例性的,待识别解析的聊天词汇可以包括:"出隔夜、7D、14D 1000+2000+3000W押利率限银信";相应的,得到的第二结构数据包括"{"amount":"1000+2000+3000W","direction":"出","term":"隔夜、7D、14D","termStart":"","termEnd":"","transactionLimits":"限银行,限农信","transactionMode":"押利率"}"。
在上述实施方式的基础上,在采用NER对非业务词汇进行实体识别之前,需要先对NER进行模型训练,以得到性能良好的NER,提高识别结果的准确性。
具体的,训练过程可以包括:首先获取用于模型训练的样本数据,样本数据可以是债券行业的业务数据;采样预先训练完成的bert-base-chinese模型对上述样本数据进行文本编码,得到样本数据对应的样本文本向量;将上述样本文本向量输入至待训练的NER模型,使模型学习字向量与上下文之间的关系,记录子向量间的关系概率矩阵,学习字向量与标签的关系,记录子向量与标签的概率矩阵以及学习标签序列的组合关系,记录标签组合概率;进而基于学习结果与样本标签之间的差距生成模型损失函数,并基于模型损失函数调整模型参数,直至得到训练完成的NER模型。
S350、基于第一结构数据和第二结构数据生成聊天文本数据对应的展示数据表,并将展示数据表进行可视化展示。
具体的,对步骤S350中技术手段、技术效果、技术名词的理解与举例,可参照上述实施例中对步骤S250的解释。
在上述实施方式的基础上,在本实施例中,步骤S350的步骤中具体可以包括:
S351、对第一结构数据和第二结构数据进行数据去重处理,得到处理后的目标结构数据。
在本申请中,当聊天词汇包含非业务词汇时,可以基于全部聊天词汇进行词汇实体识别处理,得到全部聊天词汇对应的第二结构数据,此时第二结构数据中可能包含第一结构数据中的内容,为了避免后续数据展示过程中的重复展示,本申请实施例的技术方案,将第一结构数据和第二结构数据进行数据去重处理,得到处理后的目标结构数据。
S352、获取包含至少一个业务字段的初始数据表,并基于目标结构数据分别对应的至少一个数据字段以及业务字段,将目标结构数据对应存储至初始数据表,得到聊天文本数据对应的展示数据表。
在本申请实施例中,初始数据表为空白数据表,该数据表中包含多个业务字段的元数据,以便于后续基于字段有序的将目标结构数据存储至该空白数据表中。
具体的,确定各目标结构数据分别对应的数据字段。对于任一目标结构数据,查找该目标结构数据的数据字段在初始数据表中对应的业务字段,在查找到对应的业务字段之后,将该目标结构数据存储在该业务字段对应的元数据下;进一步的,将存储数据的数据表进行数据保存,生成聊天文本数据对应的展示数据表。
S353、将展示数据表发送至预设的展示终端,对展示数据表进行可视化展示。
为了便于想要进行交易的业务人员及时获知场外债券市场的交易信息,本申请在基于多个消息群的聊天文本数据得到交易信息时,对上述聊天文本数据进行数据解析处理,得到便于存储以及展示的结构化数据,并实时将结构化数据发送至展示终端,向业务人员进行展示。
在本申请中,展示终端可以是任意可以进行数据展示的终端,例如智能终端设备的显示屏、VR眼镜以及投影显示屏等显示设备。具体的,可以基于业务人员的请求,将展示数据表发送至对应的展示终端进行数据可视化;可选的,还可以直接将展示数据表直接发送至处理装置预先设置的展示终端进行数据可视化。本申请对于展示终端的展示形式以及数据发生方式不做限定。
在上述方案中,将各业务人员对应的业务人员账号在各业务终端预先安装的即时通讯应用程序中进行登录,以及将虚拟账号在即时通讯服务器安装的即时通讯应用程序上进行登录。上述各业务人员账号和虚拟账号处于即时通讯应用程序的同一消息群里。当虚拟账号接收到任一业务人员账号在消息群里发送聊天消息时,即时通讯服务器将接收到的聊天消息以文本数据方式转发至处理装置中,处理装置对接收到的聊天文本数据进行关键词识别,确定上述聊天文本数据中所包含的聊天词汇是否为债券业务对应的业务词汇。若是,则对聊天词汇进行正则化解析,得到聊天词汇对应的第一结构数据;若否,则对聊天词汇进行词汇实体识别处理,得到聊天词汇对应的第二结构数据;进而对第一结构数据和第二结构数据进行数据处理,得到处理后的展示数据表,并将展示数据表存储至预设数据库中。进一步的,将展示数据表发送至展示终端,将展示数据表进行可视化展示;以实现解决场外离散数据不规范、不标准的问题,以及实现自动采集、汇聚场外离散债券信息的机制,统一加工汇聚到预设数据表中进行数据可视化,极大提升业务查看场外市场债券信息效率,以及提升债券数据流转质量。
在上述实施方式的基础上,本申请还提供了一种可选实施方式。该可选实施方式示例性的介绍了上述数据处理的完整过程。为了便于理解,下面结合图4-图5对上述实施方式进行示例性的介绍。图4为本申请实施例提供的另一种数据处理方法的流程示意图。图5为本申请实施例提供的一种数据展示的界面示意图。
参见图4,本申请实施例的具体步骤包括:将QQ机器人(虚拟账号)已加入场外债券市场业务群聊消息。通过IM监听器(即时通讯服务器)登录QQ机器人账号,IM监听器模拟QQ的客户端与QQ服务器进行通讯,可以接受QQ群聊消息实时推送。进一步的,将接受到的QQ群聊消息,以文本方式发送到预设的采集器装置(处理装置)。
可选的,在进行账号登录之前需要预先进行数据配置。具体需要为账号配置QQ账密;为数据的采集以及发送配置HTTP监听地址、消息推送接口地址等,以实现IM监听器采集并监听QQ消息上报收集器。进而通过部署多个IM监听器以不同端口监听不同群聊,将监听到的业务群消息转发传输到采集器系统进行下一步的数据预处理和解析。
具体的,采集器负责将收到的债券文本消息进行加工处理,包括关键词处理、敏感词过滤等加工,获得为业务词汇的聊天词汇;以及包含非业务词汇的聊天词汇。
可选的,对于为业务词汇的聊天词汇,可以直接进行数据解析,得到第一结构数据;对于包含非业务词汇的聊天词汇,需要先进行敏感词筛选,并对筛选后的聊天词汇或者非业务词汇进行词汇实体识别处理,得到第二结构数据。
示例性的,若聊天词汇为"出隔夜、7D、14D 1000+2000+3000W押利率限银信";识别到聊天词汇中的业务词汇,直接对业务词汇进行数据解析,得到对应的第一结构数据:"{"amount":30000000.0,"direction":"出","term":"隔夜","termEnd":1,"termStart":1,"transactionLimits":"限银行,限农信","transactionMode":"押利率"}"
可选的,由于上述聊天词汇中包含非业务词汇,为了便于识别,本申请技术方案直接基于全部聊天词汇进行词汇实体别,得到识别后的第二结构数据:"{"amount":"1000+2000+3000W","direction":"出","term":"隔夜、7D、14D","termStart":"","termEnd":"","transactionLimits":"限银行,限农信","transactionMode":"押利率"}"。
具体的,结果取并集,如上已形成格式化的多个字段,通过建立关系型数据库作字段入库处理,根据不同业务消息建立不同的业务表,即让不同业务消息隔离存储。
将上述业务表发送至终端中进行数据可视化。可选的,业务人员通过web可视化页面查看汇集系统中标准化格式的场外债券市场数据。示例性的,场外债券市场数据的可视化页面可如图5所示。
图6为本申请根据一示例性实施例提供的一种数据处理装置的结构示意图。参见图6,该装置包括:聊天文本数据获取模块410、关键词识别模块420、第一结构数据获取模块430、第二结构数据获取模块440以及数据可视化模块450;其中,
聊天文本数据获取模块410,用于接收即时通讯服务器发送的聊天文本数据;聊天文本数据包括至少一个聊天词汇;
关键词识别模块420,用于基于预设的债券业务关键词库对聊天词汇进行关键词识别,确定聊天词汇是否为债券业务对应的业务词汇;
第一结构数据获取模块430,用于若聊天词汇为业务词汇,则对聊天词汇进行正则化解析,得到聊天词汇对应的第一结构数据;
第二结构数据获取模块440,用于若聊天词汇为非业务词汇,则对聊天词汇进行词汇实体识别处理,得到聊天词汇对应的第二结构数据;
数据可视化模块450,用于基于第一结构数据和第二结构数据生成聊天文本数据对应的展示数据表,并将展示数据表进行可视化展示。
可选的,第二结构数据获取模块440,包括:
非业务词汇确定单元,用于获取预先建立的敏感词库,基于敏感词库对非业务词汇进行敏感词筛选,得到筛选后的非业务词汇;
第二结构数据确定单元,用于对筛选后的非业务词汇进行词汇实体识别处理,得到聊天词汇对应的第二结构数据。
可选的,第二结构数据确定单元,包括:
第二结构数据确定子单元,用于获取预先训练完成的关于债券业务的实体识别模型,将筛选后的非业务词汇输入至实体识别模型,得到实体识别模型输出的第二结构数据。
可选的,数据可视化模块450,包括:
目标结构数据确定单元,用于对第一结构数据和第二结构数据进行数据去重处理,得到处理后的目标结构数据;
展示数据表确定单元,用于获取包含至少一个业务字段的初始数据表,并基于目标结构数据分别对应的至少一个数据字段以及业务字段,将目标结构数据对应存储至初始数据表,得到聊天文本数据对应的展示数据表;
数据可视化单元,用于将展示数据表发送至预设的展示终端,对展示数据表进行可视化展示。
可选的,聊天文本数据获取模块410,包括:
虚拟账号登录单元,用于在即时通讯服务器对应的即时通讯应用程序中登录预设的虚拟账号;虚拟账号处于包含多个业务用户账号的消息群中;
聊天文本数据发送单元,用于即时通讯服务器在基于虚拟账号接收到消息群中的聊天消息时,确定聊天消息对应的聊天文本数据,并将聊天文本数据进行发送。
可选的,装置还包括:
聊天词汇获得模块,用于获取预设的分词方法,基于分词方法对聊天文本数据进行分词处理,得到至少一个聊天词汇。
可选的,装置还包括:
债券业务关键词获得模块,用于获取与债券业务关联的网络信息,对网络信息进行信息解析以及关键词提取,得到多个债券业务关键词;
债券业务关键词库生成模块,用于基于各债券业务关键词生成债券业务关键词库。
图7为本申请实施例提供的一种终端设备的结构示意图。如图7所示,本实施例的终端设备可以包括:
至少一个处理器501;以及
与至少一个处理器通信连接的存储器502;
其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使服务器执行如上述任一实施例的方法。
可选地,存储器502既可以是独立的,也可以跟处理器501集成在一起。
本实施例提供的电子设备的实现原理和技术效果可以参见前述各实施例,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现前述任一实施例的方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一实施例的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于服务器或主控设备中。
图8是根据一示例性实施例示出的一种终端设备的框图,该设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当该存储介质中的指令由终端设备的处理器执行时,使得终端设备能够执行上述终端设备的分屏处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
接收即时通讯服务器发送的聊天文本数据;所述聊天文本数据包括至少一个聊天词汇;
基于预设的债券业务关键词库对所述聊天词汇进行关键词识别,确定所述聊天词汇是否为债券业务对应的业务词汇;
若所述聊天词汇为业务词汇,则对所述聊天词汇进行正则化解析,得到所述聊天词汇对应的第一结构数据;
若所述聊天词汇为非业务词汇,则对所述聊天词汇进行词汇实体识别处理,得到所述聊天词汇对应的第二结构数据;
基于所述第一结构数据和所述第二结构数据生成所述聊天文本数据对应的展示数据表,并将所述展示数据表进行可视化展示。
2.根据权利要求1所述的方法,其特征在于,所述对所述聊天词汇进行词汇实体识别处理,得到所述聊天词汇对应的第二结构数据,包括:
获取预先建立的敏感词库,基于所述敏感词库对所述非业务词汇进行敏感词筛选,得到筛选后的非业务词汇;
对筛选后的非业务词汇进行词汇实体识别处理,得到所述聊天词汇对应的第二结构数据。
3.根据权利要求2所述的方法,其特征在于,所述对筛选后的非业务词汇进行词汇实体识别处理,得到所述聊天词汇对应的第二结构数据,包括:
获取预先训练完成的关于债券业务的实体识别模型,将所述筛选后的非业务词汇输入至所述实体识别模型,得到所述实体识别模型输出的第二结构数据。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一结构数据和所述第二结构数据生成所述聊天文本数据对应的展示数据表,并将所述展示数据表进行可视化展示,包括:
对所述第一结构数据和所述第二结构数据进行数据去重处理,得到处理后的目标结构数据;
获取包含至少一个业务字段的初始数据表,并基于所述目标结构数据分别对应的至少一个数据字段以及所述业务字段,将所述目标结构数据对应存储至所述初始数据表,得到所述聊天文本数据对应的展示数据表;
将所述展示数据表发送至预设的展示终端,对所述展示数据表进行可视化展示。
5.根据权利要求1所述的方法,其特征在于,所述接收即时通讯服务器发送的聊天文本数据,包括:
在所述即时通讯服务器对应的即时通讯应用程序中登录预设的虚拟账号;所述虚拟账号处于包含多个业务用户账号的消息群中;
所述即时通讯服务器在基于所述虚拟账号接收到所述消息群中的聊天消息时,确定所述聊天消息对应的聊天文本数据,并将所述聊天文本数据进行发送。
6.根据权利要求1-5任一项所述的方法,其特征在于,在所述接收即时通讯服务器发送的聊天文本数据,之后还包括:
获取预设的分词方法,基于所述分词方法对所述聊天文本数据进行分词处理,得到至少一个聊天词汇。
7.根据权利要求1-5任一项所述的方法,其特征在于,在所述基于预设的债券业务关键词库对所述聊天词汇进行关键词识别之前,还包括:
获取与债券业务关联的网络信息,对所述网络信息进行信息解析以及关键词提取,得到多个债券业务关键词;
基于各所述债券业务关键词生成所述债券业务关键词库。
8.一种数据处理装置,其特征在于,所述装置包括:
聊天文本数据获取模块,用于接收即时通讯服务器发送的聊天文本数据;所述聊天文本数据包括至少一个聊天词汇;
关键词识别模块,用于基于预设的债券业务关键词库对所述聊天词汇进行关键词识别,确定所述聊天词汇是否为债券业务对应的业务词汇;
第一结构数据获取模块,用于若所述聊天词汇为业务词汇,则对所述聊天词汇进行正则化解析,得到所述聊天词汇对应的第一结构数据;
第二结构数据获取模块,用于若所述聊天词汇为非业务词汇,则对所述聊天词汇进行词汇实体识别处理,得到所述聊天词汇对应的第二结构数据;
数据可视化模块,用于基于所述第一结构数据和所述第二结构数据生成所述聊天文本数据对应的展示数据表,并将所述展示数据表进行可视化展示。
9.一种终端设备,其特征在于,包括:处理器以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器在执行所述计算机执行指令时用于实现如权利要求1至7中任意一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时用于实现如权利要求1至7中任意一项所述的数据处理方法。
CN202310558807.6A 2023-05-17 2023-05-17 数据处理方法、装置、电子设备以及存储介质 Pending CN116610717A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310558807.6A CN116610717A (zh) 2023-05-17 2023-05-17 数据处理方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310558807.6A CN116610717A (zh) 2023-05-17 2023-05-17 数据处理方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN116610717A true CN116610717A (zh) 2023-08-18

Family

ID=87681170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310558807.6A Pending CN116610717A (zh) 2023-05-17 2023-05-17 数据处理方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN116610717A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093715A (zh) * 2023-10-18 2023-11-21 湖南财信数字科技有限公司 词库扩充方法、系统、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093715A (zh) * 2023-10-18 2023-11-21 湖南财信数字科技有限公司 词库扩充方法、系统、计算机设备及存储介质
CN117093715B (zh) * 2023-10-18 2023-12-29 湖南财信数字科技有限公司 词库扩充方法、系统、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
JP7464098B2 (ja) 電子会議システム
US11645316B2 (en) Question answering method and language model training method, apparatus, device, and storage medium
CN106685916B (zh) 电子会议智能装置及方法
US11062220B2 (en) Integrated virtual cognitive agents and message communication architecture
CN110569377A (zh) 一种媒体文件的处理方法和装置
US8972498B2 (en) Mobile-based realtime location-sensitive social event engine
US11556698B2 (en) Augmenting textual explanations with complete discourse trees
CN112330455B (zh) 用于推送信息的方法、装置、设备以及存储介质
CN111209970A (zh) 视频分类方法、装置、存储介质及服务器
US20130311506A1 (en) Method and apparatus for user query disambiguation
CN111241822A (zh) 输入场景下情绪发现与疏导方法及装置
CN111339295A (zh) 用于展示信息的方法、装置、电子设备和计算机可读介质
CN110798567A (zh) 短信分类显示方法及装置、存储介质、电子设备
CN112116391A (zh) 多媒体资源投放方法、装置、计算机设备及存储介质
CN116610717A (zh) 数据处理方法、装置、电子设备以及存储介质
CN107506441B (zh) 一种数据排列方法、装置、电子设备以及存储介质
CN113869063A (zh) 数据推荐方法、装置、电子设备及存储介质
KR20220044074A (ko) 여론 획득과 단어 점도 모델의 훈련 방법 및 기기, 서버와 매체
CN112749238A (zh) 搜索排序方法、装置、电子设备以及计算机可读存储介质
CN116912478A (zh) 目标检测模型构建、图像分类方法、电子设备
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN112115231A (zh) 一种数据处理方法及装置
CN111400437A (zh) 互联网信息响应方法、装置、电子设备和计算机可读介质
CN113535940A (zh) 事件摘要生成方法、装置及电子设备
Bousbahi From poster to mobile calendar: an event reminder using mobile ocr

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination