CN110781676B - 一种文本处理方法、装置、系统、电子设备及存储介质 - Google Patents

一种文本处理方法、装置、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN110781676B
CN110781676B CN201910945412.5A CN201910945412A CN110781676B CN 110781676 B CN110781676 B CN 110781676B CN 201910945412 A CN201910945412 A CN 201910945412A CN 110781676 B CN110781676 B CN 110781676B
Authority
CN
China
Prior art keywords
type
text
target text
processed
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910945412.5A
Other languages
English (en)
Other versions
CN110781676A (zh
Inventor
蔡韩辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910945412.5A priority Critical patent/CN110781676B/zh
Publication of CN110781676A publication Critical patent/CN110781676A/zh
Application granted granted Critical
Publication of CN110781676B publication Critical patent/CN110781676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本信息处理方法,包括:根据与待处理的目标文本相对应的关键词,确定目标文本的类型,并根据目标文本的类型对目标文本进行类型标记,形成相应的文本类型标记;根据文本类型标记,触发执行与待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据目标文本的类型执行相应的业务。本发明还提供了文本信息处理装置、系统、电子设备及存储介质。本发明能够实现够保证业务进程的准确性,从而可以提升回复的丰富度和前瞻性,相应的文本信息数据库根据目标文本的类型执行相应的业务,保证了文本信息数据库的全面性与准确性,有效提升用户的使用体验,减少文本信息数据库的维护工作量,提升维护效率。

Description

一种文本处理方法、装置、系统、电子设备及存储介质
技术领域
本发明涉及数据处理技术,尤其涉及文本处理方法、装置、系统、电子设备及存储介质。
背景技术
人机交互(HCI Human–Computer Interaction)是指人与计算机之间使用某种对话语言,以一定的交互方式确定人与计算机之间的信息交换过程。随着人机交互技术的发展,越来越多的基于人机交互技术的智能产品应运而生,例如聊天机器人(chatterbot)等。这些智能产品可以和用户进行聊天交流,并根据用户的问题生成或查找相应的回答信息。但是,在传统技术使用过程,会有大量重复性的技术问题咨询。使用传统技术生成相应答复的过程所伴随的缺陷包括:1)一部分的问题咨询存在一定的重复性,使得服务方人员经常需要在不同的聊天群组中重复类似的内容。2)服务方人员在做出了回答之后,不一定能及时做知识沉淀,使得在不同的聊天群组中,不同人对咨询做出的回应存在一定的差异,影响了用户的使用体验。
发明内容
有鉴于此,本发明实施例提供一种文本处理方法、装置、系统、电子设备及存储介质,能够根据与待处理的目标文本相对应的关键词,确定所述目标文本的类型,并触发执行与待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据目标文本的类型执行相应的业务,由此,既能够保证业务进程的准确性,又能够实现相应的文本信息数据库根据目标文本的类型执行相应的业务,保证了文本信息数据库的全面性与准确性,有效提升用户的使用体验,减少文本信息数据库的维护工作量,同时提升文本信息数据库的维护效率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种文本信息处理方法,所述方法包括:
获取待处理的目标文本;
对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;
根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记;
根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务。
上述方案中,所述对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词,包括:
确定与所述文本信息数据库的使用环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述目标文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的第一分词策略;
根据与所述动态噪声阈值相匹配的第一分词策略,对所述目标文本进行分词处理,形成与所述目标文本相对应的关键词;或者
确定与所述文本信息数据库相对应的固定噪声阈值;
根据所述固定噪声阈值对所述目标文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的第二分词策略;
根据与所述固定噪声阈值相匹配的第二分词策略,对所述目标文本进行分词处理,形成与所述目标文本相对应的关键词。
上述方案中,所述根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记,包括:
当所述待处理的目标文本相对应的关键词中包括与检索操作相匹配的关键词时,
确定所述待处理的目标文本的类型为检索式语句类型;
根据所述检索式语句类型对所述目标文本进行类型标记,形成相应的第一文本类型标记。
上述方案中,所述根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,包括:
根据所述第一文本类型标记,触发执行与所述检索式语句类型相匹配的业务进程,
以实现相应的文本信息数据库根据所述检索式语句类型执行检索业务。
上述方案中,所述根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记,包括:
当所述待处理的目标文本相对应的关键词中包括与增加新问题操作相匹配的关键词时,
确定所述待处理的目标文本的类型为增加新问题的语句类型;
根据所述增加新问题的语句类型对所述目标文本进行类型标记,形成相应的第二文本类型标记。
上述方案中,所述根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,包括:
根据所述第二文本类型标记,触发执行与所述增加新问题的语句类型相匹配的业务进程,
以实现相应的文本信息数据库根据所述增加新问题的语句类型执行文本添加业务。
上述方案中,所述根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记,包括:
当所述待处理的目标文本相对应的关键词中包括与更新问题及对应答复的操作相匹配的关键词时,
确定所述待处理的目标文本的类型为更新问题及对应答复的语句类型;
根据所述更新问题及对应答复的语句类型对所述目标文本进行类型标记,形成相应的第三文本类型标记。
上述方案中,所述根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,包括:
根据所述第三文本类型标记,触发执行与所述更新问题及对应答复的语句类型相匹配的业务进程,
以实现相应的文本信息数据库根据所述更新问题及对应答复的语句类型执行文本更新业务。
上述方案中,所述方法还包括:
将所述待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息发送至区块链网络,以使
所述区块链网络的节点将所述待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
本发明实施例还提供了一种文本信息处理方法,应用于文本信息处理系统中,所述方法包括:
客户端获取待处理的目标文本;
服务器对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;
所述服务器根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记;
所述服务器根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务。
本发明实施例还提供了一种文本信息处理装置,所述装置包括:
信息传输模块,用于获取待处理的目标文本;
信息处理模块,用于对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;
所述信息处理模块,用于根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记;
所述信息处理模块,用于根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务。
上述方案中,
所述信息处理模块,用于确定与所述文本信息数据库的使用环境相匹配的动态噪声阈值;
所述信息处理模块,用于根据所述动态噪声阈值对所述目标文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的第一分词策略;
所述信息处理模块,用于根据与所述动态噪声阈值相匹配的第一分词策略,对所述目标文本进行分词处理,形成与所述目标文本相对应的关键词;
所述信息处理模块,用于确定与所述文本信息数据库相对应的固定噪声阈值;
所述信息处理模块,用于根据所述固定噪声阈值对所述目标文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的第二分词策略;
所述信息处理模块,用于根据与所述固定噪声阈值相匹配的第二分词策略,对所述目标文本进行分词处理,形成与所述目标文本相对应的关键词。
上述方案中,
所述信息处理模块,用于当所述待处理的目标文本相对应的关键词中包括与检索操作相匹配的关键词时,确定所述待处理的目标文本的类型为检索式语句类型;
根据所述检索式语句类型对所述目标文本进行类型标记,形成相应的第一文本类型标记。
上述方案中,
所述信息处理模块,用于根据所述第一文本类型标记,触发执行与所述检索式语句类型相匹配的业务进程,
以实现相应的文本信息数据库根据所述检索式语句类型执行检索业务。
上述方案中,
所述信息处理模块,用于当所述待处理的目标文本相对应的关键词中包括与增加新问题操作相匹配的关键词时,确定所述待处理的目标文本的类型为增加新问题的语句类型;
所述信息处理模块,用于根据所述增加新问题的语句类型对所述目标文本进行类型标记,形成相应的第二文本类型标记。
上述方案中,
所述信息处理模块,用于根据所述第二文本类型标记,触发执行与所述增加新问题的语句类型相匹配的业务进程,
以实现相应的文本信息数据库根据所述增加新问题的语句类型执行文本添加业务。
上述方案中,
所述信息处理模块,用于当所述待处理的目标文本相对应的关键词中包括与更新问题及对应答复的操作相匹配的关键词时,确定所述待处理的目标文本的类型为更新问题及对应答复的语句类型;
所述信息处理模块,用于根据所述更新问题及对应答复的语句类型对所述目标文本进行类型标记,形成相应的第三文本类型标记。
上述方案中,
所述信息处理模块,用于根据所述第三文本类型标记,触发执行与所述更新问题及对应答复的语句类型相匹配的业务进程,
以实现相应的文本信息数据库根据所述更新问题及对应答复的语句类型执行文本更新业务。
上述方案中,
所述信息传输模块,用于将所述待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息发送至区块链网络,以使
所述区块链网络的节点将所述待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息填充至所述新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
本发明实施例还提供了一种文本信息处理系统,所述系统包括:
客户端,用于获取待处理的目标文本;
服务器,用于对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;
所述服务器,用于根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记;
所述服务器,用于根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的文本信息处理方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的文本信息处理方法。
本发明实施例具有以下有益效果:
通过对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记;根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,实现了既能够保证业务进程的准确性,从而可以提升回复的丰富度和前瞻性,又能够实现相应的文本信息数据库根据目标文本的类型执行相应的业务,保证了文本信息数据库的全面性与准确性,有效提升用户的使用体验,减少文本信息数据库的维护工作量,同时提升文本信息数据库的维护效率。
附图说明
图1为本发明实施例提供的信息处理方法的使用场景示意图;
图2为本发明实施例提供的信息处理装置的组成结构示意图;
图3为本发明实施例提供的文本信息处理方法一个可选的流程示意图;
图4为本发明实施例提供的文本信息处理方法一个可选的流程示意图;
图5为本发明实施例提供的文本信息处理方法一个可选的流程示意图;
图6为本发明实施例提供的文本信息处理方法一个可选的流程示意图;
图7为本发明实施例提供的文本信息处理方法一个可选的流程示意图;
图8是本发明实施例提供的文本信息处理装置100的架构示意图;
图9是本发明实施例提供的区块链网络200中区块链的结构示意图;
图10是本发明实施例提供的区块链网络200的功能架构示意图;
图11为本发明中文本信息处理方法一个可选的使用环境示意图;
图12为本发明中文本信息处理方法一个可选的协议约定示意图;
图13为本发明中文本信息处理方法一个可选的前端显示示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)词单元,对输入文本做任何实际处理前,都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。
3)分词:使用中文分词工具切分中文文本,得到细粒度词的集合。停用词:对于文本的语义没有贡献或者贡献可以不计的字或词。Cosin相似度:两个文本表示成向量之后的余弦相似度。
4)通过终端随机生成加密密钥(Encoding AES key)。
5)通过终端随机生成通信令牌(token)。
6)nonce,表征消息发送系统给出的随机字符串。
7)交易(Transaction),等同于计算机术语“事务”,交易包括了需要提交到区块链网络执行的操作,并非单指商业语境中的交易,鉴于在区块链技术中约定俗成地使用了“交易”这一术语,本发明实施例遵循了这一习惯。
8)区块链(Blockchain),是由区块(Block)形成的加密的、链式的交易的存储结构。
9)区块链网络(Blockchain Network),通过共识的方式将新区块纳入区块链的一系列的节点的集合。
10)账本(Ledger),是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。
11)智能合约(Smart Contracts),也称为链码(Chaincode)或应用代码,部署在区块链网络的节点中的程序,节点执行接收的交易中所调用的智能合约,来对状态数据库的键值对数据进行更新或查询的操作。
12)共识(Consensus),是区块链网络中的一个过程,用于在涉及的多个节点之间对区块中的交易达成一致,达成一致的区块将被追加到区块链的尾部,实现共识的机制包括工作量证明(PoW,Proof of Work)、权益证明(PoS,Proof of Stake)、股份授权证明(DPoS,Delegated Proof-of-Stake)、消逝时间量证明(PoET,Proof of Elapsed Time)等。
图1为本发明实施例提供的文本信息处理方法的使用场景示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有聊天软件的客户端,用户通过所设置的聊天客户端可以输入相应的目标文本,聊天客户端也可以接收相应的答复语句,并将所接收的答复语句向用户进行展示;终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
作为一个示例,服务器200用于布设相应的文本信息处理装置以实现文本信息处理方法,以实现根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务,并通过终端(终端10-1和/或终端10-2)展示所生成的与目标文本相对应的答复语句。
当然在通过文本信息处理装置对目标文本进行处理以触发执行与所述待处理的目标文本的类型相匹配的业务进程,具体包括:获取待处理的目标文本;对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记;根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务。
下面对本发明实施例的文本信息处理装置的结构做详细说明,文本信息处理装置可以各种形式来实施,如带有文本信息处理功能的专用终端,也可以为设置有文本信息处理功能的服务器,例如前序图1中的服务器200。图2为本发明实施例提供的文本信息处理装置的组成结构示意图,可以理解,图2仅仅示出了文本信息处理装置的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的文本信息处理装置包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。文本信息处理装置20中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的文本信息处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的问答模型训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文本信息处理方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的文本信息处理装置采用软硬件结合实施的示例,本发明实施例所提供的文本信息处理装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的文本信息处理方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的文本信息处理装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的文本信息处理方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持文本信息处理装置20的操作。这些数据的示例包括:用于在文本信息处理装置20上操作的任何可执行指令,如可执行指令,实现本发明实施例的从文本信息处理方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的文本信息处理装置可以采用软件方式实现,图2示出了存储在存储器202中的文本信息处理装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括文本信息处理装置,文本信息处理装置中包括以下的软件模块:信息传输模块2081,信息处理模块2082。当文本信息处理装置中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的文本信息处理方法,下面继续说明文本信息处理装置中各个软件模块的功能,其中,
信息传输模块2081,用于获取待处理的目标文本;
信息处理模块2082,用于对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;
所述信息处理模块2082,用于根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记;
所述信息处理模块2082,用于根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务。
结合图2示出的文本信息处理装置说明本发明实施例提供的信息处理方法,参见图3,图3为本发明实施例提供的文本信息处理方法一个可选的流程示意图,可以理解地,图3所示的步骤可以由运行文本信息处理装置的各种电子设备执行,例如可以是如带有文本信息处理装置的专用终端、服务器或者服务器集群,其中,带有文本信息处理装置的专用终端可以为前序图2所示的实施例中带有信息处理装置的电子设备。下面针对图3示出的步骤进行说明。
步骤301:文本信息处理装置获取待处理的目标文本。
步骤302:对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词。
在本发明的一些实施例中,对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词,可以通过以下方式实现:
确定与所述文本信息数据库的使用环境相匹配的动态噪声阈值;根据所述动态噪声阈值对所述目标文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的第一分词策略;根据与所述动态噪声阈值相匹配的第一分词策略,对所述目标文本进行分词处理,形成与所述目标文本相对应的关键词。其中由于文本信息数据库的使用环境不同,与所述文本信息数据库的使用环境相匹配的动态噪声阈值也不相同,例如,学术翻译的使用环境中,与所述文本信息数据库的使用环境相匹配的动态噪声阈值需要小于文章阅读环境中的动态噪声阈值。
在本发明的一些实施例中,对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词,可以通过以下方式实现:
确定与所述文本信息数据库相对应的固定噪声阈值;根据所述固定噪声阈值对所述目标文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的第二分词策略;根据与所述固定噪声阈值相匹配的第二分词策略,对所述目标文本进行分词处理,形成与所述目标文本相对应的关键词。其中,当文本信息数据库固化于相应的硬件机构中,使用环境为口语化翻译时,通过固定文本信息数据库相对应的固定噪声阈值,能够有效加快文本信息数据库的训练速度,减少用户的等待时间。
在本发明的一些实施例中,关键词对应的语义描述信息可以根据相关人员整理的、用于描述该关键词的信息(以下简称为专家描述信息)确定,相关人员可以是相关领域的专家。具体地,可以由专家针对各候选关键词整理各自对应的专家描述信息,再根据各候选关键词、各专家描述信息、以及各候选关键词及各专家描述信息之间的匹配关系,构建专家知识库,据此,需要得到关键词的语义描述信息时,在专家知识库中查找与该关键词对应的候选关键词,该关键词的语义描述信息可以包括查找到的候选关键词所匹配的专家描述信息。进一步地,语义表达式可以包括正向语义表达式和负向语义表达式,语义关系包括正向语义关系和负向语义关系。此外,还包括限定语义表达式,限定语义表达式是描述类目语义中限定关系的表达式。限定语义表达式包括限定关键词。限定关键词用于对关键词进行限定,可以更加精确地表达类目语义。比如,对于“游戏—水浒传”与“图书—水浒传”这两个类目,因为两者都有“水浒传”这个共有关键词,其关键词层面的相关度是很高的。但是从语义上来说,一个是“游戏”,另一个则是“图书”,它们之间的相关度则很低。通过限定语义表达式表述后,即可反映出它们之间在语义层面的相关度。
步骤303:根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记。
步骤304:根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程。
由此,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务。
在本发明的一些实施例中,所述根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记,可以通过以下方式实现:
当所述待处理的目标文本相对应的关键词中包括与检索操作相匹配的关键词时,确定所述待处理的目标文本的类型为检索式语句类型;根据所述检索式语句类型对所述目标文本进行类型标记,形成相应的第一文本类型标记;根据所述第一文本类型标记,触发执行与所述检索式语句类型相匹配的业务进程,以实现相应的文本信息数据库根据所述检索式语句类型执行检索业务。由此,既能够保证业务进程的准确性,又能够实现相应的文本信息数据库根据目标文本的类型执行相应的业务,保证了文本信息数据库的全面性与准确性,有效提升用户的使用体验,减少文本信息数据库的维护工作量,同时文本信息数据库的维护效率。
继续结合2示出的文本信息处理装置说明本发明实施例提供的信息处理方法;参见图4,图4为本发明实施例提供的文本信息处理方法一个可选的流程示意图,可以理解地,图4所示的步骤可以由运行文本信息处理装置的各种电子设备执行,例如可以是如带有文本信息处理功能的专用终端、服务器或者服务器集群。下面针对图4示出的步骤进行说明。
步骤3031:当所述待处理的目标文本相对应的关键词中包括与检索操作相匹配的关键词时,文本信息处理装置确定所述待处理的目标文本的类型为检索式语句类型。
步骤3032:根据所述检索式语句类型对所述目标文本进行类型标记,形成相应的第一文本类型标记。
步骤3033:根据所述第一文本类型标记,触发执行与所述检索式语句类型相匹配的业务进程。
步骤3034:文本信息数据库根据所述检索式语句类型执行检索业务,确定相应答复语句。
步骤3035:文本信息处理装置将相应答复语句发送至客户端。
由此,不但可以在不具有任何所属类目已知的文本的情况下,由计算机设备通过检索技术确定与目标文本相匹配的答复语句,从而节省了传统方式中人工答复的环节,节省了人力成本,并且提升对目标文本进行答复的准确性。
继续结合2示出的文本信息处理装置说明本发明实施例提供的信息处理方法;参见图5,图5为本发明实施例提供的文本信息处理方法一个可选的流程示意图,可以理解地,图5所示的步骤可以由运行文本信息处理装置的各种电子设备执行,例如可以是如带有文本信息处理功能的专用终端、服务器或者服务器集群。下面针对图5示出的步骤进行说明。
步骤501:当所述待处理的目标文本相对应的关键词中包括与增加新问题操作相匹配的关键词时,文本信息处理装置确定所述待处理的目标文本的类型为增加新问题的语句类型。
步骤502:根据所述增加新问题的语句类型对所述目标文本进行类型标记,形成相应的第二文本类型标记。
步骤503:根据所述第二文本类型标记,触发执行与所述增加新问题的语句类型相匹配的业务进程。
步骤504:文本信息数据库根据所述增加新问题的语句类型执行文本添加业务。由此,当待处理的目标文本相对应的关键词中包括与增加新问题操作相匹配的关键词时,触发执行与所述增加新问题的语句类型相匹配的业务进程,文本信息数据库根据所述增加新问题的语句类型执行文本添加业务,实现了扩充文本信息数据库的数据量,避免了用户在输入相应的文本信息后无法获得相应的答复信息,减少了用户获得无效回答的概率,提升了用户体验。
继续结合2示出的文本信息处理装置说明本发明实施例提供的信息处理方法;参见图6,图6为本发明实施例提供的文本信息处理方法一个可选的流程示意图,可以理解地,图6所示的步骤可以由运行文本信息处理装置的各种电子设备执行,例如可以是如带有文本信息处理功能的专用终端、服务器或者服务器集群。下面针对图6示出的步骤进行说明。
步骤601:当所述待处理的目标文本相对应的关键词中包括与更新问题及对应答复的操作相匹配的关键词时,确定所述待处理的目标文本的类型为更新问题及对应答复的语句类型。
步骤602:根据所述更新问题及对应答复的语句类型对所述目标文本进行类型标记,形成相应的第三文本类型标记。
步骤603:根据所述第三文本类型标记,触发执行与所述更新问题及对应答复的语句类型相匹配的业务进程。
步骤604:文本信息数据库根据所述更新问题及对应答复的语句类型执行文本更新业务。
由于业务信息的更新速度快,时效性强,因此,通过本实施例所示的技术方案,可以保证用户所获得信息均为最新版本的答复语句,从而可以提升回复的丰富度和前瞻性,保证了文本信息数据库的全面性与准确性,有效提升用户的使用体验。
在本发明的一些实施例中,所述方法还包括:
将所述待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息发送至区块链网络,以使
所述区块链网络的节点将所述待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息填充至所述新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
继续结合2示出的文本信息处理装置说明本发明实施例提供的信息处理方法;参见图7,图7为本发明实施例提供的文本信息处理方法一个可选的流程示意图,应用于文本信息处理系统中,可以理解地,图7所示的步骤可以由运行文本信息处理系统中的各种电子设备执行,例如可以是如带有文本信息处理功能的专用终端、服务器或者服务器集群。下面针对图7示出的步骤进行说明。
步骤701:客户端获取待处理的目标文本;
其中,客户端可以封装于相应的电子设备中,也可以作为封装有客户端的专用终端以实现传输目标文本或相应的答复语句。
步骤702:服务器对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词。
步骤703:服务器根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记。
步骤704:服务器根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程。
由此,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务。
参见图8,图8是本发明实施例提供的文本信息处理装置100的架构示意图,包括区块链网络200(示例性示出了共识节点210-1至共识节点210-3)、认证中心300、业务主体400和业务主体500,下面分别进行说明。
区块链网络200的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备例如用户终端和服务器,都可以在不需要授权的情况下接入区块链网络200;以联盟链为例,业务主体在获得授权后其下辖的电子设备(例如终端/服务器)可以接入区块链网络200,此时,成为区块链网络200中的客户端节点。
在一些实施例中,客户端节点可以只作为区块链网络200的观察者,即提供支持业务主体发起交易(例如,用于上链存储数据或查询链上数据)功能,对于区块链网络200的共识节点210的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选择性(例如,取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络200中,通过区块链网络200实现数据和业务处理过程的可信和可追溯。
区块链网络200中的共识节点接收来自不同业务主体(例如图1中示出的业务主体400和业务主体500)的客户端节点(例如,图1中示出的归属于业务主体400的客户端节点410、以及归属于数据库运营商系统的客户端节点510)提交的交易,执行交易以更新账本或者查询账本,执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。
例如,客户端节点410/510可以订阅区块链网络200中感兴趣的事件,例如区块链网络200中特定的组织/通道中发生的交易,由共识节点210推送相应的交易通知到客户端节点410/510,从而触发客户端节点410/510中相应的业务逻辑。
下面以多个业务主体接入区块链网络以实现目标视频和相应文本信息的管理为例,说明区块链网络的示例性应用。
参见图8,管理环节涉及的多个业务主体,如业务主体400可以是基于人工智能的文本信息处理装置,业务主体500可以是带有文本信息处理功能的显示系统,从认证中心300进行登记注册获得各自的数字证书,数字证书中包括业务主体的公钥、以及认证中心300对业务主体的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交易中,并被发送到区块链网络,以供区块链网络从交易中取出数字证书和签名,验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络会根据身份进行验证,例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运行的客户端都可以向区块链网络200请求接入而成为客户端节点。
业务主体400的客户端节点410用于获取待处理的目标文本;对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记;根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务;将所述待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息发送至区块链网络200。
其中,将待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息发送至区块链网络200,可以预先在客户端节点410设置业务逻辑,当形成相应的文本信息时,客户端节点410将待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息自动发送至区块链网络200,也可以由业务主体400的业务人员在客户端节点410中登录,手动打包待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息,并将其发送至区块链网络200。在发送时,客户端节点410根据待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息生成对应更新操作的交易,在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点410的数字证书、签署的数字签名(例如,使用客户端节点410的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络200中的共识节点210。
区块链网络200中的共识节点210中接收到交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体400的身份,确认业务主体400是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署节点210自己的数字签名(例如,使用节点210-1的私钥对交易的摘要进行加密得到),并继续在区块链网络200中广播。
区块链网络200中的共识节点210接收到验证成功的交易后,将交易填充到新的区块中,并进行广播。区块链网络200中的共识节点210广播的新区块时,会对新区块进行共识过程,如果共识成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交更新待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息的交易,在状态数据库中添加包括待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息的键值对。
业务主体500的业务人员在客户端节点510中登录,输入目标视频或者文本信息查询请求,客户端节点510根据目标视频或者文本信息查询请求生成对应更新操作/查询操作的交易,在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点510的数字证书、签署的数字签名(例如,使用客户端节点510的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络200中的共识节点210。
区块链网络200中的共识节点210中接收到交易,对交易进行验证、区块填充及共识一致后,将填充的新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交的更新某一目标视频对应的人工识别结果的交易,根据人工识别结果更新状态数据库中该目标视频对应的键值对;对于提交的查询某个目标视频的交易,从状态数据库中查询目标视频对应的键值对,并返回交易结果。
值得说明的是,在图8中示例性地示出了将待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息直接上链的过程,但在另一些实施例中,对于目标视频的数据量较大的情况,客户端节点410可将目标视频的哈希以及相应的文本信息的哈希成对上链,将原始的目标视频以及相应的文本信息存储于分布式文件系统或数据库。客户端节点510从分布式文件系统或数据库获取到目标视频以及相应的文本信息后,可结合区块链网络200中对应的哈希进行校验,从而减少上链操作的工作量。
作为区块链的示例,参见图9,图9是本发明实施例提供的区块链网络200中区块链的结构示意图,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长,区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。
下面说明本发明实施例提供的区块链网络的示例性的功能架构,参见图10,图10是本发明实施例提供的区块链网络200的功能架构示意图,包括应用层201、共识层202、网络层203、数据层204和资源层205,下面分别进行说明。
资源层205封装了实现区块链网路200中的各个节点210的计算资源、存储资源和通信资源。
数据层204封装了实现账本的各种数据结构,包括以文件系统中的文件实现的区块链,键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。
网络层203封装了点对点(P2P,Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。
其中,P2P网络协议实现区块链网络200中节点210之间的通信,数据传播机制保证了交易在区块链网络200中的传播,数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现节点210之间传输数据的可靠性;接入认证机制用于根据实际的业务场景对加入区块链网络200的业务主体的身份进行认证,并在认证通过时赋予业务主体接入区块链网络200的权限;业务主体身份管理用于存储允许接入区块链网络200的业务主体的身份、以及权限(例如能够发起的交易的类型)。
共识层202封装了区块链网络200中的节点210对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法,支持共识算法的可插拔。
交易管理用于验证节点210接收到的交易中携带的数字签名,验证业务主体的身份信息,并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息);对于获得接入区块链网络200的授权的业务主体而言,均拥有认证中心颁发的数字证书,业务主体利用自己的数字证书中的私钥对提交的交易进行签名,从而声明自己的合法身份。
账本管理用于维护区块链和状态数据库。对于取得共识的区块,追加到区块链的尾部;执行取得共识的区块中的交易,当交易包括更新操作时更新状态数据库中的键值对,当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作,包括:根据区块向量号(例如交易的哈希值)查询区块;根据区块哈希值查询区块;根据交易向量号查询区块;根据交易向量号查询交易;根据业务主体的账号(向量号)查询业务主体的账号数据;根据通道名称查询通道中的区块链。
应用层201封装了区块链网络能够实现的各种业务,包括交易的溯源、存证和验证等。
继续参考图11,以企业微信为例说明本发明中文本处理方法的处理流程,其中图11为本发明中文本信息处理方法一个可选的的使用环境示意图,其中,即时通信服务端能够接收即时通信客户端所发送的检索、维护指令,并与问答应用服务器进行通信,应用服务器能够实现对问答知识库的更新与维护,并能够通过检索指令从所述问答知识库中获取相应的信息。
在传统技术中,以企业微信本为例,企业微信团队在服务合作伙伴和客户技术人员的过程中,会有大量重复性的技术问题咨询。其产生的问题包括:一部分的问题咨询存在一定的重复性,使得服务方人员经常需要在不同的聊天群组中重复类似的内容;服务方人员在做出了回答之后,不一定能及时做知识沉淀,使得在不同的聊天群组中,不同人对咨询做出的回应存在一定的差异,影响了用户的使用体验。
结合前序图11,在本发明的一些实施例中,在即时通信客户端一侧,在群组管理界面中,可以为群主的操作增加一个配置群机器人的功能,使得群主可以为群新增、修改或删除群机器人。
系统会为每一个群机器人分配一个唯一群机器人ID字符串,以大小写字母和数字随机生成Token字符串和Encoding AES Key字符串。为了提供了群消息与应用的消息双向接口,即时通信系统会提供用于外部应用向即时通信服务器推送的群机器人在群中发送的消息;同时,管理员还需要配置用于外部应用接收消息的URL。下面以企业微信为例,对群机器人处理信息的过程进行说明,企业微信作为企业级的一站式软件即服务(Software as aService,SAAS)的服务平台,主要服务的对象便是企业和各类商家,企业微信中的群机器人可以对相应的问题进行处理,实现根据问题生成相应的答复。其中,当企业微信进程被触发时,企业微信中的群机器人进程可通过调用异步接口wx.getSystemInfo或者同步接口wx.getSystemInfoSync获取群机器人进程当前运行的系统环境。当企业微信中的群机器人进程运行于企业微信时,会额外返回一个environment(环境)字段并赋值为wxwork(企业微信),此时的wxwork就是平台标识;进一步地,企业微信进程中的调用接口凭证是群机器人进程服务器与相应问答生成平台进行通信的重要凭据,所有接口在通信时都需要携带此信息用于验证接口的访问权限。相应问答生成平台将调用接口凭证反馈至群机器人进程服务。在本发明中,企业微信的接口可使用安全数据传输协议(Https Hyper Text TransferProtocol over Secure Socket Layer)、JS对象简谱或UTF8编码(8-bit UnicodeTransformation Format)等协议实现数据传输。
在本发明的一些实施例中,群机器人发送消息接口URL包括:
1)https://即时通信系统后台域名端口/群信息发送操作?robotid=群机器人ID。
2)群机器人被“@”后,将消息转发给应用URL:
https://外部应用系统后台域名端口/群信息接收操作?robotid=群机器人ID。其中,Token可由开发者任意填写,用于生成签名。长度为3~32之间的英文或数字;Encoding AES Key用于消息体的加密,长度固定为43个字符,从a-z,A-Z,0-9共62个字符中选取,是AES Key的Base64编码。解码后即为32字节长的AES Key。即时通信系统与问答应用服务器有双向推送消息的能力,提供http post接口推送群消息,协议约定可以参考图12所示,其中,图12为本发明中文本信息处理方法一个可选的协议约定示意图,具体的:encrypted字段内容是消息加密内容,是通过将Encoding AES Key通过base64解码后的得到的AES key加密之后,再经过base64编码的字符串。经过AES解密后,消息协议应该包括:发送者、接受者、消息类型、消息内容、消息产生时间。
其中,消息内容中的signature字段是经过sha1(sort(token、timestamp、nonce、msg_encrypt))计算出来的哈希字符串;消息产生时间中的timestamp是消息发送系统给出的时间戳;消息类型中的nonce是消息发送系统给出的随机字符串。
继续参考图11和图12,对问题检索过程进行介绍,其中,及时通信客户端一侧,当群成员“@”了群机器人后,后台问答应用向问答知识库检索,问答知识库返回按匹配度(取值范围从0.0到1.0)倒序的问答对。当匹配度大于某个阈值时(比如设定为0.8)时,认定能找到对应答句,否则向客户端给出答不上的话术表达。将剩余检索结果根据匹配度倒序,发送到即时通信消息中作为模糊问题提示链接,用户可以点击链接直接打开知识点查阅,其前端实现界面可以参考图13。图13为本发明中文本信息处理方法一个可选的前端显示示意图,当根据目标文本(用户所输入的问题)确定相应的答复语句时,通过客户端输出与目标文本相匹配的答复语句,当未能确定相应的答复语句时,通过客户端输出与目标文本相近似的文本(其他用户输入的已经答复的问题)供用户参考。
下面对问答应用服务器一侧的工作过程进行介绍,其中,
问答应用向即时通信系统提供了用文本消息方式,对问答库系统的检索、新增、更新维护问答对的功能。为了避免太多的歧义,问答应用规定了与功能相对应、基于关键词(指令)匹配的交互的模式。
当目标文本的第一句中包含了“请问”指令时,后面的内容自动作为问答库系统的检索问句。
当目标文本的第一句中包含了“新增”指令、且后面内容包含“问”、“答”的内容,其中“问”之后(直到“答”之前)的是可被检索问句,“答”之后的是对应的答句。
当目标文本的第一句中包含了“更新”指令、且后面内容包含“问”、“答”的内容,其中“问”之后(直到“答”之前)的是可被检索问句,“答”之后的是对应的答句。
进一步地,问答应用服务器还包括了问答维护系统。管理员登录问答应用服务的管理界面后,可以查看问答知识库系统的知识点检索和命中情况,可以维护问答知识库内容:新增、更新和删除知识点等操作。
问答应用服务器还包括了对问答维护请求表的操作。当接收到来自群机器人转过来的消息属于“新增”或“更新”问答操作的,问答应用服务器将该类请求临时储存在问答维护请求表。管理员需要一次对维护请求表中的条目做审阅订正后,才更新到问答知识库中。
综上所述,本发明实施例具有以下技术效果:
通过对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记;根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,实现了既能够保证业务进程的准确性,从而可以提升回复的丰富度和前瞻性,又能够实现相应的文本信息数据库根据目标文本的类型执行相应的业务,保证了文本信息数据库的全面性与准确性,有效提升用户的使用体验,减少文本信息数据库的维护工作量,同时文本信息数据库的维护效率。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种文本信息处理方法,其特征在于,所述方法包括:
获取待处理的目标文本;
对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;
根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记,其中,所述关键词由限定关键词进行限定,所述限定关键词包括于限定语义表达式中,所述限定语义表达式用于确定不同关键词在语义层面的相关度;
根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务,其中,所述业务包括至少以下之一:
根据检索式语句类型执行检索业务、根据增加新问题的语句类型执行文本添加业务以及根据更新问题及对应答复的语句类型执行文本更新业务。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词,包括:
确定与所述文本信息数据库的使用环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述目标文本集合进行去噪处理,并触发与所述动态噪声阈值相匹配的第一分词策略;
根据与所述动态噪声阈值相匹配的第一分词策略,对所述目标文本进行分词处理,形成与所述目标文本相对应的关键词;或者
确定与所述文本信息数据库相对应的固定噪声阈值;
根据所述固定噪声阈值对所述目标文本集合进行去噪处理,并触发与所述固定噪声阈值相匹配的第二分词策略;
根据与所述固定噪声阈值相匹配的第二分词策略,对所述目标文本进行分词处理,形成与所述目标文本相对应的关键词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记,包括:
当所述待处理的目标文本相对应的关键词中包括与检索操作相匹配的关键词时,
确定所述待处理的目标文本的类型为检索式语句类型;
根据所述检索式语句类型对所述目标文本进行类型标记,形成相应的第一文本类型标记。
4.根据权利要求3所述的方法,其特征在于,所述根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,包括:
根据所述第一文本类型标记,触发执行与所述检索式语句类型相匹配的业务进程,
以实现相应的文本信息数据库根据所述检索式语句类型执行检索业务。
5.根据权利要求1所述的方法,其特征在于,所述根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记,包括:
当所述待处理的目标文本相对应的关键词中包括与增加新问题操作相匹配的关键词时,
确定所述待处理的目标文本的类型为增加新问题的语句类型;
根据所述增加新问题的语句类型对所述目标文本进行类型标记,形成相应的第二文本类型标记。
6.根据权利要求5所述的方法,其特征在于,所述根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,包括:
根据所述第二文本类型标记,触发执行与所述增加新问题的语句类型相匹配的业务进程,
以实现相应的文本信息数据库根据所述增加新问题的语句类型执行文本添加业务。
7.根据权利要求1所述的方法,其特征在于,所述根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记,包括:
当所述待处理的目标文本相对应的关键词中包括与更新问题及对应答复的操作相匹配的关键词时,
确定所述待处理的目标文本的类型为更新问题及对应答复的语句类型;
根据所述更新问题及对应答复的语句类型对所述目标文本进行类型标记,形成相应的第三文本类型标记。
8.根据权利要求7所述的方法,其特征在于,所述根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,包括:
根据所述第三文本类型标记,触发执行与所述更新问题及对应答复的语句类型相匹配的业务进程,
以实现相应的文本信息数据库根据所述更新问题及对应答复的语句类型执行文本更新业务。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
将所述待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息发送至区块链网络,以使
所述区块链网络的节点将所述待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
10.一种文本信息处理方法,应用于文本信息处理系统中,其特征在于,所述方法包括:
客户端获取待处理的目标文本;
服务器对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;
所述服务器根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记,其中,所述关键词由限定关键词进行限定,所述限定关键词包括于限定语义表达式中,所述限定语义表达式用于确定不同关键词在语义层面的相关度;
所述服务器根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务,其中,所述业务包括至少以下之一:
根据检索式语句类型执行检索业务、根据增加新问题的语句类型执行文本添加业务以及根据更新问题及对应答复的语句类型执行文本更新业务。
11.一种文本信息处理装置,其特征在于,所述装置包括:
信息传输模块,用于获取待处理的目标文本;
信息处理模块,用于对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;
所述信息处理模块,用于根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记,其中,所述关键词由限定关键词进行限定,所述限定关键词包括于限定语义表达式中,所述限定语义表达式用于确定不同关键词在语义层面的相关度;
所述信息处理模块,用于根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务,其中,所述业务包括至少以下之一:
根据检索式语句类型执行检索业务、根据增加新问题的语句类型执行文本添加业务以及根据更新问题及对应答复的语句类型执行文本更新业务。
12.一种文本信息处理系统,其特征在于,所述系统包括:
客户端,用于获取待处理的目标文本;
服务器,用于对所述目标文本进行分词处理,以形成与所述目标文本相对应的关键词;
所述服务器,用于根据所述与所述待处理的目标文本相对应的关键词,确定所述目标文本的类型,并根据所述目标文本的类型对所述目标文本进行类型标记,形成相应的文本类型标记,其中,所述关键词由限定关键词进行限定,所述限定关键词包括于限定语义表达式中,所述限定语义表达式用于确定不同关键词在语义层面的相关度;
所述服务器,用于根据所述文本类型标记,触发执行与所述待处理的目标文本的类型相匹配的业务进程,以实现相应的文本信息数据库根据所述目标文本的类型执行相应的业务,其中,所述业务包括至少以下之一:
根据检索式语句类型执行检索业务、根据增加新问题的语句类型执行文本添加业务以及根据更新问题及对应答复的语句类型执行文本更新业务。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至9任一项所述的文本信息处理方法,或者实现权利要求10所述的文本信息处理方法。
14.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至9任一项所述的文本信息处理方法,或者实现权利要求10所述的文本信息处理方法。
CN201910945412.5A 2019-09-30 2019-09-30 一种文本处理方法、装置、系统、电子设备及存储介质 Active CN110781676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910945412.5A CN110781676B (zh) 2019-09-30 2019-09-30 一种文本处理方法、装置、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910945412.5A CN110781676B (zh) 2019-09-30 2019-09-30 一种文本处理方法、装置、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110781676A CN110781676A (zh) 2020-02-11
CN110781676B true CN110781676B (zh) 2022-02-25

Family

ID=69385426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910945412.5A Active CN110781676B (zh) 2019-09-30 2019-09-30 一种文本处理方法、装置、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110781676B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339193B (zh) * 2020-02-21 2023-06-27 腾讯云计算(北京)有限责任公司 类别的编码方法及装置
CN111901125B (zh) * 2020-08-03 2021-12-24 北京吉威空间信息股份有限公司 一种应用区块链保证国土空间数据一致性的方法和装置
CN113687860A (zh) * 2021-08-20 2021-11-23 北京达佳互联信息技术有限公司 一种动态配置方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737049A (zh) * 2011-04-11 2012-10-17 腾讯科技(深圳)有限公司 一种数据库的查询方法和系统
CN102880649B (zh) * 2012-08-27 2016-03-02 北京搜狗信息服务有限公司 一种个性化信息处理方法和系统
CN105760399A (zh) * 2014-12-19 2016-07-13 华为软件技术有限公司 一种数据检索方法及设备
CN107784051B (zh) * 2016-12-15 2020-09-18 平安科技(深圳)有限公司 在线客服应答系统及方法
CN108153812A (zh) * 2017-11-24 2018-06-12 广州高清视信数码科技股份有限公司 数据通信的方法、装置、计算机设备及存储介质
CN110135669A (zh) * 2018-02-08 2019-08-16 上海合寰信息科技有限公司 一种服务质检管理方法及系统

Also Published As

Publication number Publication date
CN110781676A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110602052B (zh) 微服务处理方法及服务器
CN110991391B (zh) 一种基于区块链网络的信息处理方法及装置
CN113711536B (zh) 从区块链网络中提取数据
CN111026858B (zh) 基于项目推荐模型的项目信息处理方法及装置
CN111552799B (zh) 信息处理方法、装置、电子设备及存储介质
US11341128B2 (en) Poly-logarithmic range queries on encrypted data
CN110781676B (zh) 一种文本处理方法、装置、系统、电子设备及存储介质
CN111310436B (zh) 基于人工智能的文本处理方法、装置及电子设备
CN113377805B (zh) 数据查询方法、装置、电子设备及计算机可读存储介质
CN111026319B (zh) 一种智能文本处理方法、装置、电子设备及存储介质
CN111552797B (zh) 名称预测模型的训练方法、装置、电子设备及存储介质
CN110597963A (zh) 表情问答库的构建方法、表情搜索方法、装置及存储介质
CN111291394B (zh) 一种虚假信息管理方法、装置和存储介质
US11128479B2 (en) Method and apparatus for verification of social media information
CN111026320B (zh) 多模态智能文本处理方法、装置、电子设备及存储介质
CN112925898B (zh) 基于人工智能的问答方法、装置、服务器及存储介质
CN111552798B (zh) 基于名称预测模型的名称信息处理方法、装置、电子设备
CN112995014B (zh) 消息群发的方法及装置
CN111142728B (zh) 车载环境智能文本处理方法、装置、电子设备及存储介质
CN112434062A (zh) 准实时数据处理方法、装置、服务器及存储介质
CN112132554A (zh) 一种政务信息处理方法、装置、电子设备及存储介质
CN111860597B (zh) 一种视频信息处理方法、装置、电子设备及存储介质
CN111552890B (zh) 基于名称预测模型的名称信息处理方法、装置、电子设备
CN116070191A (zh) 信息处理方法及其装置、存储介质、程序产品
Xiong Data Service Outsourcing and privacy protection in Mobile internet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40018293

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant