CN115599655A - 一种聊天信息的提取方法、装置、设备、存储介质和产品 - Google Patents

一种聊天信息的提取方法、装置、设备、存储介质和产品 Download PDF

Info

Publication number
CN115599655A
CN115599655A CN202211379888.5A CN202211379888A CN115599655A CN 115599655 A CN115599655 A CN 115599655A CN 202211379888 A CN202211379888 A CN 202211379888A CN 115599655 A CN115599655 A CN 115599655A
Authority
CN
China
Prior art keywords
characters
character
initial
picture
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211379888.5A
Other languages
English (en)
Inventor
刘靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202211379888.5A priority Critical patent/CN115599655A/zh
Publication of CN115599655A publication Critical patent/CN115599655A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种聊天信息的提取方法、装置、设备、存储介质和产品,其中该方法包括:获取聊天过程中的聊天信息;当所述聊天信息为图片时,对所述图片进行文字提取,得到图片对应的文字;判断所述文字中是否存在预置的重要字段;若是,则确定所述重要字段的类别,将所述文字添加至对应类别的数据库表中;若否,则判断所述文字中是否存在预置的次要字段;若是,则根据用户指令确定所述次要字段的类别,将所述文字添加至对应类别的数据库表中,本发明能够避免人工记录过程中记录有误的问题,提高记录效率。

Description

一种聊天信息的提取方法、装置、设备、存储介质和产品
技术领域
本发明涉及通信技术领域,尤其涉及一种聊天信息的提取方法、装置、设备、存储介质和产品。
背景技术
在日常工作和生活中,经常会通过即时聊天工具进行聊天,在聊天过程中常常会聊到一些重要信息,因为即时聊天工具中的聊天记录会定时清理,为了保存聊天过程中的重要信息,此时需要对重要信息进行人工记录,人工记录的过程一方面可能会存在记录有误的问题,另一方面人工记录效率较低。
因此,现在亟需一种聊天信息的提取方法,能够避免人工记录过程中记录有误的问题,提高记录效率。
发明内容
本发明实施例提供一种聊天信息的提取方法、装置、设备、存储介质和产品,用以避免人工记录过程中记录有误的问题,提高记录效率,其中方法包括:
获取聊天过程中的聊天信息;
当所述聊天信息为图片时,对所述图片进行文字提取,得到图片对应的文字;
判断所述文字中是否存在预置的重要字段;
若是,则确定所述重要字段的类别,将所述文字添加至对应类别的数据库表中;
若否,则判断所述文字中是否存在预置的次要字段;
若是,则根据用户指令确定所述次要字段的类别,将所述文字添加至对应类别的数据库表中。
优选的,所述对所述图片进行文字提取,得到图片对应的文字进一步包括:
将图片输入预先训练得到的神经网络模型中,得到图片对应的初始文字;
通过预置的文字库对所述初始文字进行校准,得到图片对应的文字。
优选的,所述将图片输入预先训练得到的神经网络模型中,得到图片对应的初始文字进一步包括:
通过文本检测网络模型,提取图片中涉及文本的图片区域;
将所述涉及文本的图片区域进行特征提取,得到特征提取后的图片区域;
将所述特征提取后的图片区域输入卷积循环神经网络模型,得到图片区域对应的初始文字。
优选的,所述通过预置的文字库对所述初始文字进行校准,得到图片对应的文字进一步包括:
计算所述初始文字与文字库中任一文字之间的相似度,将其中相似度最高的文字作为图片对应的文字。
优选的,所述计算所述初始文字与文字库中任一文字之间的相似度进一步包括:
将初始文字划分为依序排列的至少一个单字;
根据预设的字-值对应表,得到每一单字对应的值;
将初始文字中所有单字对应的值相加,得到初始文字对应的总值;
根据初始文字中每一单字对应的值,以及初始文字对应的总值,得到初始文字与文字库中任一文字之间的相似度。
优选的,当所述图片为聊天记录截图时,根据本机一定时段内的聊天记录集合生成所述文字库。
优选的,所述根据初始文字中每一单字对应的值,以及初始文字对应的总值,得到初始文字与文字库中任一文字之间的相似度进一步包括:
由文字库中选取文字的总值与所述初始文字对应的总值之差在设定差值范围内的文字,作为预选文字;
依序将初始文字中每一单字对应的值与预选文字中每一单字对应的值进行比较,若相同,则记为1,若不同,则记为0,得到由1和/或0组成的依序排列的字符串;
按照字符串中1的数量,得到初始文字与预选文字之间的相似度。
本发明实施例还提供一种聊天信息的提取装置,包括:
获取模块,用于获取聊天过程中的聊天信息;
提取模块,用于当所述聊天信息为图片时,对所述图片进行文字提取,得到图片对应的文字;
判断模块,用于判断所述文字中是否存在预置的重要字段;
若是,则确定所述重要字段的类别,将所述聊天信息添加至对应类别的数据库表中;
若否,则判断所述文字中是否存在预置的次要字段;
若是,则根据用户指令确定所述次要字段的类别,将所述聊天信息添加至对应类别的数据库表中。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述方法。
通过本文的方法,可以保存聊天过程中的中药信息,无需进行人工记录,提高信息记录的正确率和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中提供的一种聊天信息的提取方法的流程示意图;
图2为本发明实施例中提供的用于对图片进行文字提取,得到图片对应的文字的流程示意图;
图3为本发明实施例中提供的用于将图片输入预先训练得到的神经网络模型中,得到图片对应的初始文字的流程示意图;
图4为本发明实施例中提供的用于计算初始文字与文字库中任一文字之间的相似度,将其中相似度最高的文字作为图片对应的文字的流程示意图;
图5为本发明实施例中提供的用于根据初始文字中每一单字对应的值,以及初始文字对应的总值,得到初始文字与文字库中任一文字之间的相似度的流程示意图;
图6为本发明实施例中提供的一种聊天信息的提取装置的结构示意图;
图7为本发明实施例中提供的计算机设备的结构示意图。
附图符号说明:
100、获取模块;
200、提取模块;
300、判断模块;
702、计算机设备;
704、处理器;
706、存储器;
708、驱动机构;
710、输入/输出模块;
712、输入设备;
714、输出设备;
716、呈现设备;
718、图形用户接口;
720、网络接口;
722、通信链路;
724、通信总线。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在日常工作和生活中,经常会通过即时聊天工具进行聊天,在聊天过程中常常会聊到一些重要信息,因为即时聊天工具中的聊天记录会定时清理,为了保存聊天过程中的重要信息,此时需要对重要信息进行人工记录,人工记录的过程一方面可能会存在记录有误的问题,另一方面人工记录效率较低。
为了解决上述问题,本发明提供了一种聊天信息的提取方法。图1是本发明实施例提供的一种聊天信息的提取方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或装置产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参照图1,本发明示出了一种聊天信息的提取方法,包括:
S101:获取聊天过程中的聊天信息;
S102:当所述聊天信息为图片时,对所述图片进行文字提取,得到图片对应的文字;
S103:判断所述文字中是否存在预置的重要字段;
S104:若是,则确定所述重要字段的类别,将所述文字添加至对应类别的数据库表中;
S105:若否,则判断所述文字中是否存在预置的次要字段;
S106:若是,则根据用户指令确定所述次要字段的类别,将所述文字添加至
对应类别的数据库表中;
S107:若否,则无需添加所述文字。
在本发明中,聊天信息为通过即时聊天工具进行聊天过程中的信息,聊天信息可能为文字、图片或者是文本等等,当聊天信息为图片时,需要对图片进行文字提取。判断文字中是否存在预置的重要字段或次要字段,如果存在重要字段,则直接将文字添加至数据库表,如果存在次要字段,则根据用户指令将文字添加至数据库表,例如可以在聊天过程中弹出弹框,需要用户选择是否添加,若用户选择添加,则将文字添加至数据库表。
其中预置的重要字段或次要字段可以根据用户需求进行设置,对于重要字段来说,可以设置相应类别的数据库表,将文字添加至数据库表中;同样的对于次要字段来说,也可以设置相应类别的数据库表,将文字添加其中。通过本文的方法,可以保存聊天过程中的重要信息,无需进行人工记录,提高信息记录的正确率和效率。
其中,参照图2,所述对所述图片进行文字提取,得到图片对应的文字进一步包括:
S201:将图片输入预先训练得到的神经网络模型中,得到图片对应的初始文字;
S202:通过预置的文字库对所述初始文字进行校准,得到图片对应的文字。
图片对应的初始文字中可能存在不准确的问题,因此需要对其进行校准,才能得到图片对应的文字。
进一步的,参照图3,所述将图片输入预先训练得到的神经网络模型中,得到图片对应的初始文字进一步包括:
S301:通过文本检测网络模型,提取图片中涉及文本的图片区域;
S302:将所述涉及文本的图片区域进行特征提取,得到特征提取后的图片区域;
S303:将所述特征提取后的图片区域输入卷积循环神经网络模型,得到图片区域对应的初始文字。
其中文本检测网络模型可以为CTPN(Connectionist Text Proposal Network),CTPN可以通过垂直锚点机制和循环神经网络,可以探索丰富的图像上下文信息,检测极其模糊的文本,进而提取图片中涉及文本的图片区域。
将涉及文本的图片区域基于密集连接的卷积网络DenseNet进行特征提取后,输入卷积循环神经网络CRNN(Convolutional Recurrent Neural Network)来进行文字识别。CRNN主要从下到上由卷积层、循环层、转录层三部分组成。
在本发明中,所述通过预置的文字库对所述初始文字进行校准,得到图片对应的文字进一步包括:
计算所述初始文字与文字库中任一文字之间的相似度,将其中相似度最高的文字作为图片对应的文字。
参照图4,具体如下:
S401:将初始文字划分为依序排列的至少一个单字;
S402:根据预设的字-值对应表,得到每一单字对应的值;
S403:将初始文字中所有单字对应的值相加,得到初始文字对应的总值;
S404:根据初始文字中每一单字对应的值,以及初始文字对应的总值,得到初始文字与文字库中任一文字之间的相似度。
其中文字库中记录了所有的重要字段和次要字段,通过比较初始文字与文字库中文字的相似度,确定图片对应的文字。图片可以为聊天记录截图,也可以为其他图片,当所述图片为聊天记录截图时,可以根据本机一定时段内的聊天记录集合生成所述文字库。例如对本机最近三天内所有的聊天记录内容进行提取,将提取后的内容作为文字库,提取时可以依据事先设置的关键字段进行提取,关键字段可以包括所有的重要字段和次要字段,提取后的内容即为一定时段内所涉及到的关键字段。
在比较时,先将初始文字划分为单字,例如初始文字为“交易失败”,则划分为单字得到“交”、“易”、“失”、“败”,四个单字。
字-值对应表中包括字,与该字对应的值,每个字对应的值可以提前设置,具体可以将外形相近的字对应的值设置为相近值,例如“失”和“夫”外形相近,可以设置两者对应的值也相近。在前述得到初始文字时,可能存在识别有误,导致得到的初始文字并非“交易失败”而是“交易夫败”。
将“交”、“易”、“夫”、“败”四个单字对应的值相加,得到初始文字对应的总值。
在本发明中,参照图5,所述根据初始文字中每一单字对应的值,以及初始文字对应的总值,得到初始文字与文字库中任一文字之间的相似度进一步包括:
S501:由文字库中选取文字的总值与所述初始文字对应的总值之差在设定差值范围内的文字,作为预选文字;
S502:依序将初始文字中每一单字对应的值与预选文字中每一单字对应的值进行比较,若相同,则记为1,若不同,则记为0,得到由1和/或0组成的依序排列的字符串;
S503:按照字符串中1的数量,得到初始文字与预选文字之间的相似度。
假设得到的初始文字是“交易夫败”,由文字库中选取文字的总值与初始文字的总值之差在设定范围内的文字,设定范围可以根据实际工况确定,以此得到至少一个预选文字。
然后以其中任一预选文字为例,依序将“交”、“易”、“夫”、“败”每一单字对应的值与预选文字中每一单字对应的值进行比较,初始文字中“交”的顺序为1、“易”的顺序为2,“夫”的顺序为3,“败”的顺序为4,若预选文字为“交易失败”,则预选文字中“交”的顺序为1、“易”的顺序为2,“失”的顺序为3,“败”的顺序为4,顺序为1、2、4的相同,顺序为3的不相同,得到1和/或0组成的依序排列的字符串为“1101”。
进一步的,根据字符串中1的数量,得到初始文字与预选文字之间的相似度,相似度可以为字符串中1的数量占字符串中1和0的总数量的比值,即为75%,则预选文字“交易失败”与初始文字的相似度为75%,由此,计算所有预选文字的相似度,将其中相似度最高的预选文字作为图片对应的文字。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。且本申请实施例描述的技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
本发明实施例中还提供了一种聊天信息的提取装置,如下面的实施例所述。由于该装置解决问题的原理与一种聊天信息的提取方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
参照图6,为本发明实施例提供的一种聊天信息的提取装置的结构示意图,所述装置包括:
获取模块100,用于获取聊天过程中的聊天信息;
提取模块200,用于当所述聊天信息为图片时,对所述图片进行文字提取,得到图片对应的文字;
判断模块300,用于判断所述文字中是否存在预置的重要字段;
若是,则确定所述重要字段的类别,将所述聊天信息添加至对应类别的数据库表中;
若否,则判断所述文字中是否存在预置的次要字段;
若是,则根据用户指令确定所述次要字段的类别,将所述聊天信息添加至对应类别的数据库表中。
若否,则无需添加所述文字。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
参照图7所示,为所述计算机设备的结构示意图,其中上述方法运行在计算机设备702上。计算机设备702可以包括一个或多个处理器704,诸如一个或多个中央处理单元(CPU)或图形处理器(GPU),每个处理单元可以实现一个或多个硬件线程。计算机设备702还可以包括任何存储器706,其用于存储诸如代码、设置、数据等之类的任何种类的信息,一具体实施方式中,存储器706上并可在处理器704上运行的计算机程序,所述计算机程序被所述处理器704运行时,可以执行根据上述方法的指令。非限制性的,比如,存储器706可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备702的固定或可移除部件。在一种情况下,当处理器704执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备702可以执行相关联指令的任一操作。计算机设备702还包括用于与任何存储器交互的一个或多个驱动机构708,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备702还可以包括输入/输出模块710(I/O),其用于接收各种输入(经由输入设备712)和用于提供各种输出(经由输出设备714)。一个具体输出机构可以包括呈现设备716和相关联的图形用户接口718(GUI)。在其他实施例中,还可以不包括输入/输出模块710(I/O)、输入设备712以及输出设备714,仅作为网络中的一台计算机设备。计算机设备702还可以包括一个或多个网络接口720,其用于经由一个或多个通信链路722与其他设备交换数据。一个或多个通信总线724将上文所描述的部件耦合在一起。
通信链路722可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路722可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种聊天信息的提取方法,其特征在于,包括:
获取聊天过程中的聊天信息;
当所述聊天信息为图片时,对所述图片进行文字提取,得到图片对应的文字;
判断所述文字中是否存在预置的重要字段;
若是,则确定所述重要字段的类别,将所述文字添加至对应类别的数据库表中;
若否,则判断所述文字中是否存在预置的次要字段;
若是,则根据用户指令确定所述次要字段的类别,将所述文字添加至对应类别的数据库表中。
2.如权利要求1所述的聊天信息的提取方法,其特征在于,所述对所述图片进行文字提取,得到图片对应的文字进一步包括:
将图片输入预先训练得到的神经网络模型中,得到图片对应的初始文字;
通过预置的文字库对所述初始文字进行校准,得到图片对应的文字。
3.如权利要求2所述的聊天信息的提取方法,其特征在于,所述将图片输入预先训练得到的神经网络模型中,得到图片对应的初始文字进一步包括:
通过文本检测网络模型,提取图片中涉及文本的图片区域;
将所述涉及文本的图片区域进行特征提取,得到特征提取后的图片区域;
将所述特征提取后的图片区域输入卷积循环神经网络模型,得到图片区域对应的初始文字。
4.如权利要求2所述的聊天信息的提取方法,其特征在于,所述通过预置的文字库对所述初始文字进行校准,得到图片对应的文字进一步包括:
计算所述初始文字与文字库中任一文字之间的相似度,将其中相似度最高的文字作为图片对应的文字。
5.如权利要求4所述的聊天信息的提取方法,其特征在于,所述计算所述初始文字与文字库中任一文字之间的相似度进一步包括:
将初始文字划分为依序排列的至少一个单字;
根据预设的字-值对应表,得到每一单字对应的值;
将初始文字中所有单字对应的值相加,得到初始文字对应的总值;
根据初始文字中每一单字对应的值,以及初始文字对应的总值,得到初始文字与文字库中任一文字之间的相似度。
6.如权利要求5所述的聊天信息的提取方法,其特征在于,当所述图片为聊天记录截图时,根据本机一定时段内的聊天记录集合生成所述文字库。
7.如权利要求5所述的聊天信息的提取方法,其特征在于,所述根据初始文字中每一单字对应的值,以及初始文字对应的总值,得到初始文字与文字库中任一文字之间的相似度进一步包括:
由文字库中选取文字的总值与所述初始文字对应的总值之差在设定差值范围内的文字,作为预选文字;
依序将初始文字中每一单字对应的值与预选文字中每一单字对应的值进行比较,若相同,则记为1,若不同,则记为0,得到由1和/或0组成的依序排列的字符串;
按照字符串中1的数量,得到初始文字与预选文字之间的相似度。
8.一种聊天信息的提取装置,其特征在于,包括:
获取模块,用于获取聊天过程中的聊天信息;
提取模块,用于当所述聊天信息为图片时,对所述图片进行文字提取,得到图片对应的文字;
判断模块,用于判断所述文字中是否存在预置的重要字段;
若是,则确定所述重要字段的类别,将所述聊天信息添加至对应类别的数据库表中;
若否,则判断所述文字中是否存在预置的次要字段;
若是,则根据用户指令确定所述次要字段的类别,将所述聊天信息添加至对应类别的数据库表中。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。
CN202211379888.5A 2022-11-04 2022-11-04 一种聊天信息的提取方法、装置、设备、存储介质和产品 Pending CN115599655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211379888.5A CN115599655A (zh) 2022-11-04 2022-11-04 一种聊天信息的提取方法、装置、设备、存储介质和产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211379888.5A CN115599655A (zh) 2022-11-04 2022-11-04 一种聊天信息的提取方法、装置、设备、存储介质和产品

Publications (1)

Publication Number Publication Date
CN115599655A true CN115599655A (zh) 2023-01-13

Family

ID=84852410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211379888.5A Pending CN115599655A (zh) 2022-11-04 2022-11-04 一种聊天信息的提取方法、装置、设备、存储介质和产品

Country Status (1)

Country Link
CN (1) CN115599655A (zh)

Similar Documents

Publication Publication Date Title
CN110292775B (zh) 获取差异数据的方法及装置
CN108628741A (zh) 网页页面测试方法、装置、电子设备和介质
WO2013067337A1 (en) Method and apparatus for visualizing and interacting with decision trees
US7797356B2 (en) Dynamically detecting exceptions based on data changes
CN110634081A (zh) 一种水电站异常数据的处理方法及装置
US20150039987A1 (en) Systems and methods for data entry
CN103809838A (zh) 数值输入处理方法及其系统、仿真凭证数据输入处理方法
CN106325596A (zh) 一种书写笔迹自动纠错方法及系统
CN107918797A (zh) 用于编辑机器学习结果的方法和信息处理设备
CN110275938B (zh) 基于非结构化文档的知识提取方法及系统
CN101833548A (zh) 在可编程控制器编程中的变数名称的输入支援方法
CN107808076B (zh) 一种终端设备的解锁方法、终端设备以及存储介质
WO2019080419A1 (zh) 标准知识库的构建方法、电子装置及存储介质
CN115599655A (zh) 一种聊天信息的提取方法、装置、设备、存储介质和产品
CN105739932B (zh) 在终端屏幕上显示数据的方法及其装置
JP7440352B2 (ja) 教育コンテンツ作成システム及び方法
JP2010165141A (ja) テキストログからの特定箇所抽出方法およびプログラム
JP6652141B2 (ja) 項目名対応付け処理方法、項目名対応付け処理プログラム及び情報処理装置
US20090177690A1 (en) Determining an Optimal Solution Set Based on Human Selection
Cuff et al. Statistical analysis of surgical pathology data using the R program
CN116484802B (zh) 字符串颜色标记方法、装置、计算机设备及存储介质
WO2013099013A1 (ja) 表示器用画面データ編集装置
CN115562505A (zh) 一种校准文字的确定方法、装置、设备、存储介质和产品
CN113539405B (zh) 电子病历表格运算控件的处理方法
CN113407536B (zh) 表数据的关联方法、装置、终端设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination