CN110472026A - 文本信息处理方法及系统、可读存储介质及终端设备 - Google Patents

文本信息处理方法及系统、可读存储介质及终端设备 Download PDF

Info

Publication number
CN110472026A
CN110472026A CN201910636205.1A CN201910636205A CN110472026A CN 110472026 A CN110472026 A CN 110472026A CN 201910636205 A CN201910636205 A CN 201910636205A CN 110472026 A CN110472026 A CN 110472026A
Authority
CN
China
Prior art keywords
information
dictionary
text information
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910636205.1A
Other languages
English (en)
Inventor
高呈琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201910636205.1A priority Critical patent/CN110472026A/zh
Publication of CN110472026A publication Critical patent/CN110472026A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及数据分析技术领域,揭示了一种文本信息处理方法及系统、可读存储介质及终端设备。所述方法包括:当检测到用户输入文本信息时,获取与该文本信息相关的行业字典标识;依据该行业字典标识,从字典库中确定目标字典;依据目标字典对该文本信息进行分词处理,以得到该文本信息对应的词集;依据预设词频算法,从词集中确定出关键字词,并依据关键字词生成分析结果信息,以便依据该分析结果信息实现文本信息的整理。通过实施该方法,可以提高针对文本信息的分析深度。

Description

文本信息处理方法及系统、可读存储介质及终端设备
技术领域
本发明涉及数据分析技术领域,特别涉及一种文本信息处理方法及系统、可读存储介质及终端设备。
背景技术
文本信息作为一种特殊的数据形式,其复杂性通常较高,因此针对文本信息的整理往往需要耗费较长时间。目前,为了提高文本信息的整理效率,基于文本标签的文本信息分析方法被广泛采用,但在实践中发现,文本标签的指向性通常较为广泛,所以基于文本标签分析文本信息的分析深度往往较浅,用户的使用体验感不佳。
发明内容
为了解决基于文本标签分析文本信息深度不够的技术问题,本发明提供了一种文本信息处理方法及系统、可读存储介质及终端设备。
一种文本信息处理方法,所述方法包括:
当检测到用户输入文本信息时,获取与所述文本信息相关的行业字典标识;
依据所述行业字典标识,从字典库中确定目标字典;
依据所述目标字典对所述文本信息进行分词处理,以得到所述文本信息对应的词集;
依据预设词频算法,从所述词集中确定出关键字词,并依据所述关键字词生成分析结果信息,以便依据所述分析结果信息实现所述文本信息的整理。
一种文本信息处理系统,包括:
获取单元,用于当检测到用户输入文本信息时,获取与所述文本信息相关的行业字典标识;
确定单元,用于依据所述行业字典标识,从字典库中确定目标字典;
分词单元,用于依据所述目标字典对所述文本信息进行分词处理,以得到所述文本信息对应的词集;
处理单元,用于依据预设词频算法,从所述词集中确定出关键字词,并依据所述关键字词生成分析结果信息,以便依据所述分析结果信息实现所述文本信息的整理。
一种终端设备,所述终端设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前所述的方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明所提供的文本信息处理方法包括如下步骤:当检测到用户输入文本信息时,获取与该文本信息相关的行业字典标识;依据该行业字典标识,从字典库中确定目标字典;依据目标字典对该文本信息进行分词处理,以得到该文本信息对应的词集;依据预设词频算法,从词集中确定出关键字词,并依据关键字词生成分析结果信息,以便依据该分析结果信息实现文本信息的整理。
此方法下,基于目标字典对文本信息进行分词处理,可以极大地提高针对文本信息的分析粒度,所以基于目标字典处理文本信息有助于加深分析深度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种装置的示意图;
图2是根据一示例性实施例示出的一种文本信息处理方法的流程图;
图3是根据另一示例性实施例示出的一种文本信息处理方法的流程图;
图4是根据又一示例性实施例示出的一种文本信息处理方法的流程图;
图5是根据一示例性实施例示出的一种文本信息处理系统的框图;
图6是根据另一示例性实施例示出的一种文本信息处理系统的框图;
图7是根据又一示例性实施例示出的一种文本信息处理系统的框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明所公开的文本信息处理系统的实施环境可以是终端设备,例如智能手机、平板电脑、台式电脑。图1是根据一示例性实施例示出的一种装置的示意图。装置100可以是上述终端设备。如图1所示,装置100可以包括以下一个或多个组件:处理组件102,存储器104,电源组件106,多媒体组件108,音频组件110,传感器组件114以及通信组件116。
处理组件102通常控制装置100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作以及记录操作相关联的操作等。处理组件102可以包括一个或多个处理器118来执行指令,以完成下述的方法的全部或部分步骤。此外,处理组件102可以包括一个或多个模块,用于便于处理组件102和其他组件之间的交互。例如,处理组件102可以包括多媒体模块,用于以方便多媒体组件108和处理组件102之间的交互。
存储器104被配置为存储各种类型的数据以支持在装置100的操作。这些数据的示例包括用于在装置100上操作的任何应用程序或方法的指令。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储器104中还存储有一个或多个模块,用于该一个或多个模块被配置成由该一个或多个处理器118执行,以完成如下所示方法中的全部或者部分步骤。
电源组件106为装置100的各种组件提供电力。电源组件106可以包括电源管理系统,一个或多个电源,及其他与为装置100生成、管理和分配电力相关联的组件。
多媒体组件108包括在装置100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(Liquid Crystal Display,简称LCD)和触摸面板。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display,简称OLED)。
音频组件110被配置为输出和/或输入音频信号。例如,音频组件110包括一个麦克风(Microphone,简称MIC),当装置100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件116发送。在一些实施例中,音频组件110还包括一个扬声器,用于输出音频信号。
传感器组件114包括一个或多个传感器,用于为装置100提供各个方面的状态评估。例如,传感器组件114可以检测到装置100的打开/关闭状态,组件的相对定位,传感器组件114还可以检测装置100或装置100一个组件的位置改变以及装置100的温度变化。在一些实施例中,该传感器组件114还可以包括磁传感器,压力传感器或温度传感器。
通信组件116被配置为便于装置100和其他设备之间有线或无线方式的通信。装置100可以接入基于通信标准的无线网络,如WiFi(Wireless-Fidelity,无线保真)。在一个示例性实施例中,通信组件116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件116还包括近场通信(Near FieldCommunication,简称NFC)模块,用于以促进短程通信。例如,在NFC模块可基于射频识别(Radio Frequency Identification,简称RFID)技术,红外数据协会(Infrared DataAssociation,简称IrDA)技术,超宽带(Ultra Wideband,简称UWB)技术,蓝牙技术和其他技术来实现。
在示例性实施例中,装置100可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法。
图2是根据一示例性实施例示出的一种文本信息处理方法的流程图。如图2所示,此方法包括以下步骤:
步骤201,当检测到用户输入文本信息时,获取与该文本信息相关的行业字典标识。
可选的,在一示例性实施例中,用户输入文本信息的方式可以是利用设置于终端设备上的摄像模组实现,即文本信息来自纸质文件,可以利用终端设备的摄像模组拍摄该纸质文件得到文本图片,以及通过图像识别技术得到文本信息。用户输入文本信息的方式还可以是文本信息处理系统接入某一文本信息收集系统实现,即文本信息来源于电子文件,用户可以通过在文本信息处理系统上设置筛选条件,从该文本信息收集系统中获取满足该筛选条件的电子文件的内容作为文本信息。下面主要对文本信息处理系统接入某一文本信息收集系统得到文本信息的方式进行举例说明:假设文本信息收集系统为某一行业的投诉报告收集系统,文本信息处理系统为针对投诉报告的处理系统,用户可以在处理系统中设置时间约束条件,以及从投诉报告收集系统中得到满足该时间约束条件的投诉报告,以及通过对投诉报告进行字符识别得到文本信息。通过实施该方法,可以支持文本信息的多种输入方式,便于用户灵活操作,有利于提高用户的使用体验感。
可选的,在一示例性实施例中,当检测到用户输入文本信息时,获取与该文本信息相关的行业字典标识可以包括:当检测到用户输入文本信息时,检测是否接收到用户输入的行业类型信息,以及当接收到该行业类型信息时,依据该行业类型信息的指示获得该文本信息相关的行业字典标识。
步骤202,依据上述行业字典标识,从字典库中确定目标字典。
其中,本发明实施例公开的文本信息处理系统可以为一种综合性的文本信息处理平台,可以支持多种行业的文本信息分析,因此,该文本信息处理系统中存储有多种行业的行业字典,行业字典标识可以作为字典库的主键用于识别对应的行业字典。举例来说,假设字典库中包含有保险行业、风投行业以及环保产业,该字典库中的保险行业对应的行业字典标识可以用字符A表示,风投行业对应的行业字典标识可以用字符B表示,环保产业对应的行业字典标识可以用字符C表示。在该实施例中,上述字典库中还可以存储有每一行业字典的对应存储路径,这样依据业字典标识可以快速且准确得到目标字典的对应存储路径,从而实现目标字典的快速获取。
步骤203,依据目标字典对上述文本信息进行分词处理,以得到文本信息对应的词集。
步骤204,依据预设词频算法,从词集中确定出关键字词。
可选的,在一示例性实施例中,依据预设词频算法,从词集中确定出关键字词可以包括:计算词集中每一字词的词频和逆向文件频率指数;依据计算得到的词频和逆向文件频率指数对词集中每一字词进行评分,以得到词集对应的分值表;其中,该分值表中至少记录有词集中每一字词和每一字词的对应分值;将从分值表中确定出的对应分值大于预设分值的字词作为关键字词。
若步骤201提及的文本信息为某一文本文档的内容,字词的词频是针对该某一文本文档而言的,而字词的逆向文件频率指数是针对包括该某一文本文档的整个文件夹而言的,下面对字词的词频和逆向文件频率指数进行详细说明:若上述文本信息由投诉报告提取而来,针对每一投诉报告可以生成一份文本文档,生成的所有文本文档可以存储于一个文件夹中,字词的词频为某一字词在某一文本文档的出现频率,逆向文件频率指数为用于衡量该字词普遍重要性的参数,可以由文件夹中的总文本文档数目除以具有该字词的文本文档的数目,再取对数得到。举例来说,假如某一文本文档的总词语数是100个,而词语“美好”出现了3次,那么“美好”一词在该文本文档的词频就是3/100=0.03,若文件夹中总文本文档数目为10,000,000份,出现“美好”的文本文档数目为1000份,那么词语“美好”对应的逆向文件频率就是lg(10,000,000/1,000)=4,词语“美好”的对应分值可以为0.03*4=0.12。其中,需要说明的是,词语的对应分值越高可以说明该词语的重要程度越高,其作为关键字词的可能性就越大。
步骤205,依据关键字词生成分析结果信息,以便依据该分析结果信息实现上述文本信息的整理。
通过实施上述方法,可以通过提高分析粒度的方法加深对文本信息的分析深度,也可以便于用户灵活操作,有利于提高用户的使用体验感,还可以实现目标字典的快速获取。
图3是根据另一示例性实施例示出的一种文本信息处理方法的流程图。如图3所示,图3中的步骤301-305分别与图2所示的步骤201~步骤205相同,在此不再赘述,此外,此实施例中文本信息处理方法还可以包括以下步骤:
步骤306,将上述关键字词收录进词库。
其中,需要说明的是,步骤306可以是在步骤304执行完毕之后执行的。
步骤307,若当前时间点为总结节点,依据词库中所包含的字词生成总结信息。
其中,在本发明实施例中,词库所收录的词语可以支持用户主动清除,还可以在依据词库中所包含的字词生成总结信息之后,检测是否接收到用户输入的清库指令,以及当接收到该清库指令时,响应该清库指令清除词库所收录的字词,通过实施该方法,有利于合理分配存储空间,可以有效提高系统响应速度。
在本发明实施例中,词库中收录的每一关键字词关联有其对应的评价信息,综合词库中关键字词对应的评价信息可以得到总结信息。需要说明的是,该总结信息可以分为多种类型,在一示例性实施例中,该总结信息可以分为周总结类型、月总结类型、季总结类型以及年总结类型,所以,步骤307提及的总结节点也可以分为周总结节点、月总结节点、季总结节点以及年总结类型。所以,上述词库中还记录有每一关键字词的收录时间点,用于判断当前时间点所满足的总结节点类型。通过实施该方法,可以通过提供多种总结类型,进一步提高用户的使用体验感。
根据上述描述,上述总结信息可以包含多种类型的总结信息,即周总结信息、月总结信息、季总结信息以及年总结信息,进一步可选的,在一示例性实施例中,步骤307执行完毕之后,还可以当接收到总结输出指令时,从上述总结信息中获取该总结输出指令所指示的目标总结类型,并从上述总结信息中获取目标总结类型匹配的目标总结信息,以及将目标总结信息输出。在该示例性实施例中,总结输出指令除了指示目标总结类型之外,还可以指示总结时间段,可见,通过实施该方法,可以更加精准的满足用户需求。
通过实施上述方法,可以通过提高分析粒度的方法加深对文本信息的分析深度,也可以便于用户灵活操作,有利于提高用户的使用体验感,还可以实现目标字典的快速获取,还可以有效提高系统响应速度,还可以进一步提高用户的使用体验感。
图4是根据又一示例性实施例示出的一种文本信息处理方法的流程图。如图4所示,图4中的步骤401-405分别与图2所示的步骤201~步骤205相同,在此不再赘述,此外,此实施例中文本信息处理方法还可以包括以下步骤:
步骤406,检测是否接收到对象标识,如果是,执行步骤407~步骤409;如果否,结束本流程。
步骤407,从上述分析结果信息中获取针对对象标识的指示对象的评价信息。
其中,步骤406提及的对象标识用于指示上述文本信息涉及到的对象,以上述实施例中的例子进行说明,若上述文本信息是对投诉报告进行字符识别得到的,那么,针对该文本信息生成的分析结果信息中至少可以包含针对这两种对象的评价信息,一种是工作人员,另一种是客户,上述对象标识可以为工作人员的ID号或者客户的ID号。通过实施该方法,同时分析工作人员和客户,有利于工作人员优化工作质量。
步骤408,依据评价信息对上述指示对象打分,以得到该指示对象的评价分值。
步骤409,当评价分值大于分值阈值时,标记上述对象标识。
在本发明实施例中,分值阈值可以是划分优质对象的标准,也可以是划分劣质对象的标准,具体的,若分值阈值是划分优质对象的标准,对象对应的评价分值越大,说明该对象越优秀,即工作人员工作突出或者客户为优质客户。同理,若分值阈值是划分劣质对象的标准,对象对应的评价分值越大,说明该对象越劣质,即工作人员工作不突出或者客户为劣质客户。因此,通过执行步骤407~步骤409,可以通过标记对象标识实现对优质对象或者劣质对象的标记,从而可以有针对性的为企业提供改进方向,提高改进效率。
可选的,在一示例性实施例中,步骤409执行完毕之后,还可以获取上述对象标识的标记类型,以及将上述对象标识收录至该标记类型对应的标识库。基于上述描述,该标识库可以分为4种类型,一种是存储有优质工作人员的ID号的数据库,一种是存储有优质客户的ID号的数据库、一种是存储有劣质工作人员ID号的数据库、一种是存储有劣质客户ID号的数据库。因此,执行步骤408~步骤409,通过对象标识入库操作,可以实现对象的归类整理,从而进一步提高企业的改进效率。
进一步可选的,在一示例性实施例中,还可以在将上述对象标识收录至该标记类型对应的标识库之后,检测是否接收到针对标识库的展示指令,以及当接收到该展示指令时,按照预设的展示方式对该标识库进行展示。若上述标识库为存储有优质工作人员的ID号的数据库,通过实施该方法,可以起到激励企业的工作人员的目的。
通过实施上述方法,可以通过提高分析粒度的方法加深对文本信息的分析深度,也可以便于用户灵活操作,有利于提高用户的使用体验感,还可以实现目标字典的快速获取,还可以有效提高系统响应速度,还可以进一步提高用户的使用体验感,还有利于工作人员优化工作质量,还有利于提高企业的改进效率,还可以起到激励企业的工作人员的目的。
以下是本发明公开的文本信息处理系统的实施例。
图5是根据一示例性实施例示出的一种文本信息处理系统的框图。如图5所示,该文本信息处理系统可以包括:
获取单元501,用于当检测到用户输入文本信息时,获取与该文本信息相关的行业字典标识。
可选的,在一示例性实施例中,用户输入文本信息的方式可以是利用设置于终端设备上的摄像模组获取得到,即文本信息来自纸质文件,可以利用终端设备的摄像模组拍摄该纸质文件得到文本图片,以及通过图像识别技术得到文本信息。用户输入文本信息的方式还可以是文本信息处理系统接入某一文本信息收集系统得到,即文本信息来源于电子文件,用户可以通过在文本信息处理系统上设置筛选条件,从该文本信息收集系统中获取满足该筛选条件的电子文件的内容作为文本信息。下面主要对文本信息处理系统接入某一文本信息收集系统得到文本信息的方式进行举例说明:假设文本信息收集系统为某一行业的投诉报告收集系统,文本信息处理系统为针对投诉报告的处理系统,用户可以在处理系统中设置时间约束条件,以及从投诉报告收集系统中得到满足该时间约束条件的投诉报告,以及通过对投诉报告进行字符识别得到文本信息。通过实施该方法,可以支持文本信息的多种输入方式,便于用户灵活操作,有利于提高用户的使用体验感。
其中,本发明实施例公开的文本信息处理系统可以为一种综合性的文本信息处理平台,可以支持多种行业的文本信息分析,因此,该文本信息处理系统中存储有多种行业的行业字典。可选的,在一示例性实施例中,获取单元501用于当检测到用户输入文本信息时,获取与该文本信息相关的行业字典标识的方式具体可以为:获取单元501,用不当检测到用户输入文本信息时,检测是否接收到用户输入的行业类型信息,以及当接收到该行业类型信息时,依据该行业类型信息的指示获得该文本信息相关的行业字典标识。
确定单元502,用于依据上述行业字典标识,从字典库中确定目标字典。
分词单元503,用于依据目标字典对上述文本信息进行分词处理,以得到该文本信息对应的词集。
处理单元504,用于依据预设词频算法,从词集中确定出关键字词,并依据关键字词生成分析结果信息,以便依据该分析结果信息实现上述文本信息的整理。
可选的,在一示例性实施例中,处理单元504用于依据预设词频算法,从词集中确定出关键字词的方式具体可以为:
处理单元504,用于计算词集中每一字词的词频和逆向文件频率指数,并依据计算得到的词频和逆向文件频率指数对词集中每一字词进行评分,以得到词集对应的分值表;其中,该分值表中至少记录有词集中每一字词和每一字词的对应分值,以及将从分值表中确定出的对应分值大于预设分值的字词作为关键字词。
需要说明的是,关于字典标识、字典库、关键字词、词频以及逆向文件频率指数的描述,请参照上述方法实施例中的描述,本发明实施例不再赘述。
通过实施上述系统,可以通过提高分析粒度的方法加深对文本信息的分析深度,也可以便于用户灵活操作,有利于提高用户的使用体验感,还可以实现目标字典的快速获取。
图6是根据另一示例性实施例示出的一种文本信息处理系统的框图。如图6所示的文本信息处理系统是由图5所示的文本信息处理系统优化得到,图6所示的文本信息处理系统还可以包括:
收录单元505,用于将上述关键字词收录进词库。
总结单元506,用于在当前时间点为总结节点时,依据词库中所包含的字词生成总结信息。
可选的,在一示例性实施例中,总结单元506,还可以用于在当前时间点为总结节点时,依据词库中所包含的字词生成总结信息之后,当接收到总结输出指令时,从上述总结信息中获取该总结输出指令所指示的目标总结类型,并从上述总结信息中获取目标总结类型匹配的目标总结信息,以及将目标总结信息输出。
在本发明实施例中,词库所收录的词语可以支持用户主动清除,总结单元506,还可以用于在依据词库中所包含的字词生成总结信息之后,检测是否接收到用户输入的清库指令,以及当接收到该清库指令时,响应该清库指令清除词库所收录的字词,通过实施该方式,有利于合理分配存储空间,可以有效提高系统响应速度。
需要说明的是,关于上述总结节点和上述总结信息的描述,请参照方法实施例中的描述,本发明实施例不再赘述。
根据上述方法实施例中的描述,上述总结信息可以包含多种类型的总结信息,即周总结信息、月总结信息、季总结信息以及年总结信息,上述总结单元506接收到的总结输出指令除了指示目标总结类型之外,还可以指示总结时间段,可见,通过实施该方式可以更加精准的满足用户需求。
通过实施上述系统,可以通过提高分析粒度的方法加深对文本信息的分析深度,也可以便于用户灵活操作,有利于提高用户的使用体验感,还可以实现目标字典的快速获取,还可以有效提高系统响应速度,还可以进一步提高用户的使用体验感。
图7是根据另一示例性实施例示出的一种文本信息处理系统的框图。如图7所示的文本信息处理系统是由图5所示的文本信息处理系统优化得到,图7所示的文本信息处理系统还可以包括:
检测单元507,用于检测是否接收到对象标识。
需要说明的是,上述处理单元504,还可以用于依据关键字词生成分析结果信息之后,向检测单元507发送启动指令,以启动上述检测单元507执行上述的检测是否接收到对象标识。
上述获取单元501,还可以用于从上述分析结果信息中获取针对对象标识的指示对象的评价信息,以及依据评价信息对上述指示对象打分,以得到该指示对象的评价分值.
标记单元508,用于当评价分值大于分值阈值时,标记上述对象标识。
可选的,在一示例性实施例中,标记单元508,还可以用于当评价分值大于分值阈值时,标记上述对象标识之后,获取上述对象标识的标记类型,以及将上述对象标识收录至该标记类型对应的标识库。
在本发明实施例中,关于对象标识、分值阈值以及标识库的详细描述,请参照上述方法实施例中的描述,本发明实施例不再赘述。
进一步可选的,在一示例性实施例中,标记单元508,还可以用于在将上述对象标识收录至该标记类型对应的标识库之后,检测是否接收到针对标识库的展示指令,以及当接收到该展示指令时,按照预设的展示方式对该标识库进行展示。若上述标识库为存储有优质工作人员的ID号的数据库,实施该方式可以起到激励企业的工作人员的目的。
通过实施上述系统,可以通过提高分析粒度的方法加深对文本信息的分析深度,也可以便于用户灵活操作,有利于提高用户的使用体验感,还可以实现目标字典的快速获取,还可以有效提高系统响应速度,还可以进一步提高用户的使用体验感,还有利于工作人员优化工作质量,还有利于提高企业的改进效率,还可以起到激励企业的工作人员的目的。
本发明还提供一种终端设备,该终端设备包括:
处理器;
存储器,该存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时,实现如前所示的文本信息处理方法。
该终端设备可以是图1所示的装置100。
在一示例性实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如前所示的文本信息处理方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种文本信息处理方法,其特征在于,包括:
当检测到用户输入文本信息时,获取与所述文本信息相关的行业字典标识;
依据所述行业字典标识,从字典库中确定目标字典;
依据所述目标字典对所述文本信息进行分词处理,以得到所述文本信息对应的词集;
依据预设词频算法,从所述词集中确定出关键字词,并依据所述关键字词生成分析结果信息,以便依据所述分析结果信息实现所述文本信息的整理。
2.根据权利要求1所述的方法,其特征在于,所述依据预设词频算法,从所述词集中确定出关键字词,包括:
计算所述词集中每一字词的词频和逆向文件频率指数;
依据所述词频和所述逆向文件频率指数对所述词集中每一字词进行评分,以得到所述词集对应的分值表;其中,所述分值表中至少记录有所述词集中每一字词和每一字词的对应分值;
将从所述分值表中确定出的对应分值大于预设分值的字词作为关键字词。
3.根据权利要求1或2所述的方法,其特征在于,所述依据预设词频算法,从所述词集中确定出关键字词之后,所述方法还包括:
将所述关键字词收录进词库;
若当前时间点为总结节点,依据所述词库中所包含的字词生成总结信息。
4.根据权利要求3所述的方法,其特征在于,所述若当前时间点为总结节点,依据所述词库中所包含的字词生成总结信息之后,所述方法还包括:
当接收到总结输出指令时,从所述总结信息中获取所述总结输出指令所指示的目标总结类型;
从所述总结信息中获取所述目标总结类型匹配的目标总结信息;
将所述目标总结信息输出。
5.根据权利要求1所述的方法,其特征在于,所述依据所述关键字词生成分析结果信息之后,所述方法还包括:
检测是否接收到对象标识;
当接收到所述对象标识时,从所述分析结果信息中获取针对所述对象标识的指示对象的评价信息。
6.根据权利要求5所述的方法,其特征在于,所述当接收到所述对象标识时,从所述分析结果信息中获取针对所述对象标识的指示对象的评价信息之后,所述方法还包括:
依据所述评价信息对所述指示对象打分,以得到所述指示对象的评价分值;
当所述评价分值大于分值阈值时,标记所述对象标识。
7.根据权利要求6所述的方法,其特征在于,所述当所述评价分值大于分值阈值时,标记所述对象标识之后,所述方法还包括:
获取所述对象标识的标记类型;
将所述对象标识收录至所述标记类型对应的标识库。
8.一种文本信息处理系统,其特征在于,包括:
获取单元,用于当检测到用户输入文本信息时,获取与所述文本信息相关的行业字典标识;
确定单元,用于依据所述行业字典标识,从字典库中确定目标字典;
分词单元,用于依据所述目标字典对所述文本信息进行分词处理,以得到所述文本信息对应的词集;
处理单元,用于依据预设词频算法,从所述词集中确定出关键字词,并依据所述关键字词生成分析结果信息,以便依据所述分析结果信息实现所述文本信息的整理。
9.一种计算机可读存储介质,其特征在于,其存储计算机程序,所述计算机程序使得计算机执行权利要求1~7任一项所述的文本信息处理方法。
10.一种终端设备,其特征在于,所述终端设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1~7任一项所述的文本信息处理方法。
CN201910636205.1A 2019-07-15 2019-07-15 文本信息处理方法及系统、可读存储介质及终端设备 Pending CN110472026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910636205.1A CN110472026A (zh) 2019-07-15 2019-07-15 文本信息处理方法及系统、可读存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910636205.1A CN110472026A (zh) 2019-07-15 2019-07-15 文本信息处理方法及系统、可读存储介质及终端设备

Publications (1)

Publication Number Publication Date
CN110472026A true CN110472026A (zh) 2019-11-19

Family

ID=68508594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910636205.1A Pending CN110472026A (zh) 2019-07-15 2019-07-15 文本信息处理方法及系统、可读存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN110472026A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112433622A (zh) * 2020-11-13 2021-03-02 北京搜狗科技发展有限公司 基于考试的词条处理方法、装置和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10154146A (ja) * 1996-09-30 1998-06-09 Mitsuhiro Aida テキスト翻訳方法と装置
TW201126359A (en) * 2010-01-25 2011-08-01 Ind Tech Res Inst Keyword evaluation systems and methods
CN106446162A (zh) * 2016-09-26 2017-02-22 浙江大学 一种面向领域的本体知识库文本检索方法
CN106844647A (zh) * 2017-01-22 2017-06-13 南方科技大学 一种搜索关键词获取的方法及装置
CN108038100A (zh) * 2017-11-30 2018-05-15 四川隧唐科技股份有限公司 工程关键词提取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10154146A (ja) * 1996-09-30 1998-06-09 Mitsuhiro Aida テキスト翻訳方法と装置
TW201126359A (en) * 2010-01-25 2011-08-01 Ind Tech Res Inst Keyword evaluation systems and methods
CN106446162A (zh) * 2016-09-26 2017-02-22 浙江大学 一种面向领域的本体知识库文本检索方法
CN106844647A (zh) * 2017-01-22 2017-06-13 南方科技大学 一种搜索关键词获取的方法及装置
CN108038100A (zh) * 2017-11-30 2018-05-15 四川隧唐科技股份有限公司 工程关键词提取方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112433622A (zh) * 2020-11-13 2021-03-02 北京搜狗科技发展有限公司 基于考试的词条处理方法、装置和介质

Similar Documents

Publication Publication Date Title
US11580120B2 (en) Methods and apparatus for determining a mood profile associated with media data
CN102393840B (zh) 实体卡的实体检测和提取
US9171072B2 (en) System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
TWI472720B (zh) 興趣點資訊地圖呈現系統、方法及其記錄媒體
CN107590224B (zh) 基于大数据的用户偏好分析方法与装置
US11950020B2 (en) Methods and apparatus for displaying, compressing and/or indexing information relating to a meeting
CN101790729A (zh) 基于用户行为来呈现结果项
CN110020009A (zh) 在线问答方法、装置及系统
CN110717509B (zh) 基于树分裂算法的数据样本分析方法及装置
US10769196B2 (en) Method and apparatus for displaying electronic photo, and mobile device
CN111310860B (zh) 改进梯度提升决策树性能的方法及计算机可读存储介质
JP6237168B2 (ja) 情報処理装置及び情報処理プログラム
CN109118288A (zh) 基于大数据分析的目标用户获取方法及装置
CN110134592A (zh) 一种补充数据字段的方法及装置、电子设备
CN105139698A (zh) 一种点读机的信息录入方法及装置
CN110276382A (zh) 基于谱聚类的人群分类方法、装置及介质
CN113450147A (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN107239447A (zh) 垃圾信息识别方法及装置、系统
CN110288468B (zh) 数据特征挖掘方法、装置、电子设备及存储介质
CN109857967A (zh) 基于大数据的报表订阅方法及系统
CN107885483A (zh) 音频信息的校验方法、装置、存储介质及电子设备
CN110472026A (zh) 文本信息处理方法及系统、可读存储介质及终端设备
CN104636059B (zh) 记事项目的搜索方法及其系统
CN107135494A (zh) 垃圾短信识别方法及装置
CN110334177B (zh) 语义相似模型的训练、语义相似识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination