CN108664574B - 信息的输入方法、终端设备及介质 - Google Patents

信息的输入方法、终端设备及介质 Download PDF

Info

Publication number
CN108664574B
CN108664574B CN201810392820.8A CN201810392820A CN108664574B CN 108664574 B CN108664574 B CN 108664574B CN 201810392820 A CN201810392820 A CN 201810392820A CN 108664574 B CN108664574 B CN 108664574B
Authority
CN
China
Prior art keywords
information
input
character string
text
vector matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810392820.8A
Other languages
English (en)
Other versions
CN108664574A (zh
Inventor
孙成
叶俊锋
赖云辉
罗先贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810392820.8A priority Critical patent/CN108664574B/zh
Priority to PCT/CN2018/096270 priority patent/WO2019205308A1/zh
Publication of CN108664574A publication Critical patent/CN108664574A/zh
Application granted granted Critical
Publication of CN108664574B publication Critical patent/CN108664574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明适用于信息处理技术领域,提供了一种信息的输入方法、终端设备及介质,该方法包括:获取预存储于信息数据库中的字符串;为字符串关联用于标示字符串所属信息类别的标签;分别为每一信息类别建立对应的数据分区表;根据字符串所关联的标签,将字符串存储至对应的数据分区表;获取信息录入方在显示页面的输入框中输入的文本;在与输入框关联的信息类别对应的数据分区表中,检索与文本匹配的字符串;将输入框中的文本替换为匹配到的字符串,并在接收到信息录入方发出的确认指令时,将匹配到的字符串确定为录入于输入框中的信息。本发明将用户输入的文本进行补全或者进行格式规范化处理,故能够得到准确的数据分类结果,降低了数据维护的难度。

Description

信息的输入方法、终端设备及介质
技术领域
本发明属于信息处理技术领域,尤其涉及一种信息的输入方法、终端设备及计算机可读存储介质。
背景技术
用户在浏览网页或登录各类移动应用时,通常都会遇到需要在显示页面的指定区域中录入信息的情况。例如,在快递寄件页面,用户需要录入收件人姓名以及收件人地址信息等。为了便于管理用户所输入的数据信息,后台服务器会对接收到的数据信息进行分类处理,以准确确定各项信息所对应的信息类别。例如,将寄件地址为“南山区”的数据信息作为一个信息类别,将寄件地址为“福田区”的数据信息作为另一信息类别。
然而,若用户在指定区域中录入信息时输入了不规范的信息,如,输入“南山红海镇”,则会导致后台服务器将其识别为“南山红海镇”,而无法定位该项数据信息所对应的信息类别为“南山区”。因此,现有技术中,信息的自定义输入方式存在数据维护难度较高的问题。
发明内容
有鉴于此,本发明实施例提供了一种信息的输入方法、终端设备及计算机可读存储介质,以解决现有技术中信息的自定义输入方式存在数据维护难度较高的问题。
本发明实施例的第一方面提供了一种信息的输入方法,包括:
获取预存储于信息数据库中的字符串,所述字符串为信息采集方针对不同的信息类别所提供的参考字符串,所述字符串包括单字符、词组以及短语中的至少一种;
为所述字符串关联用于标示所述字符串所属信息类别的标签;
分别为每一所述信息类别建立对应的数据分区表;
根据所述字符串所关联的所述标签,将所述字符串存储至对应的所述数据分区表;
获取信息录入方在显示页面的输入框中输入的文本;其中,所述输入框关联有一类信息类别;
在与所述输入框关联的所述信息类别对应的所述数据分区表中,检索与所述文本匹配的所述字符串;
将所述输入框中的所述文本替换为匹配到的所述字符串,并在接收到所述信息录入方发出的确认指令时,将匹配到的所述字符串确定为录入于所述输入框中的信息。
本发明实施例的第二方面提供了一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的信息的输入方法的步骤。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的信息的输入方法的步骤。
本发明实施例中,通过预先收集信息采集方所提供的具有规范格式的各个字符串,并根据各个字符串所属的信息类别,将这些字符串存储于不同的数据分区表,使得即使是在显示页面中接收到用户自定义输入的文本,也能够根据文本所属的输入框,快速地进入对应的数据分区表进行关联字符串的查找操作,避免了因信息数据库中字符串数目过多而增大了数据查找过程中所产生的资源消耗,因此,提高了关联字符串的查找效率。通过将用户在输入框中所输入的文本替换为匹配的字符串,实现了在用户输入自定义的文本时,能够自动将该文本进行补全或者进行格式规范化处理,因此,保证了在统计数据信息的信息类别时,可以得到较为准确的数据分类结果,故降低了数据维护的难度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的信息的输入方法的实现流程图;
图2是本发明实施例提供的信息的输入方法S105的具体实现流程图;
图3是本发明实施例提供的信息的输入方法S106的具体实现流程图;
图4是本发明另一实施例提供的信息的输入方法的实现流程图;
图5是本发明实施例提供的信息的输入装置的结构框图;
图6是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的信息的输入方法的实现流程,该方法流程包括步骤S101至S107。各步骤的具体实现原理如下:
S101:获取预存储于信息数据库中的字符串,所述字符串为信息采集方针对不同的信息类别所提供的参考字符串,所述字符串包括单字符、词组以及短语中的至少一种。
本发明实施例中,信息数据库用于存储预先收集得到的多个字符串。这些字符串为信息采集方针对不同的信息类别所提供的参考字符串,为格式化处理后的数据信息,即,每一字符串具有后台服务器能够准确识别其信息类别的数据格式。也就是说,后台服务器能够在多个预设的信息类别中,确定出字符串所对应的一个或多个信息类别。例如,若字符串为“南山区”,预设的两个信息类别为“地区”以及“电话”,则可识别出该字符串“南山区”所对应的信息类别为“地区”。
本发明实施例中,上述信息数据库中的字符串可从信息录入页面的历史接收信息中收集,或者,从预先对接的其他业务系统的历史录入信息中收集之后,通过预设算法来对该历史接收信息进行格式化转换处理,以得到用于存储于信息数据库中的字符串。
特别地,信息数据库中的字符串还可以根据信息采集方所发出的文本输入指令来确定。
S102:为所述字符串关联用于标示所述字符串所属信息类别的标签。
针对显示页面中所存在的多个输入框,分别创建对应每一输入框的一个信息类别,并根据信息采集放所发出的设置指令,为每一信息类别打上相应的标签。
本发明实施例中,通过预设的匹配算法,对信息数据库中的各个字符串进行识别处理,以在已创建的多个信息类别中,检测出各个字符串所属的信息类别。对每一字符串,根据其所属的信息类别所对应的标签,将该字符串与该标签进行关联存储,由此使得用户在查看每一字符串时,能够基于字符串所关联的标签来确定该字符串所属的信息类别。
S103:分别为每一所述信息类别建立对应的数据分区表。
S104:根据所述字符串所关联的所述标签,将所述字符串存储至对应的所述数据分区表。
本发明实施例中,利用信息数据库所提供的表分区功能,将上述信息数据库的存储空间分为多个数据分区表。其中,数据分区表的数目与已创建的信息类别的数目相同,以使每一数据分区表与一信息类别对应。
对于每一字符串,根据其关联的标签,确定该字符串所属的信息类别,并将该字符串存储至对应与该信息类别对应的数据分区表。
例如,若存在一字符串为“广东省”,其所属的信息类别为省份,则将该“广东省”存储至“省份”所对应的一个数据分区表中。
特别地,若存在对应多个信息类别的字符串,则在其中每一信息类别所对应的数据分区表中,均添加该字符串。
S105:获取信息录入方在显示页面的输入框中输入的文本;其中,所述输入框关联有一类信息类别。
本发明实施例中,显示页面用于为用户展示各类浏览信息,且显示页面中存在有多个输入框,每一输入框用于为用户提供各类文本信息的输入接口。根据当前显示页面的功能属性,分别加载对应该功能属性的多个输入框。例如,若当前显示页面的功能属性为快递订单页面,则加载用于获取订单编号信息的输入框、获取寄件人信息的输入框以及获取收件人信息的输入框等。可以理解的是,每一输入框与上述预先建立的任一信息类别关联。
优选地,根据每一输入框所关联的信息类别,将该信息类别所对应的标签显示于该输入框的邻近位置,以使用户基于该标签,能够确定当前所需输入于该输入框中的文本信息。
本发明实施例中,当在显示页面中检测到信息提交请求时,读取输入框中所包含的各个字符,将所述各个字符确定为当前时刻信息录入方在显示页面的输入框中所输入的文本。
作为本发明的一个实施例,图2示出了本发明实施例提供的信息的输入方法S105的具体实现流程,详述如下:
S1051:根据所述显示页面所包含的各个所述输入框,生成第一数据录入模板,并在所述第一数据录入模板中分别创建与各个所述输入框对应的信息字段。
根据信息收集方所发出的设置指令,创建一数据录入模板。数据录入模板用于获取信息录入方所需输入的文本。本发明实施例中,数据录入模板中包含多个信息字段,每一信息字段对应显示页面中的一个输入框相对应,且该信息字段的表头属性值与该输入框的标签相同。
上述数据录入模板可以是以表格形式展示的文件模板,例如,可以是包含多列数据的Excel文件。当数据录入模板为基于Excel文件的文件模板时,其所包含的一信息字段为Excel文件中的一列表格字段,且除了表头字段之外,其余各个表格字段的属性值均为空值。
S1052:对所述第一数据录入模板进行发布,以使所述信息录入方下载所述第一数据录入模板,并使所述信息录入方将文本输入于所述第一数据录入模板的各个所述信息字段后,得到第二数据录入模板。
本发明实施例中,将上述创建完成的数据录入模板进行发布,以使该数据录入模板以附件形式展示于显示页面。当信息录入方在显示页面中发出附件下载指令时,信息录入方可以下载并打开该数据录入模板。在包含多个信息字段的数据录入模板中,根据表头字段的属性值,信息录入方确定出每一信息字段所对应的输入框,并将原本需要输入于输入框中的文本输入于当前的数据录入模板中。
例如,在上述示例中,若显示页面的两个输入框所分别对应的标签为寄件人地址以及寄件人电话,则在信息录入方所下载的数据录入模板中,将存在“寄件人地址”所对应的一列信息字段A以及“寄件人电话”所对应的一列信息字段B。信息字段A中的首个字段的属性值为“寄件人地址”,其余各个字段的属性值为空值,以使得信息录入方能够依次在属性值为空值的各个信息字段A中,分别输入多个不同的寄件人地址信息。同理,信息字段B中的首个字段的属性值为“寄件人电话”,其余各个字段的属性值为空值,以使得信息录入方能够依次在属性值为空值的各个信息字段B中,分别输入多个不同的寄件人电话信息。
其中,所属行数相同的各个信息字段的属性值对应一条完整的数据记录,即,行数相同的各个信息字段的属性值分别表示在一次信息输入过程中,信息录入方分别在各个输入框中所输入的文本。
本发明实施例中,当信息录入方在数据录入模板中输入完成各项文本后,对包含所述各项文本的数据录入模板进行保存。为了便于区分,将原本发布于显示页面中的数据录入模板成为第一数据录入模板,将保存更新后的数据录入模板成为第二数据录入模板。
S1053:获取所述信息录入方在所述显示页面中所导入的所述第二数据录入模板。
若在显示页面中检测到文本批量导入指令,则获取信息录入方所上传的第二数据录入模板。
S1054:在所述第二数据录入模板中,提取每一所述信息字段中的所述文本,并将所述文本填充至该信息字段所对应的所述输入框。
对接收到的第二数据录入模板进行解析处理。具体地,依次读取第二数据录入模板中的每一条数据记录,并获取该数据记录中各个信息字段的属性值。根据每一信息字段在显示页面中所对应的输入框,将该信息字段的属性值填充至该输入框。
优选地,若第二数据录入模板中包含一条以上的数据记录,则在显示页面的每一输入框中,以下拉表格的形式展示其对应的信息字段中的各个属性值。
本发明实施例中,通过发布包含多个信息字段的数据录入模板,使得信息录入方能够在数据录入模板中,批量地导入所需输入于显示页面中的多条数据记录,故提高了信息的输入效率;由于数据录入模板中的每一信息字段均与一输入框预先关联,由此保证了信息录入方在数据录入模板中输入文本后,能够准确地定位出显示页面中各输入框所需填充的文本,因此,提高了信息的录入准确度。
S106:在与所述输入框关联的所述信息类别对应的所述数据分区表中,检索与所述文本匹配的所述字符串。
本发明实施例中,对于输入框中所包含的每一文本,根据该输入框所关联的信息类别,在该信息类别对应的数据分区表中,查找是否存在于该文本匹配的字符串。具体地,根据预设的文本相似度计算算法,判断数据分区表中的任一字符串与当前文本的相似度是否大于预设阈值。若判断结果为是,则确定该字符串为与当前文本匹配的字符串。上述文本相似度计算算法包括但不限于余弦相似度算法、概率分布距离算法以及欧式距离算法等。
优选地,作为本发明的一个实施例,图3示出了本发明实施例提供的信息的输入方法S106的具体实现流程,详述如下:
S1061:在与所述输入框关联的所述信息类别对应的所述数据分区表中,对各个所述字符串进行转换处理,得到各个所述字符串所分别对应的第一向量矩阵。
S1062:生成所述文本对应的第二向量矩阵。
本发明实施例中,在与所述输入框关联的所述信息类别对应的所述数据分区表中,读取预存储的各个字符串。对其中的每一字符串,将其进行分词处理,得到构成该字符串的各个分词。上述分词可以为单字符,也可以为多字符。在预设的词向量数据库中,分别查找各个分词的列向量,并将各个分词的列向量组成向量矩阵。其中,向量矩阵的每一列均对应一个列向量,词向量数据库为记录词语与列向量之间的对应关系的数据库。列向量例如可以是根据word2vec模型训练词语所得到对应的词向量。
同理,基于上述方式,对当前输入框中所包含的文本进行转换处理,以得到该文本对应的向量矩阵。
本发明实施例中,将字符串对应的向量矩阵成为第一向量矩阵,将文本对应的向量矩阵称为第二向量矩阵。
S1063:分别计算所述第二向量矩阵与各个所述第一向量矩阵的耦合度,并确定出其中所述耦合度最高的所述第一向量矩阵所对应的所述字符串。
本发明实施例中,以第一向量矩阵以及第二向量矩阵的耦合度来度量字符串以及文本之间的相似度。对于信息数据库中所存储的N(N为大于零的整数)个字符串,根据每一字符串所对应的第一向量矩阵,可分别计算出第二向量矩阵与N个第一向量矩阵的N个耦合度。查找出其中耦合度最高的一个第一向量矩阵后,将该第一向量矩阵所对应的字符串确定出与文本匹配字符串。
优选地,作为本发明的一个实施例,上述步骤S1063具体包括:根据下式计算所述第二向量矩阵与排序为n的所述第一向量矩阵的耦合度:
其中,tanh为双曲正切函数,BkWdWt为预设的权重系数,WdLengthn为排序为n的所述第一向量矩阵所对应的字符串的字长总数,WdLengthinput为所述第二向量矩阵所对应的字符串的字长总数,VecTolinput以及VecToln分别为第一向量矩阵以及排序为n的所述第一向量矩阵所包含的元素总数,Vecinput,i为第一向量矩阵中的第i个元素值,Vecn,j为第一向量矩阵中的第j个元素值;i、j以及n均为大于零的整数。
本发明实施例中,通过将输入框中的文本以及信息数据库中的各个字符串均转换为向量矩阵,实现了以数字形式来准确计算字符串以及文本之间的耦合度,因此,提高了字符串以及文本之间的相似度计算准确率;通过将耦合度最高的第一向量矩阵所对应的字符串确定为与文本匹配的字符串,保证了检索得到的字符串与当前信息录入方所输入的文本能够具有更强的关联度,由此使得在后续执行文本的替换操作时,能够得到更为准确的信息录入效果。
S107:将所述输入框中的所述文本替换为匹配到的所述字符串,并在接收到所述信息录入方发出的确认指令时,将匹配到的所述字符串确定为录入于所述输入框中的信息。
本发明实施例中,将当前输入框中所包含的文本替换为与该文本匹配的字符串,即,令输入框中所实时显示的文本变更为该字符串。
优选地,若存在于文本匹配的多个字符串,则将输入框中的文本替换为匹配到的任一字符串后,将其余各个字符串以气泡提示的形式依序显示于该输入框上方,以使得各个字符串为当前输入框的候选文本。
当信息录入方查看到输入框中所更新显示的文本后,可确定该文本与自己所需表达的文本语义是否相同。若是,则信息录入方发出确定指令;若否,则信息录入方发出拒绝指令。
根据信息录入方发出的确定指令,将输入框中所包含的字符串确定为当前时刻从输入框中所接收到的录入信息。若接收到信息录入方发出的拒绝指令,则将输入框的下一候选文本作为当前时刻所匹配到的字符串,并返回执行上述将输入框中的文本替换为匹配到的字符串,并在接收到信息录入方发出的确认指令时,将匹配到的字符串确定为录入于输入框中的信息的步骤。
本发明实施例中,通过预先收集信息采集方所提供的具有规范格式的各个字符串,并根据各个字符串所属的信息类别,将这些字符串存储于不同的数据分区表,使得即使是在显示页面中接收到用户自定义输入的文本,也能够根据文本所属的输入框,快速地进入对应的数据分区表进行关联字符串的查找操作,避免了因信息数据库中字符串数目过多而增大了数据查找过程中所产生的资源消耗,因此,提高了关联字符串的查找效率。通过将用户在输入框中所输入的文本替换为匹配的字符串,实现了在用户输入自定义的文本时,能够自动将该文本进行补全或者进行格式规范化处理,因此,保证了在统计数据信息的信息类别时,可以得到较为准确的数据分类结果,故降低了数据维护的难度。
作为本发明的另一实施例,在上述实施例的基础之上,如图4所示,在上述S106之后,还包括:
S1055:对任一所述输入框所包含的所述文本,若所述数据分区表中不存在与该文本匹配的所述字符串,则生成错误提示信息。
本发明实施例中,对任一输入框所包含的文本,仅有在数据分区表中确定出与该文本的相似度大于预设阈值的字符串时,才确定该字符串与文本匹配。若数据分区表中不存在与该文本的相似度大于预设阈值的字符串,则表示不存在与该文本匹配的字符串,此时,确定第二数据录入模板中所包含的文本存在格式错误问题,因此,生成错误提示信息。
优选地,上述错误提示信息用于描述当前错误的出现原因。例如,文本长度超过预设范围值,或者,不存在与该文本对应的地址信息等。
S1056:将所述错误提示信息添加至所述第二数据录入模板,并在所述第二数据录入模板中,对该文本所属的所述信息字段进行标记处理,得到第三数据录入模板。
本发明实施例中,重新加载信息录入方所上传的第二数据录入模板,并在该第二数据录入模板中,定位上述未与任一字符串匹配的文本。根据该文本在第二数据录入模板中所属的信息字段,将整列信息字段进行标记处理。标记方式包括但不限于色彩标记、字体加粗标记以及字段背景色标记等。同时,对定位得到的文本进行批注处理,以将上述错误提示信息添加至批注内容中。
S1057:输出所述第三数据录入模板,以使所述信息录入方基于所述第三数据录入模板所包含的所述错误提示信息以及标记的所述信息字段,返回执行所述获取所述信息录入方在所述显示页面中所导入的所述第二数据录入模板的操作。
在对第二数据录入模板进行批注以及标记处理后,得到修改后的数据录入模板,将该数据录入模板称为第三数据录入模板。将第三数据录入模板发布于显示页面,以使信息录入方在接收到显示页面中所弹出的错误提示信息后,下载该第三数据录入模板。信息录入方在第三数据录入模板中查看到自己所录入出错的内容和批注信息后,将会重新输入各个信息字段的属性值,以将再次创建的数据录入模板进行导入,此时,返回执行上述S1053。
本发明实施例中,在检测到数据分区表中不存在与文本匹配的字符串时,通过将错误提示信息添加至数据录入模板,并对文本所属的所信息字段进行标记处理,使得信息录入方能够及时了解信息录入错误的原因,准确地定位错误文本的位置,从而能够快速纠错所需输入的文本后,再次执行信息输入操作,因此,本发明实施例在一定程度上也提高了批量文本的输入效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于本发明实施例所提供的信息的输入方法,图5示出了本发明实施例提供的信息的输入装置的结构框图。为了便于说明,仅示出了与本实施例相关的部分。
参照图5,该装置包括:
第一获取单元51,用于获取预存储于信息数据库中的字符串,所述字符串为信息采集方针对不同的信息类别所提供的参考字符串,所述字符串包括单字符、词组以及短语中的至少一种。
关联单元52,用于为所述字符串关联用于标示所述字符串所属信息类别的标签。
建立单元53,用于分别为每一所述信息类别建立对应的数据分区表。
存储单元54,用于根据所述字符串所关联的所述标签,将所述字符串存储至对应的所述数据分区表。
第二获取单元55,用于获取信息录入方在显示页面的输入框中输入的文本;其中,所述输入框关联有一类信息类别。
检索单元56,用于在与所述输入框关联的所述信息类别对应的所述数据分区表中,检索与所述文本匹配的所述字符串。
替换单元57,用于将所述输入框中的所述文本替换为匹配到的所述字符串,并在接收到所述信息录入方发出的确认指令时,将匹配到的所述字符串确定为录入于所述输入框中的信息。
可选地,所述检索单元56包括:
转换子单元,用于在与所述输入框关联的所述信息类别对应的所述数据分区表中,对各个所述字符串进行转换处理,得到各个所述字符串所分别对应的第一向量矩阵。
生成子单元,用于生成所述文本对应的第二向量矩阵。
计算子单元,用于分别计算所述第二向量矩阵与各个所述第一向量矩阵的耦合度,并确定出其中所述耦合度最高的所述第一向量矩阵所对应的所述字符串。
可选地,所述计算子单元具体用于:
根据下式计算所述第二向量矩阵与排序为n的所述第一向量矩阵的耦合度:
其中,tanh为双曲正切函数,BkWdWt为预设的权重系数,WdLengthn为排序为n的所述第一向量矩阵所对应的字符串的字长总数,WdLengthinput为所述第二向量矩阵所对应的字符串的字长总数,VecTolinput以及VecToln分别为第一向量矩阵以及排序为n的所述第一向量矩阵所包含的元素总数,Vecinput,i为第一向量矩阵中的第i个元素值,Vecn,j为第一向量矩阵中的第j个元素值;i、j以及n均为大于零的整数。
可选地,所述第二获取单元55包括:
创建子单元,用于根据所述显示页面所包含的各个所述输入框,生成第一数据录入模板,并在所述第一数据录入模板中分别创建与各个所述输入框对应的信息字段。
发布子单元,用于对所述第一数据录入模板进行发布,以使所述信息录入方下载所述第一数据录入模板,并使所述信息录入方将文本输入于所述第一数据录入模板的各个所述信息字段后,得到第二数据录入模板。
获取子单元,用于获取所述信息录入方在所述显示页面中所导入的所述第二数据录入模板。
填充子单元,用于在所述第二数据录入模板中,提取每一所述信息字段中的所述文本,并将所述文本填充至该信息字段所对应的所述输入框。
可选地,所述信息的输入装置还包括:
错误提示单元,用于对任一所述输入框所包含的所述文本,若所述数据分区表中不存在与该文本匹配的所述字符串,则生成错误提示信息。
添加单元,用于将所述错误提示信息添加至所述第二数据录入模板,并在所述第二数据录入模板中,对该文本所属的所述信息字段进行标记处理,得到第三数据录入模板。
输出单元,用于输出所述第三数据录入模板,以使所述信息录入方基于所述第三数据录入模板所包含的所述错误提示信息以及标记的所述信息字段,返回执行所述获取所述信息录入方在所述显示页面中所导入的所述第二数据录入模板的操作。
图6是本发明一实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60以及存储器61,所述存储器61中存储有可在所述处理器60上运行的计算机程序62,例如信息的输入程序。所述处理器60执行所述计算机程序62时实现上述各个信息的输入方法实施例中的步骤,例如图1所示的步骤101至107。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示单元51至57的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (6)

1.一种信息的输入方法,其特征在于,包括:
获取预存储于信息数据库中的字符串,所述字符串为信息采集方针对不同的信息类别所提供的参考字符串,所述字符串包括单字符、词组以及短语中的至少一种;
为所述字符串关联用于标示所述字符串所属信息类别的标签;
分别为每一所述信息类别建立对应的数据分区表;
根据所述字符串所关联的所述标签,将所述字符串存储至对应的所述数据分区表;
获取信息录入方在显示页面的输入框中输入的文本;其中,所述输入框关联有一类信息类别;
在与所述输入框关联的所述信息类别对应的所述数据分区表中,检索与所述文本匹配的所述字符串;
将所述输入框中的所述文本替换为匹配到的所述字符串,并在接收到所述信息录入方发出的确认指令时,将匹配到的所述字符串确定为录入于所述输入框中的信息;
其中,所述在与所述输入框关联的所述信息类别对应的所述数据分区表中,检索与所述文本匹配的所述字符串,包括:在与所述输入框关联的所述信息类别对应的所述数据分区表中,对各个所述字符串进行转换处理,得到各个所述字符串所分别对应的第一向量矩阵;生成所述文本对应的第二向量矩阵;分别计算所述第二向量矩阵与各个所述第一向量矩阵的耦合度,并确定出其中所述耦合度最高的所述第一向量矩阵所对应的所述字符串;
所述分别计算所述第二向量矩阵与各个所述第一向量矩阵的耦合度,并确定出其中所述耦合度最高的所述第一向量矩阵所对应的所述字符串,包括:
根据下式计算所述第二向量矩阵与排序为n的所述第一向量矩阵的耦合度:
其中,tanh为双曲正切函数,BkWdWt为预设的权重系数,WdLengthn为排序为n的所述第一向量矩阵所对应的字符串的字长总数,WdLengthinput为所述第二向量矩阵所对应的字符串的字长总数,VecTolinput以及VecToln分别为第二向量矩阵以及排序为n的所述第一向量矩阵所包含的元素总数,Vecinput,i为第二向量矩阵中的第i个元素值,Vecn,j为第一向量矩阵中的第j个元素值;i、j以及n均为大于零的整数。
2.如权利要求1所述的信息的输入方法,其特征在于,所述获取信息录入方在显示页面的输入框中输入的文本,包括:
根据所述显示页面所包含的各个所述输入框,生成第一数据录入模板,并在所述第一数据录入模板中分别创建与各个所述输入框对应的信息字段;
对所述第一数据录入模板进行发布,以使所述信息录入方下载所述第一数据录入模板,并使所述信息录入方将文本输入于所述第一数据录入模板的各个所述信息字段后,得到第二数据录入模板;
获取所述信息录入方在所述显示页面中所导入的所述第二数据录入模板;
在所述第二数据录入模板中,提取每一所述信息字段中的所述文本,并将所述文本填充至该信息字段所对应的所述输入框。
3.如权利要求2所述的信息的输入方法,其特征在于,在所述在与所述输入框关联的所述信息类别对应的所述数据分区表中,检索与所述文本匹配的所述字符串之后,还包括:
对任一所述输入框所包含的所述文本,若所述数据分区表中不存在与该文本匹配的所述字符串,则生成错误提示信息;
将所述错误提示信息添加至所述第二数据录入模板,并在所述第二数据录入模板中,对该文本所属的所述信息字段进行标记处理,得到第三数据录入模板;
输出所述第三数据录入模板,以使所述信息录入方基于所述第三数据录入模板所包含的所述错误提示信息以及标记的所述信息字段,返回执行所述获取所述信息录入方在所述显示页面中所导入的所述第二数据录入模板的操作。
4.一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下步骤:
获取预存储于信息数据库中的字符串,所述字符串为信息采集方针对不同的信息类别所提供的参考字符串,所述字符串包括单字符、词组以及短语中的至少一种;
为所述字符串关联用于标示所述字符串所属信息类别的标签;
分别为每一所述信息类别建立对应的数据分区表;
根据所述字符串所关联的所述标签,将所述字符串存储至对应的所述数据分区表;
获取信息录入方在显示页面的输入框中输入的文本;其中,所述输入框关联有一类信息类别;
在与所述输入框关联的所述信息类别对应的所述数据分区表中,检索与所述文本匹配的所述字符串;
将所述输入框中的所述文本替换为匹配到的所述字符串,并在接收到所述信息录入方发出的确认指令时,将匹配到的所述字符串确定为录入于所述输入框中的信息;
其中,所述在与所述输入框关联的所述信息类别对应的所述数据分区表中,检索与所述文本匹配的所述字符串,包括:在与所述输入框关联的所述信息类别对应的所述数据分区表中,对各个所述字符串进行转换处理,得到各个所述字符串所分别对应的第一向量矩阵;生成所述文本对应的第二向量矩阵;分别计算所述第二向量矩阵与各个所述第一向量矩阵的耦合度,并确定出其中所述耦合度最高的所述第一向量矩阵所对应的所述字符串;
所述分别计算所述第二向量矩阵与各个所述第一向量矩阵的耦合度,并确定出其中所述耦合度最高的所述第一向量矩阵所对应的所述字符串,包括:
根据下式计算所述第二向量矩阵与排序为n的所述第一向量矩阵的耦合度:
其中,tanh为双曲正切函数,BkWdWt为预设的权重系数,WdLengthn为排序为n的所述第一向量矩阵所对应的字符串的字长总数,WdLengthinput为所述第二向量矩阵所对应的字符串的字长总数,VecTolinput以及VecToln分别为第二向量矩阵以及排序为n的所述第一向量矩阵所包含的元素总数,Vecinput,i为第二向量矩阵中的第i个元素值,Vecinput,i为第一向量矩阵中的第i个元素值,Vecn,j为第一向量矩阵中的第j个元素值;i、j以及n均为大于零的整数。
5.如权利要求4所述的终端设备,其特征在于,所述获取信息录入方在显示页面的输入框中输入的文本的步骤,具体包括:
根据所述显示页面所包含的各个所述输入框,生成第一数据录入模板,并在所述第一数据录入模板中分别创建与各个所述输入框对应的信息字段;
对所述第一数据录入模板进行发布,以使所述信息录入方下载所述第一数据录入模板,并使所述信息录入方将文本输入于所述第一数据录入模板的各个所述信息字段后,得到第二数据录入模板;
获取所述信息录入方在所述显示页面中所导入的所述第二数据录入模板;
在所述第二数据录入模板中,提取每一所述信息字段中的所述文本,并将所述文本填充至该信息字段所对应的所述输入框。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。
CN201810392820.8A 2018-04-27 2018-04-27 信息的输入方法、终端设备及介质 Active CN108664574B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810392820.8A CN108664574B (zh) 2018-04-27 2018-04-27 信息的输入方法、终端设备及介质
PCT/CN2018/096270 WO2019205308A1 (zh) 2018-04-27 2018-07-19 信息的输入方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810392820.8A CN108664574B (zh) 2018-04-27 2018-04-27 信息的输入方法、终端设备及介质

Publications (2)

Publication Number Publication Date
CN108664574A CN108664574A (zh) 2018-10-16
CN108664574B true CN108664574B (zh) 2023-08-18

Family

ID=63781281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810392820.8A Active CN108664574B (zh) 2018-04-27 2018-04-27 信息的输入方法、终端设备及介质

Country Status (2)

Country Link
CN (1) CN108664574B (zh)
WO (1) WO2019205308A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222352A (zh) * 2018-11-26 2020-06-02 北京京东尚科信息技术有限公司 一种表单录入方法及其装置、设备、存储介质
CN111240496A (zh) * 2018-11-28 2020-06-05 深圳市帝迈生物技术有限公司 终端设备、移动终端及信息录入方法、计算机存储介质
CN109614501B (zh) * 2018-12-13 2020-09-25 浙江工商大学 一种基于知识图谱的工业隐患规范化上报方法及系统
CN109741742A (zh) * 2019-01-03 2019-05-10 中国联合网络通信集团有限公司 一种输入方法和终端
CN111478877B (zh) * 2019-01-24 2022-08-02 安碁资讯股份有限公司 网域名称识别方法及网域名称识别装置
CN110427328A (zh) * 2019-08-07 2019-11-08 北京字节跳动网络技术有限公司 文本处理方法、装置、设备及存储介质
CN110765750B (zh) * 2019-09-16 2024-03-15 平安科技(深圳)有限公司 报表数据录入方法及终端设备
CN110853717B (zh) * 2019-10-16 2022-06-17 云知声智能科技股份有限公司 一种文书字段控制关联缺陷项目的方法及装置
CN111026282B (zh) * 2019-11-27 2023-05-23 上海明品医学数据科技有限公司 一种在输入过程中判断是否进行医学数据标注的控制方法
CN112036144B (zh) * 2020-09-03 2024-04-02 广联达科技股份有限公司 数据解析方法、装置、计算机设备和可读存储介质
CN112579064A (zh) * 2020-12-04 2021-03-30 深圳市大富网络技术有限公司 一种代码提示方法、系统、装置及可读存储介质
CN113626593B (zh) * 2021-07-13 2024-04-19 深圳希施玛数据科技有限公司 一种Excel文件校验方法、装置及设备
CN114491089B (zh) * 2022-01-28 2023-08-29 北京百度网讯科技有限公司 地址获取方法、装置、电子设备、介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101459884A (zh) * 2008-12-29 2009-06-17 中国移动通信集团北京有限公司 一种业务处理方法及装置
CN105339935A (zh) * 2013-04-17 2016-02-17 通腾导航技术股份有限公司 用于促进与数字地图相关的位置的搜索及显示的方法、装置及计算机软件
CN105955506A (zh) * 2016-05-20 2016-09-21 珠海市魅族科技有限公司 一种信息展示方法以及信息展示装置
CN107153652A (zh) * 2016-03-03 2017-09-12 阿里巴巴集团控股有限公司 将目标字符串转化为规范化字符串的方法及装置
CN107515702A (zh) * 2016-06-16 2017-12-26 苏宁云商集团股份有限公司 一种页面交互方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100555203C (zh) * 2008-09-26 2009-10-28 腾讯科技(深圳)有限公司 修正已输入文字的系统及方法
CN101799736B (zh) * 2009-04-30 2013-03-20 广东国笔科技股份有限公司 功能实时联想型交互系统及方法
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统
CN107291730B (zh) * 2016-03-31 2020-07-31 阿里巴巴集团控股有限公司 对查询词提供校正建议的方法、装置、及概率词典构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101459884A (zh) * 2008-12-29 2009-06-17 中国移动通信集团北京有限公司 一种业务处理方法及装置
CN105339935A (zh) * 2013-04-17 2016-02-17 通腾导航技术股份有限公司 用于促进与数字地图相关的位置的搜索及显示的方法、装置及计算机软件
CN107153652A (zh) * 2016-03-03 2017-09-12 阿里巴巴集团控股有限公司 将目标字符串转化为规范化字符串的方法及装置
CN105955506A (zh) * 2016-05-20 2016-09-21 珠海市魅族科技有限公司 一种信息展示方法以及信息展示装置
CN107515702A (zh) * 2016-06-16 2017-12-26 苏宁云商集团股份有限公司 一种页面交互方法及装置

Also Published As

Publication number Publication date
WO2019205308A1 (zh) 2019-10-31
CN108664574A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN108664574B (zh) 信息的输入方法、终端设备及介质
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
CN110929025B (zh) 垃圾文本的识别方法、装置、计算设备及可读存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN108170715B (zh) 一种文本结构化处理方法
CN112016273A (zh) 文档目录生成方法、装置、电子设备及可读存储介质
CN110162754B (zh) 一种岗位描述文档的生成方法及设备
US11880435B2 (en) Determination of intermediate representations of discovered document structures
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
US11966455B2 (en) Text partitioning method, text classifying method, apparatus, device and storage medium
CN111814481B (zh) 购物意图识别方法、装置、终端设备及存储介质
CN111651552A (zh) 结构化信息确定方法、装置和电子设备
US20230138491A1 (en) Continuous learning for document processing and analysis
CN112182337B (zh) 从海量短新闻中识别相似新闻的方法及相关设备
CN113344125A (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN111274384B (zh) 一种文本标注方法及其设备、计算机存储介质
CN111310473A (zh) 文本纠错方法及其模型训练的方法、装置
CN113254583B (zh) 一种基于语义向量的文档标记方法、装置及介质
CN113032523B (zh) 三元组信息的抽取方法、装置、电子设备和存储介质
CN114911936A (zh) 一种模型训练、评论识别方法、装置、电子设备及介质
CN114154480A (zh) 信息提取方法、装置、设备和存储介质
CN113962196A (zh) 一种简历处理方法、装置、电子设备及存储介质
CN117523590B (zh) 一种校验生产厂商名称的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant