CN115210708B - 处理文本数据的方法和系统、非暂时性计算机可读介质 - Google Patents
处理文本数据的方法和系统、非暂时性计算机可读介质 Download PDFInfo
- Publication number
- CN115210708B CN115210708B CN202080067387.6A CN202080067387A CN115210708B CN 115210708 B CN115210708 B CN 115210708B CN 202080067387 A CN202080067387 A CN 202080067387A CN 115210708 B CN115210708 B CN 115210708B
- Authority
- CN
- China
- Prior art keywords
- keyword
- keywords
- character
- processor
- databases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 title claims abstract description 15
- 239000003550 marker Substances 0.000 abstract description 6
- 238000013479 data entry Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000011835 investigation Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
一种处理文本数据的方法包括分析文本数据以识别多个关键词。所述方法还包括确定所述多个关键词中的各个关键词是否已经存在于一个或更多个数据库中。当未在所述一个或更多个数据库中找到所述多个关键词中的关键词时,所述方法包括利用多个字符来标记该关键词以供存储。所述多个字符至少包括指示标记的开始的第一字符、指示用于存储该关键词的对应数据库的第二字符、以及指示标记的结束的第三字符。所述方法还包括将所标记的关键词存储在对应数据库中。
Description
相关申请的交叉引用
本申请要求2019年8月7日提交的美国临时申请No.62/883,917的优先权权益,其全部公开通过引用明确并入本文。
技术领域
本公开总体上涉及信息跟踪,更特别地,涉及处理用于调查信息跟踪的数据条目的系统和方法。
背景技术
执法部门的当前调查和报告通常通过使用常规文字处理和/或电子表格程序来人工处理。然而,这种系统缺乏高效管理信息并将其整合到数据库中的能力。例如,毒品交易调查可能具有大量未归类或未标记数据,这些数据需要在存储到数据库中之前进行预处理。常规方法需要大量的工时来分类和整理各种条目,这可能易于出错。由于一些错误的性质,可能使收集更多证据、防止进一步犯罪以及逮捕嫌犯的机会丧失。因此,需要更好地处理和管理在调查过程期间获得的数据。
发明内容
根据一个实施方式,本公开提供一种由计算装置处理与调查相关联的文本数据的方法。所述方法包括以下步骤:分析文本数据以识别多个关键词(keyword)。所述方法还包括以下步骤:确定所述多个关键词中的各个关键词是否存在于一个或更多个数据库中。当未在所述一个或更多个数据库中找到所述多个关键词中的一关键词时,所述方法包括以下步骤:利用多个字符来标记该关键词以供存储。所述多个字符至少包括指示标记步骤的开始的第一字符、指示用于存储该关键词的对应数据库的第二字符、以及指示标记步骤的结束的第三字符。
在另一方面,所述多个字符包括在键盘上找到的一个或更多个字母、数字、标点符号、以及特殊符号。第一字符、第二字符和第三字符中的每一者可以具有不止一个字符。第二字符位于第一字符和第三字符中间,而关键词位于第二字符和第三字符中间。
在另一方面,所述方法包括以下步骤:利用第一颜色突出显示所标记的关键词,以指示需要用户输入来添加关于所标记的关键词的信息。当所标记的关键词包括两个或更多个单独单词时,所述方法包括以下步骤:利用第二颜色突出显示所标记的关键词,以指示需要用户输入来分类所述两个或更多个单独单词。当在所述一个或更多个数据库中找到所述多个关键词中的关键词时,所述方法包括以下步骤:利用第三颜色突出显示该关键词,以指示该关键词已经存在。此外,所述方法包括以下步骤:将所标记的关键词存储在对应数据库中。所标记的关键词还可以被存储在多个数据库中。
根据另一实施方式,本公开提供一种处理与调查相关联的文本数据的系统。该系统包括:处理器、存储器、以及一个或更多个数据库。该存储器包括指令,所述指令在由处理器执行时使处理器:对文本数据进行分析,以识别多个关键词。该处理器还确定所述多个关键词中的各个关键词是否存在于一个或更多个数据库中。当未在所述一个或更多个数据库中找到所述多个关键词中的一关键词时,该处理器利用多个字符来标记该关键词以供存储。所述多个字符至少包括指示标记的开始的第一字符、指示用于存储该关键词的对应数据库的第二字符、以及指示标记的结束的第三字符。
在另一方面,所述多个字符包括在键盘上找到的一个或更多个字母、数字、标点符号、以及特殊符号。第一字符、第二字符和第三字符中的每一者可以具有不止一个字符。第二字符位于第一字符和第三字符中间,而关键词位于第二字符和第三字符中间。
在另一方面,该处理器利用第一颜色突出显示所标记的关键词,以指示需要用户输入来添加关于所标记的关键词的信息。当所标记的关键词包括两个或更多个单独单词时,该处理器利用第二颜色突出显示所标记的关键词,以指示需要用户输入来分类所述两个或更多个单独单词。当在所述一个或更多个数据库中找到所述多个关键词中的关键词时,该处理器利用第三颜色突出显示该关键词,以指示该关键词已经存在。此外,该处理器将所标记的关键词存储在对应数据库中。
根据又一实施方式,本公开提供了一种存储有指令的非暂时性计算机可读介质。所述指令在由处理器执行时使该处理器:对文本数据进行分析,以识别多个关键词;以及确定所述多个关键词中的各个关键词是否存在于一个或更多个数据库中。当未在所述一个或更多个数据库中找到所述多个关键词中的一关键词时,所述指令使处理器利用多个字符来标记该关键词以供存储。所述多个字符至少包括指示标记的开始的第一字符、指示用于存储该关键词的对应数据库的第二字符、以及指示标记的结束的第三字符。所述指令还使处理器将所标记的关键词存储在对应数据库中。所述多个字符包括在键盘上找到的一个或更多个字母、数字、标点符号、以及特殊符号。
附图说明
通过参照下面结合附图对本发明实施方式的描述,本公开的上述和其它特征和优点以及获得它们的方式将变得更清楚并且本发明本身将更好理解,在附图中:
图1是例示信息跟踪系统的框图;
图2是例示用于图1的信息跟踪系统的对数据条目进行处理的方法的流程图;
图3是例示各种示例数据库的概念图;
图4是例示用于处理数据条目的示例格式的概念图;
图5是例示示例经处理的数据条目的概念图;
图6至图8是例示用于经处理的数据条目的示例用户界面的概念图;以及
图9至图10是例示经处理的数据条目的其它示例的概念图。
贯穿这几个视图,对应的标号指示对应的部分。本文所阐述的范例例示了本公开的示例性实施方式,并且这些范例不应被解释为以任何方式限制本公开的范围。
具体实施方式
出于促进理解本公开原理的目的,现在,对下面描述的附图中所示实施方式进行说明。本文所公开的示例性实施方式并非旨在排它或将本公开限制成在下列详细描述中所公开的精确形式。相反地,选择并描述这些示例性实施方式,使得本领域其他技术人员可以利用它们的教导。
术语“联接(couple)”,“联接的(coupled)”及其变体被用于包括其中两个或更多个组件直接物理接触的排布结构和其中两个或更多个组件彼此不直接接触(例如,这些组件经由至少第三组件“联接”)但仍然彼此协作或交互的排布结构两者。
贯穿本公开并且在权利要求书中,诸如第一和第二的数字用语被用于引用各种组件或特征。这种使用并不旨在指示这些组件或特征的排序。相反地,使用数字用语来帮助读者识别被引用的组件或特征,并且不应被狭义地解释为提供组件或特征的特定次序。
本领域普通技术人员将认识到,所提供的实施方式可以按硬件、软件、固件和/或其组合来实现。根据实施方式的编程代码可以采用任何可行的编程语言来实现,诸如C、C++、HTML、XTML、JAVA或任何其它可行的高级编程语言,或者高级编程语言与低级编程语言的组合。
图1例示了信息跟踪系统100,该信息跟踪系统包括经由网络104(例如,局域网、广域网、因特网等)与在非暂时性计算机可读存储介质(例如,服务器)上实现的一个或更多个数据库106A至106N进行通信的计算装置102(例如,台式、膝上型电脑、移动装置等)。将数据库106A至106N配置成存储与调查相关联的数据。调查可以涉及执法(例如,毒品转移、洗钱、电话诈骗、身份盗用等),但是也可以设想到其它类型的调查(例如,就业问题)或其它非调查。虽然图1将数据库106A至106N示为单独的单元,但是在其它的实施方式中,可以将数据库106A至106N实现为单个单元。另外,在本公开中,数据库可以包括以任何合适的方式存储的信息表、数据的存储位置、或者本系统内的存储位置。本公开设想了任何类型的可存取存储架构。
计算装置102包括处理器108(例如,微处理器、微控制器、逻辑电路等)、存储器110以及通信模块112。将处理器108配置成,接收和处理与调查相关联的数据。处理数据需要对数据进行归类或标记以供存储在数据库106A至106N中。一经处理,计算装置102就可以使用通信模块112经由网络104将数据发送至数据库106A至106N。还将处理器108配置成,分析数据并且基于分析生成调查报告。虽然未示出,但是计算装置102可以包括被用于操作计算装置102的附加组件(例如,输入/输出装置)。
操作计算装置102的用户可以访问数据库106A至106N,以检索、保存和/或修改存储在其中的数据。数据可以包括诸如个人身份信息(例如,姓名)、位置信息(例如,地址)、车辆信息、财产信息、财务信息以及与调查相关联的任何其它相关信息的信息。在一个实施方式中,数据可以采用文本数据的形式(例如,电子邮件、文本消息、音频文件的转录、信函等)。在其它的实施方式中,数据可以是用户可以查看或者或不可查看的元数据。
现在参照图2,示出了处理与调查相关联的文本数据的方法200。方法200可以由计算装置102来执行。在框202处,计算装置102接收并分析文本数据以识别多个关键词。可以基于与所存储的项的比较来识别关键词。例如,当文本数据中的单词提及特定车辆牌子或型号时,计算装置102可以识别与车辆相关的关键词。作为另一示例,当文本数据中的单词提及日期、一天中的时间、一周中的一天等时,计算装置102可以识别与事件相关的关键词。在又一示例中,计算装置102可以基于特殊符号来识别关键词,诸如基于“@”符号来识别电子邮件。
在框204处,计算装置102确定所述多个关键词中的各个关键词是否存在于一个或更多个数据库(例如,数据库106A至106N)中。特别地,计算装置102可以执行对数据库106A至106N的搜索,以确定所识别的关键词是否已经存在于数据库106A至106N中的任一数据库中。
在框206处,当未在数据库106A至106N中的任何数据库中找到该关键词时,计算装置102利用多个字符来标记该关键词以供存储在特定数据库中。图3列出了关键词可以被保存至的各种示例数据库302。例如,如果关键词与车辆相关,则可以利用字符(“ve”)304来标记该关键词以供存储在车辆数据库(“Vehicles”)306中。在一个实施方式中,数据库302中的各个数据库可以被实现为图1的数据库106A至106N之一。
被用于标记关键词的所述多个字符至少包括:指示标记的开始的第一字符、指示用于存储关键词的对应数据库的第二字符、以及指示该标记的结束的第三字符。第一字符、第二字符和第三字符中的每一者可以包括不止一个字符。作为例示,图4示出了用于标记由数据402表示的关键词的示例格式。将采用斜杠符号(“/”)形式的第一字符404用于指示标记的开始。将采用两个字母(“mw”)形式的第二字符406用于指示数据402应当被保存至的特定数据库。在该示例中,字母“mw”代表“电汇(Money Wires)”,其是被用于存储与电汇相关的信息的数据库的名称。将采用脱字符号(“^”)形式的第三字符408用于指示标记的结束。在数据402之前和/或之后可以存在一个或更多个空格410。以这种方式,第二字符406处于第一字符404和第三字符408中间,而数据402(或关键词)处于第二字符406和第三字符408中间。应注意,标记格式不限于图4所示的例示,因为在其它实施方式中可以设想其它格式。例如,通过包括附加字符以指示多个数据库,可以将关键词保存至不止一个数据库。通常,被用于标记关键词的所述多个字符可以包括在标准键盘上找到的字母、数字、标点符号以及特殊符号的任何数目和组合。
由计算装置102对关键词进行标记允许将关键词准确且高效地存储在数据库106A至106N中。这又使得在调查过程期间能够更容易地进行信息搜索、信息检索、信息关联以及信息预测。在一个实施方式中,可以由用户执行标记。
图5例示了已经由计算装置102处理以识别和标记关键词的示例文本数据500。文本数据500可以是双方之间的电话呼叫的描述。当计算装置102确定发现关键词不存在于所述数据库中的任一数据(例如,数据库106A至106N中的任一数据库)中时,使用根据图4所示的格式的多个字符来标记该关键词以供存储。在图5中,对关键词502至508进行标记以供存储。例如,关键词502被确定为俚语词,这样,对关键词502进行标记以存储在被记为“vo”的“词汇(Vocabulary)”数据库中。在另一示例中,关键词504被确定为人名,这样,对关键词504进行标记以存储在被记为“nm”的“提到的名字(Names Mentioned)”数据库中。其它示例包括:被标记以存储在被记为“ad”的“地址(Addresses)”数据库中的关键词506,以及被标记以存储在被记为“ve”的“车辆(Vehicles)”数据库中的关键词508。
在一些实施方式中,所标记的关键词可能需要附加信息来描述该关键词(例如,来自用户的)。这样,计算装置102利用第一颜色突出显示所标记的关键词,以指示需要用户输入来添加关于所标记的关键词的信息。在图5中,利用绿色突出显示关键词502以指示附加用户输入。参照图6,当用户选择(例如,双击)关键词502时,生成示例用户界面602。用户界面602采用允许用户输入关键词502的信息(例如,定义、注释等)的数据输入窗口的形式。
在一些实施方式中,所标记的关键词可以包括两个或更多个单独单词的组合。这样,计算装置102利用第二不同颜色突出显示所标记的关键词,以指示需要用户输入来对所述两个或更多个单独单词进行归类或分类。在图5中,利用红色突出显示关键词508以指示附加用户输入。关键词508包括分别描述车辆的颜色和牌子的两个单独单词704、706。参照图7,当用户选择(例如,双击)关键词508时,生成示例用户界面702。用户界面702采用允许用户将单词704、706匹配至它们的对应描述的映射窗口的形式。用户界面702还包括指示经自动填充的相关信息的标签708。一旦用户已经成功地分类了单词704、706,计算装置102就可以将关键词508的突出显示改变成不同的颜色(例如,改变成绿色)。
当计算装置102确定发现关键词存在于所述数据库中的一个数据库(例如,数据库106A至106N中的一个数据库)中时,不对该关键词进行标记并且利用第三颜色进行突出显示以指示该关键词已经存在。例如,返回参照图5,关键词510、512以黄色突出显示,以指示计算装置102在数据库中找到了这些关键词。
当关键词已经存在时,用户也可以访问关于该关键词的信息。参照图8,当用户选择(例如,双击)已经存在的关键词804时,生成示例用户界面802。用户界面802采用允许用户查看和/或修改与关键词804相关联的任何信息的数据输入窗口的形式。
图9至图10例示了由计算装置102处理的文本数据的其它示例。在图9中,文本数据900包括采用具有多个单词的短语形式的所标记的关键词902。所标记的关键词902描述了地点但没有实际地址。这样,计算装置102已经以红色突出显示了所标记的关键词902,以指示需要附加用户输入(例如,通过不同的源确定实际地址)。
在一些实施方式中,计算装置102可以临时对关键词进行标记,但是直到用户检查了该标记或者除非用户检查了该标记,才会激活该关键词。在图10中,文本数据1000包括临时标记的关键词1002、1004。计算装置102已经识别出这些关键词,但是没有永久地标记它们。用户可以检查临时标记的关键词1002、1004,并且在选择了它们(例如,双击)后,计算装置102可以通过以红色突出显示关键词1002、1004来激活它们的标记。这也指示需要附加用户输入(例如,描述这些关键词的信息)。
在某些实施方式中,可以将文本数据100用于创建事件。例如,当在上述数据条目处理期间遇到关键词1004时,可以通过键入对应于即将到来的事件/日历事件的“/uptomorrow^”来将事件添加至系统日历。
本文所公开的系统和方法允许在处理与调查相关联的数据并将该数据整合到一个或更多个数据库中的方面提高效率。这样的效率可以导致减少工时和降低调查成本。而且,这样的系统和方法可以减少行业中常规系统和方法通常存在的数据条目错误。
结合本文中所公开的实施方式描述的各种例示性模块和逻辑框可以由下列机器来实现或执行:诸如通用处理器(例如,微处理器、微控制器、状态机等)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件、或者其被设计成执行本文所描述的功能的任何组合。
结合本文所公开的实施方式描述的方法、处理或算法的步骤可以直接以硬件、由处理器执行的软件模块或者这两者的组合来具体实施。软件模块可以存在于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或者本领域已知的任何其它形式的计算机可读存储介质中。可以将示例性存储介质联接至处理器,使得处理器可以从存储介质读取信息以及向该存储介质写入信息。另选地,存储介质可以与处理器成一体。
虽然已经将本发明描述为具有示例性设计,但在本公开的精神和范围内,可以进一步修改本发明。因此,本申请旨在涵盖利用其一般原理的本发明的任何变化、用途或调整。而且,本申请旨在覆盖与本公开的这些偏离,这些偏离属于本发明所属领域的已知或惯常实践,并且落入所附权利要求书的限制内。
而且,本文所包含的各个图中示出的连接线旨在表示各个要素之间的示例性功能关系和/或物理联接。应注意到,在实践系统中可以存在许多另选或附加功能关系或物理连接。然而,益处、优点、问题的解决方案以及可以导致任何益处、优点或解决方案发生或变得更显著的任何要素不应被解释为关键的、必需的或本质的特征或要素。因此,所述范围仅受所附权利要求的限制,其中,除非明确地这样规定,否则按单数对要素的引用并非意指“一个且仅一个”,而是意指“一个或更多个”。
此外,在权利要求中使用类似于“A、B或C中的至少一个”的短语的情况下,旨在将该短语解释为意指在实施方式可以存在单独A,在实施方式可以存在单独B,在实施方式可以存在单独C,或者在单个实施方式中可以存在要素A、B或C的任何组合;例如,A和B、A和C、B和C、或者A和B和C。
本文提供了系统、方法以及装置。在本文的详细描述中,对“一个实施方式”、“一实施方式”、“示例实施方式”等的引用表示所描述的实施方式可以包括特定特征、结构或特性,但每一个实施方式可能不一定包括该特定特征、结构或特性。此外,这样的短语不一定是指同一实施方式。而且,当结合一实施方式描述一特定特征、结构或特性时,所表达的是,无论是否明确描述,结合其它实施方式来实现具有本公开益处的这种特征、结构或特性都在本领域技术人员的知识范围内。在阅读本说明书之后,相关领域技术人员应当明白,如何以另选实施方式实现本公开。
此外,本公开中的任何要素、组件或方法步骤都不旨在献给公众,而不管该要素、组件或方法步骤是否在权利要求书中明确记载。如本文所使用的,用语“包括”、“包含”或其任何其它变型旨在覆盖非排它性的包含,使得包括一系列要素的处理、方法、物品或装置不是仅包括那些要素,而是可以包括未明确列出的或者这种处理、方法、物品或装置固有的其它要素。
Claims (20)
1.一种处理文本数据的方法,所述方法包括以下步骤:
由计算装置对所述文本数据进行分析,以识别多个关键词;
由所述计算装置确定所述多个关键词中的各个关键词是否存在于一个或更多个数据库中;以及
当未在所述一个或更多个数据库中找到所述多个关键词中的一关键词时,由所述计算装置利用多个字符来标记该关键词以供存储,所述多个字符至少包括指示标记步骤的开始的第一字符、指示用于存储该关键词的对应数据库的第二字符、以及指示标记步骤的结束的第三字符。
2.根据权利要求1所述的方法,其中,所述多个字符包括在键盘上找到的一个或更多个字母、数字、标点符号、以及特殊符号。
3.根据权利要求1所述的方法,其中,所述第一字符、所述第二字符和所述第三字符中的每一者包括不止一个字符。
4.根据权利要求1所述的方法,其中,所述第二字符位于所述第一字符和所述第三字符中间,并且所述关键词位于所述第二字符和所述第三字符中间。
5.根据权利要求1所述的方法,所述方法还包括以下步骤:利用第一颜色突出显示所标记的关键词,以指示需要用户输入来添加关于所标记的关键词的信息。
6.根据权利要求5所述的方法,其中,所标记的关键词包括两个或更多个单独单词,并且所述方法还包括以下步骤:利用第二颜色突出显示所标记的关键词,以指示需要用户输入来对所述两个或更多个单独单词进行分类。
7.根据权利要求6所述的方法,其中,当在所述一个或更多个数据库中找到所述多个关键词中的所述关键词时,利用第三颜色突出显示所述关键词,以指示所述关键词已经存在。
8.根据权利要求1所述的方法,所述方法还包括以下步骤:将所标记的关键词存储在所述对应数据库中。
9.根据权利要求1所述的方法,其中,所标记的关键词被存储在多个数据库中。
10.一种处理文本数据的系统,所述系统包括:
处理器;
一个或更多个数据库;以及
存储器,所述存储器包括指令,所述指令在由所述处理器执行时使所述处理器:
对所述文本数据进行分析,以识别多个关键词;
确定所述多个关键词中的各个关键词是否存在于所述一个或更多个数据库中;以及
当未在所述一个或更多个数据库中找到所述多个关键词中的一关键词时,利用多个字符来标记该关键词以供存储,所述多个字符至少包括指示标记的开始的第一字符、指示用于存储该关键词的对应数据库的第二字符、以及指示标记的结束的第三字符。
11.根据权利要求10所述的系统,其中,所述多个字符包括在键盘上找到的一个或更多个字母、数字、标点符号、以及特殊符号。
12.根据权利要求10所述的系统,其中,所述第一字符、所述第二字符和所述第三字符中的每一者包括不止一个字符。
13.根据权利要求10所述的系统,其中,所述第二字符位于所述第一字符和所述第三字符中间,并且所述关键词位于所述第二字符和所述第三字符中间。
14.根据权利要求10所述的系统,其中,所述指令在由所述处理器执行时还使所述处理器:利用第一颜色突出显示所标记的关键词,以指示需要用户输入来添加关于所标记的关键词的信息。
15.根据权利要求14所述的系统,其中,所标记的关键词包括两个或更多个单独单词,并且所述指令在由所述处理器执行时还使所述处理器:利用第二颜色突出显示所标记的关键词,以指示需要用户输入来对所述两个或更多个单独单词进行分类。
16.根据权利要求15所述的系统,其中,当在所述一个或更多个数据库中找到所述多个关键词中的所述关键词时,所述指令在由所述处理器执行时还使所述处理器:利用第三颜色突出显示所述关键词,以指示所述关键词已经存在。
17.根据权利要求10所述的系统,其中,所述指令在由所述处理器执行时还使所述处理器:将所标记的关键词存储在所述对应数据库中。
18.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质上存储有指令,所述指令在由处理器执行时使所述处理器:
对文本数据进行分析,以识别多个关键词;
确定所述多个关键词中的各个关键词是否存在于一个或更多个数据库中;以及
当未在所述一个或更多个数据库中找到所述多个关键词中的一关键词时,利用多个字符来标记该关键词以供存储,所述多个字符至少包括指示标记的开始的第一字符、指示用于存储该关键词的对应数据库的第二字符、以及指示标记的结束的第三字符。
19.根据权利要求18所述的非暂时性计算机可读介质,其中,所述指令在由所述处理器执行时还使所述处理器:将所标记的关键词存储在所述对应数据库中。
20.根据权利要求18所述的非暂时性计算机可读介质,其中,所述多个字符包括在键盘上找到的一个或更多个字母、数字、标点符号、以及特殊符号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311018897.6A CN117112598A (zh) | 2019-08-07 | 2020-08-07 | 处理文本数据的方法和系统、非暂时性计算机可读介质 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962883917P | 2019-08-07 | 2019-08-07 | |
US62/883,917 | 2019-08-07 | ||
PCT/US2020/045353 WO2021026428A1 (en) | 2019-08-07 | 2020-08-07 | Data entry feature for information tracking system |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311018897.6A Division CN117112598A (zh) | 2019-08-07 | 2020-08-07 | 处理文本数据的方法和系统、非暂时性计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115210708A CN115210708A (zh) | 2022-10-18 |
CN115210708B true CN115210708B (zh) | 2023-09-01 |
Family
ID=74503740
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311018897.6A Pending CN117112598A (zh) | 2019-08-07 | 2020-08-07 | 处理文本数据的方法和系统、非暂时性计算机可读介质 |
CN202080067387.6A Active CN115210708B (zh) | 2019-08-07 | 2020-08-07 | 处理文本数据的方法和系统、非暂时性计算机可读介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311018897.6A Pending CN117112598A (zh) | 2019-08-07 | 2020-08-07 | 处理文本数据的方法和系统、非暂时性计算机可读介质 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11783127B2 (zh) |
EP (1) | EP4010838A4 (zh) |
JP (1) | JP2022543870A (zh) |
CN (2) | CN117112598A (zh) |
WO (1) | WO2021026428A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117112598A (zh) * | 2019-08-07 | 2023-11-24 | 齐纳特科技公司 | 处理文本数据的方法和系统、非暂时性计算机可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999034307A1 (en) * | 1997-12-29 | 1999-07-08 | Infodream Corporation | Extraction server for unstructured documents |
CN102567365A (zh) * | 2010-12-26 | 2012-07-11 | 上海量明科技发展有限公司 | 一种针对于关键词进行标注的输入方法及系统 |
CN105550298A (zh) * | 2015-12-11 | 2016-05-04 | 北京搜狗科技发展有限公司 | 一种关键词模糊匹配的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2011037A1 (en) * | 2006-04-11 | 2009-01-07 | ITI Scotland Limited | Information extraction methods and apparatus including a computer-user interface |
US8145654B2 (en) * | 2008-06-20 | 2012-03-27 | Lexisnexis Group | Systems and methods for document searching |
US20130144863A1 (en) * | 2011-05-25 | 2013-06-06 | Forensic Logic, Inc. | System and Method for Gathering, Restructuring, and Searching Text Data from Several Different Data Sources |
US9501455B2 (en) * | 2011-06-30 | 2016-11-22 | The Boeing Company | Systems and methods for processing data |
CN117112598A (zh) * | 2019-08-07 | 2023-11-24 | 齐纳特科技公司 | 处理文本数据的方法和系统、非暂时性计算机可读介质 |
-
2020
- 2020-08-07 CN CN202311018897.6A patent/CN117112598A/zh active Pending
- 2020-08-07 EP EP20850073.6A patent/EP4010838A4/en active Pending
- 2020-08-07 US US16/969,420 patent/US11783127B2/en active Active
- 2020-08-07 CN CN202080067387.6A patent/CN115210708B/zh active Active
- 2020-08-07 WO PCT/US2020/045353 patent/WO2021026428A1/en unknown
- 2020-08-07 JP JP2022507854A patent/JP2022543870A/ja active Pending
-
2023
- 2023-08-31 US US18/240,996 patent/US20240070391A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999034307A1 (en) * | 1997-12-29 | 1999-07-08 | Infodream Corporation | Extraction server for unstructured documents |
CN102567365A (zh) * | 2010-12-26 | 2012-07-11 | 上海量明科技发展有限公司 | 一种针对于关键词进行标注的输入方法及系统 |
CN105550298A (zh) * | 2015-12-11 | 2016-05-04 | 北京搜狗科技发展有限公司 | 一种关键词模糊匹配的方法及装置 |
WO2017097075A1 (zh) * | 2015-12-11 | 2017-06-15 | 北京搜狗科技发展有限公司 | 一种关键词模糊匹配的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
EP4010838A1 (en) | 2022-06-15 |
US11783127B2 (en) | 2023-10-10 |
JP2022543870A (ja) | 2022-10-14 |
CN117112598A (zh) | 2023-11-24 |
CN115210708A (zh) | 2022-10-18 |
US20240070391A1 (en) | 2024-02-29 |
US20230141184A1 (en) | 2023-05-11 |
WO2021026428A1 (en) | 2021-02-11 |
EP4010838A4 (en) | 2023-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8108413B2 (en) | Method and apparatus for automatically discovering features in free form heterogeneous data | |
US8688690B2 (en) | Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction | |
CN109523153A (zh) | 非法集资企业的获取方法、装置、计算机设备和存储介质 | |
US8965877B2 (en) | Apparatus and method for automatic assignment of industry classification codes | |
US9025890B2 (en) | Information classification device, information classification method, and information classification program | |
US20200005032A1 (en) | Classifying digital documents in multi-document transactions based on embedded dates | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
US20220343077A1 (en) | Method for displaying entity-associated information based on electronic book and electronic device | |
CN110909123B (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
AU2018411565B2 (en) | System and methods for generating an enhanced output of relevant content to facilitate content analysis | |
US20220229854A1 (en) | Constructing ground truth when classifying data | |
US20240070391A1 (en) | Data entry feature for information tracking system | |
CN111078839A (zh) | 一种用于裁判文书的结构化处理方法及处理装置 | |
CN112765965A (zh) | 文本多标签分类方法、装置、设备和存储介质 | |
Hasanuzzaman et al. | Maximum entropy approach for named entity recognition in Bengali and Hindi | |
CN112330501A (zh) | 一种文书处理方法、装置、电子设备及存储介质 | |
CN115357688B (zh) | 企业名单信息获取方法、装置、存储介质和电子设备 | |
US11775762B1 (en) | Data comparision using natural language processing models | |
CN103377199A (zh) | 信息处理装置和信息处理方法 | |
KR20210147173A (ko) | 인터넷상의 광고대행 서비스 제공 방법 | |
US20240211890A1 (en) | System and method for automatic resume identification | |
US11966421B2 (en) | System, method, and computer program for a context-based data-driven classifier | |
CN117493996A (zh) | 一种警情级联分类模型的构建方法 | |
Ortiz et al. | Supervised Learning Classifiers for the Task of Information Extraction | |
CN114997159A (zh) | 一种文本抽取方法、装置、服务器及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |