WO2019220589A1 - 映像解析装置、映像解析方法、及びプログラム - Google Patents

映像解析装置、映像解析方法、及びプログラム Download PDF

Info

Publication number
WO2019220589A1
WO2019220589A1 PCT/JP2018/019102 JP2018019102W WO2019220589A1 WO 2019220589 A1 WO2019220589 A1 WO 2019220589A1 JP 2018019102 W JP2018019102 W JP 2018019102W WO 2019220589 A1 WO2019220589 A1 WO 2019220589A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
narrowing
rule
information
tracking
Prior art date
Application number
PCT/JP2018/019102
Other languages
English (en)
French (fr)
Inventor
孝之 瀬光
利貞 毬山
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2018/019102 priority Critical patent/WO2019220589A1/ja
Priority to GB2017860.4A priority patent/GB2587555C/en
Priority to JP2020518898A priority patent/JP6779410B2/ja
Publication of WO2019220589A1 publication Critical patent/WO2019220589A1/ja
Priority to US17/096,470 priority patent/US11417134B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to a video analysis device, a video analysis method, and a program, and more particularly to a technique for recognizing a person's action from a video.
  • Patent Document 1 is known as a technique for detecting, analyzing, and tracking a person as an object in a monitoring space using a monitoring image of a monitoring camera, and detecting a suspicious person based on the tracking result.
  • the technique disclosed in Patent Document 1 is as follows. That is, the monitoring space is photographed at a predetermined time interval by a monitoring camera installed in the monitoring space.
  • An object model which is data describing a partial model representing a three-dimensional shape for each of a plurality of constituent parts constituting the object, and an arrangement relationship between the partial models, is stored.
  • the stored object model is virtually arranged in a predetermined posture at a candidate position in the monitored space where the image is taken.
  • the object model is perspective-projected based on the projection condition, and a partial model visible region on which the partial model is projected is obtained for each partial model.
  • a portion corresponding to the partial model visible region is extracted as a component partial image of the object from the captured monitoring image of the monitoring space.
  • Existence of the object is determined from predetermined image features of the constituent image.
  • a monitoring image of a monitoring camera imaged in a monitoring space is displayed using a target object model having a partial model representing a three-dimensional shape for each of a plurality of components.
  • the accuracy of human detection and tracking can be improved.
  • the accuracy of the person detection is lowered. Therefore, it is necessary to increase the accuracy of the object model, and the target sample to be detected in the application scene It was necessary to collect and update the object model.
  • the present invention solves the above-described problems, and an object thereof is to obtain a new video analysis device that recognizes a person's action from video information from a surveillance camera.
  • a video analysis apparatus includes a person detection unit that detects a person image from video information from a surveillance camera and obtains person image information as a person image detection result and person attribute information corresponding to the person image information.
  • the person image information and the person attribute information obtained by the person detection unit are narrowed down based on the person narrowing rules, and the person image information and the person attribute information corresponding thereto are obtained by narrowing down the person image information.
  • the person image information detected from the video information from the surveillance camera is narrowed down by the person narrowing-down unit, it is possible to efficiently reduce the erroneous recognition of the person.
  • FIG. 1 It is a function block diagram which shows the video analysis apparatus 1 which concerns on Embodiment 3 of this invention. It is a flowchart which shows the processing flow of the event recognition in the video analysis apparatus 1 which concerns on Embodiment 3 of this invention.
  • Embodiment 1 FIG. Embodiment 1 of the present invention will be described with reference to FIGS.
  • the imaging devices 2a to 2c each shoot the corresponding monitoring space.
  • the imaging devices 2a to 2c are surveillance cameras, and are hereinafter collectively referred to as surveillance cameras 2.
  • Video information captured by the monitoring camera 2 is transmitted via the network 3.
  • the video analysis device 1 detects and tracks an object (such as a person) based on video information received via the network 3.
  • the video analysis apparatus 1 recognizes an action by combining a rule relating to appearance (image, spatial direction) and a rule relating to movement (time direction), and particularly determines and tracks suspicious behavior, so-called deviant behavior.
  • suspicious behavior can be detected by defining suspicious behavior that is a key to identifying the suspicious behavior. For example, when checking a ticket on a limited express vehicle, combining passenger motion detection (optical flow) and conductor recognition (CNN (Convolutional Neural) Network)), "Stand away when the conductor enters the room and avoid leaving. "Passenger” is detected as a suspicious passenger. Detection of such suspicious behavior leads to the recognition of passengers who are riding a kissel, for example.
  • the display device 4 is configured by a display or the like, and displays video information received by the video analysis device 1, detection results and tracking results by the video analysis device 1, detection results and event determination results based on the tracking results, and the like.
  • the network 3 is in the form of wired or wireless.
  • the video analysis apparatus 1 showed what receives the video information of the surveillance camera 2 via the network 3, it is not restricted to this, The video information of the surveillance camera 2 is read in a video, and is read in a video. The video information of the surveillance camera 2 may be input.
  • the person detection unit 11 detects a person image from the video information from the monitoring camera 2 that is received, that is, input via the network 3. This detection is based on rules relating to appearance (image, spatial direction), and is realized by, for example, a machine learning technique based on CNN (Convolutional Neural Network).
  • the detection result of the person image is output as person image information such as rectangle information of the person image, reliability of the detection result, and an intermediate product such as a feature map used for the determination.
  • attribute determination is also performed at the same time. The attribute determination is performed by estimating gender, age, facial expression, clothes, and the like.
  • a vehicle is recognized as a conductor, a building as a security guard, an elderly person or a person with a white cane (a visually handicapped person), a clerk or the like, that is, a person's attributes.
  • the recognition result of the person attribute is also obtained as person attribute information together with the person image information.
  • the person narrowing-down unit 12 narrows down the person image information based on the person narrowing-down rules stored in the narrowing-down rule database (DB) 13 with respect to the person image information and the person attribute information obtained by the person detecting unit 11.
  • the attribute information of the person corresponding to the narrowed-down person image information is also added.
  • the person narrowing-down unit 12 applies a person rectangular height narrowing rule calculated based on the geometric relationship between the floor of the monitoring space and the monitoring camera 2 in one scene (frame) captured by the monitoring camera 2. Used to screen human rectangle candidates according to the height of the rectangle.
  • the person narrowing rule stored in the narrowing rule database (DB) 13 includes this person rectangular height narrowing rule.
  • a pinhole camera is used as the floor surface.
  • H is the height of the person when the whole body is shown
  • h is the size of the person image on the projection plane imaged by the pinhole camera
  • Z1 is the depth from the pinhole camera to the person image
  • Z2 is This is the distance from the pinhole camera to the projection plane.
  • the size h of the person on the projection surface can be expressed by the following equation (1).
  • the relationship between h and the depth Z1 to the person can be expressed by a mathematical expression.
  • two conditions are necessary.
  • Such advance preparation may not be possible when the pinhole camera is installed.
  • the parameters of these functions include, for example, extracting the height on the screen on which the person is shown and the height of the rectangle from the video photographed by the camera, and determining the data using the least square method. That is, it is a method of extracting the relationship between the height on the screen where the person is shown and the height of the rectangle from the video taken by the camera.
  • FIG. 4 is a plot of the relationship of the height of the person rectangle for each screen height when the camera is installed at an angle slightly looking down from the parallel to the floor surface.
  • the horizontal axis indicates the height of the person image on the screen
  • the vertical axis indicates the height of the person rectangle
  • the ⁇ mark indicates the estimated value
  • the * mark indicates the actually measured value.
  • FIG. 4 shows, as an example, the relationship between the height of the screen for a person with a height of 170 cm and the height of the person rectangle.
  • an upper limit and a lower limit of an error are set for the height of the person to set a rectangular height range on the screen to be accepted. For example, if the upper limit and the lower limit of the height of the person rectangle obtained for each screen height are allowed to be 20%, if data is taken by a person of 170 cm at each height on the screen, the height of 136 cm. A person up to 204 cm is set as a detection range.
  • the height is 170 cm, but the detection range can be obtained in the same manner for height 160 cm, height 180 cm, and the like.
  • the actual measurement result may be used for the relationship between the height of the screen and the height of the person rectangle, and the measured value and the estimated value are almost the same as understood from FIG.
  • the height may be set for each height position of the screen and determined by the estimated value.
  • the height of the person rectangle is distributed according to the height of the person image on the screen, for example, expressed as a normal distribution, and the distribution itself Alternatively, a parameter representing the distribution may be obtained.
  • an upper limit and a lower limit of the height of the person rectangle obtained for each height of the screen for a person of 170 cm are allowed up to 20%.
  • a person having a height of 136 cm to 204 cm is set as a detection range
  • the detection range of height is made to correspond to the detection range of height 136 cm to 204 cm.
  • the detection range of the height of the person rectangle obtained in this way is stored as a person narrowing rule in the person narrowing rule database 13 as one of the person rectangle height narrowing rules.
  • the upper limit value and lower limit value of the integral value may be set to be allowed up to 20%.
  • the person narrowing unit 12 Based on the person rectangle height detection range, which is the person rectangle height narrowing rule stored in the person narrowing rule database 13, the person narrowing unit 12 narrows down the person image information from the person detecting unit 11 for each scene. In this way, the person narrowing unit 12 uses the height of the person rectangle that sets the upper and lower limits for height, which allows an upper limit and a lower limit of 20% for height, which is the rule for narrowing the person rectangle height.
  • the person image information is narrowed down, in other words, the person rectangle outside the range of the height of the person rectangle for which the upper limit value and the lower limit value are set is suppressed as false recognition, so the target person who wants to detect for each different scene Therefore, it is possible to improve the accuracy of narrowing down the person image information without extracting the samples and letting the video analysis apparatus 1 learn.
  • the person tracking unit 14 tracks the narrowed down person image for each scene based on the person image information narrowed down by the person narrowing down part 12 and the attribute information of the person corresponding thereto.
  • the tracking result is obtained together with the attribute information of the person.
  • the tracking result is obtained as follows. That is, each image (frame) captured by the surveillance camera 2 that is one scene is regarded as a bipartite graph matching problem between the current rectangle and the person rectangle of the previous frame, and is associated by solving as a graph problem. I do.
  • the framework for tracking people as a matching problem based on the detected person rectangle is called tracking-by-detection, and it is a large number of people when compared to the method of learning Kalman filter and tracker for each person. There is an advantage that even a complicated scenario that appears and passes each other can be processed more robustly.
  • the person tracking unit 14 outputs motion vector information representing the motion of the person rectangle in the current frame and the previous frame as a vector using the optical flow.
  • motion vector information for example, passenger seats and passages can be detected as movements at event venues, and user movements can be detected at buildings and commercial facilities. It can also recognize elemental actions such as holding an object and raising a hand.
  • the event determination unit 15 performs event detection based on the person tracking result from the person tracking unit 14 and the attribute information of the person.
  • the person tracking result from the person tracking unit 14 is trajectory information indicating the trajectory of how the person rectangle used in the person tracking unit 14 has changed, and a motion vector representing the motion of the person rectangle as a vector. Information.
  • the event determination unit 15 As an example of determination by the event determination unit 15, a case will be described in which it is determined whether or not a dangerous area (floor surface) exists in the monitoring space and a person has stepped into the dangerous area.
  • information on the dangerous area is stored in the event determination database 16.
  • the danger area stored in the event determination database 16 is the foot of the person rectangle (the midpoint of the base), which is the result of tracking the person from the person tracking unit 14 corresponding to the person image information filtered by the person filtering unit 12. Judgment is made based on whether it is included.
  • the dangerous area may be displayed by designating an image captured by the monitoring camera 2 shown in the display device 4. .
  • the event determination unit 15 designates, for example, an elderly person, compares and determines the information on the designated elderly person, the tracking result of the person from the person tracking unit 14, and the attribute information of the person. Can also be extracted.
  • the information of the elderly person to be specified may be information stored in the event determination database 16.
  • the event determination unit 15 combines and determines the tracking results of a plurality of persons from the person tracking unit 14. For example, a staff member is designated, and information on the designated staff member is compared with a person tracking result from the person tracking unit 14 and attribute information of the person, and a staff member is extracted. In addition, the person is specified from the person tracking result from the person tracking unit 14 and the attribute information of the person. After the event determination unit 15 recognizes that the designated clerk appears in the image captured by the monitoring camera 2, the movement starts so that the identified person escapes from the image captured by the monitoring camera 2. When the event determination unit 15 recognizes, the determined person is determined to be a suspicious person and is output.
  • the event determination database 16 stores rules such as clerk information, clerk information, and the relationship between trajectory information of a person rectangle from the person tracking unit 14.
  • Information such as determination information determined by the event determination unit 15, presence / absence of entry into the dangerous area, presence / absence of an elderly person, presence / absence of a poor person, and the like is output to the display device 4 together with video information captured by the monitoring camera 2. Will be.
  • the video analysis apparatus 1 includes a CPU 101, a ROM 102, a RAM 103, a secondary storage device 104 such as an HDD, an input device 105, an output device 106, and a space between these devices 101 to 106.
  • a bus 107 to be connected is provided.
  • the CPU 101 reads a program recorded in the ROM 102 or RAM 103 and executes processing.
  • the ROM 102 is a non-volatile memory, and records programs and processes necessary for starting the system.
  • a program for executing a flowchart showing a process flow of event recognition in the video analysis apparatus 1 shown in FIG. 6 is stored.
  • the flowchart shown in FIG. 6 includes a person detection step ST1, a person narrowing step ST2, a person tracking step ST3, and an event determination step ST4.
  • the relationship between steps ST1 to ST4 and the person detection unit 11, person narrowing unit 12, person tracking unit 14, and event determination unit 15 in the video analysis apparatus 1 shown in FIG. 2 is as follows. That is, the person detection step ST1 corresponds to a step executed by the person detection unit 11, and a person image is obtained from the video information from the monitoring camera 2, for example, by a machine learning technique based on CNN. This is a step of obtaining person image information as a person image detection result and person attribute information corresponding to the person image information as a result of person image detection.
  • the person narrowing step ST2 corresponds to a step executed by the person narrowing unit 12, receives the person image information and the person attribute information obtained by the person detecting step ST1, narrows down the person image information based on the person narrowing rule, This is a step of obtaining narrowed-down person image information and corresponding person attribute information.
  • the person narrowing rule at this time sets an upper limit value and a lower limit value for the height of the person to be narrowed down, and a person rectangle height narrowing rule that is a detection range of the height of the person rectangle corresponding to the lower limit value from the upper limit value And stored in the secondary storage device 104.
  • the person tracking step ST3 corresponds to a step executed by the person tracking unit 14, and the person image information narrowed down by the person narrowing down step ST2 and the corresponding person attribute information are tracked for each scene, and the tracking result and tracking are performed.
  • This is a step of obtaining attribute information of a person who is a result target.
  • the tracking result at this time is trajectory information indicating the trajectory of how the human rectangle has changed, and is motion vector information representing the motion of the human rectangle as a vector.
  • the event determination step ST4 corresponds to a step executed by the event determination unit 15 and is a step of detecting an event based on the person tracking result obtained by the person tracking step ST3 and the attribute information of the person.
  • the detection of the event at this time is detection by performing determinations such as determination of presence / absence of a person's movement, for example, determination of presence / absence of intrusion into a dangerous area, determination of presence / absence of a designated person, determination of presence / absence of a suspicious person.
  • the program stored in the ROM 102 is stored in the computer constituting the hardware of the video analysis apparatus 1 so that the person detection procedure shown as the person detection step ST1, the person narrowing procedure shown as the person narrowing step ST2, and the person tracking.
  • This is a program for executing the person tracking procedure shown as step ST3 and the event determination procedure shown as event determination step ST4.
  • This program is read from the ROM 102 by the CPU 101 via the bus 107 and processed.
  • a RAM 103 is a volatile memory and stores temporary data such as a feature map generated at the time of event recognition and detection at the event determination step ST4 and video information captured by the monitoring camera 2 under the management of the CPU 101.
  • the data is read out by the CPU 101 via the bus 107 and the process is executed.
  • the feature map includes the above-described detection range of the height of the person rectangle, information on the dangerous area, attribute information of the person to be designated, trajectory information of the person rectangle, and the like.
  • the secondary storage device 104 is a storage device such as a hard disk drive, and records video information captured by the monitoring camera 2 and program setting information. The stored information is read by the CPU 101 via the bus 107, and the process is executed.
  • the input device 105 is a device such as a keyboard and a mouse that receives input from the user, and the input information is notified to the CPU 101 via the bus 107.
  • the output device 106 is a device for outputting the result. The output device 106 outputs the processing result obtained by the CPU 101 via the bus 107 for drawing on the display device 4, and the processing by the CPU 101 for transferring the result as a result file to another device. Output the result.
  • the operation of the video analysis apparatus 1 configured as described above will be described. Even when the video information captured by the monitoring camera 2 is directly analyzed, the video information captured by the monitoring camera 2 is temporarily stored in the secondary storage device 104 and stored in the secondary storage device 104. The operation is the same when analyzing.
  • the CPU 101 when receiving an instruction to start video analysis from the input device 105, the CPU 101 reads out a program of a person detection procedure from the ROM 102 and executes a person detection step ST1. As a result, person image information as a person image detection result and person attribute information corresponding to the person image information are obtained.
  • the CPU 101 reads out a person narrowing procedure program from the ROM 102 and executes a person narrowing step ST2.
  • the detection range of the height of the person rectangle that is the rule for narrowing the height of the person rectangle in the rule for narrowing down the person rectangle stored in the secondary storage device 104 is read out to the CPU 101, and the person image information as the detection result of the person image is read.
  • the narrowed-down person image information and the corresponding person attribute information are obtained.
  • the CPU 101 reads a person tracking procedure program from the ROM 102 and executes a person tracking step ST3.
  • the narrowed-down person image information and the corresponding person attribute information are tracked for each scene, and the tracking result and the attribute information of the person who is the target of the tracking result are obtained.
  • the CPU 101 reads an event determination procedure program from the ROM 102 and executes an event determination step ST4.
  • the CPU 101 performs processing in accordance with the instruction information. For example, based on instruction information such as presence / absence of movement of a person, for example, presence / absence of entry into a dangerous area, presence / absence of a designated person, presence / absence of a suspicious person, determination based on instruction information is performed, and an event detection result is output
  • the data is output via 106.
  • the output result is displayed on the display device 4 and recognized by the user.
  • the video analysis apparatus 1 is configured as described above, and in particular, the person detection unit 11 detects based on the rules regarding the appearance (image, spatial direction), and the event determination unit 15 Since the determination is based on the rules regarding movement (time direction), the recognition accuracy of the person is improved. Furthermore, since person image information is narrowed down by the person narrowing-down unit 12 based on the person rectangular height narrowing-down rule of the person narrowing-down rule, it is possible to efficiently reduce person recognition errors. As a result, there is an effect that the accuracy of narrowing down the person image information can be improved without extracting a sample of the target person to be detected for each different scene and causing the video analysis apparatus 1 to learn.
  • the video analysis device 1 according to the second embodiment has the same basic configuration as the video analysis device 1 shown in the first embodiment, that is, the functional configuration diagram shown in FIG. 2 and the configuration diagram shown in FIG.
  • the basic configuration is the same.
  • the difference is that, as a person narrowing-down rule database 13 and, in terms of hardware, a person narrowing-down rule stored in the secondary storage device 104, there is a passage in the monitoring space and a person appears in the passage. Is added to the video analysis apparatus 1 shown in the first embodiment.
  • FIG. 7 is a passage map taken with the passage 6 in the monitoring space 5 and the installation angle of the monitoring camera 2 taken perpendicular to the direction of passage of the passage 6 and with a shallow elevation angle.
  • the installation angle is a passage map taken from the front of the passage 6 in the direction of travel.
  • the passage information of the passage 6 obtained from these passage maps is stored, the foot information of the person rectangle with respect to the person image information from the person detection unit 11 is compared with the passage information, and the foot information of the person rectangle is the passage information as a comparison result.
  • An in-passage narrowing rule that narrows down only those that are determined to be located within the path as person image information is taken as one of the person narrowing rules.
  • the person narrowing-down rule is stored in the person narrowing-down rule database 13, that is, in the secondary storage device 104 in hardware.
  • the person image information is narrowed down based on the person rectangular height narrowing rule from the person image information and the person attribute information obtained in the person detecting step ST1. According to the narrowing-down rule, the person image information is narrowed down, and the narrowed-down person image information and the corresponding person attribute information are obtained.
  • mask image information for masking an area other than the set area is stored as an in-passage narrowing rule, and is masked by the in-passage narrowing rule in the person narrowing step ST2.
  • the person image information obtained by the person detection step ST1 in the selected area may not be extracted, and the person image information may be narrowed down by a person rectangle height narrowing rule for a set area that is not masked.
  • the video analysis apparatus 1 according to the second embodiment of the present invention is configured as described above.
  • the passage 6 is present in the monitoring space 5 with respect to the video analysis apparatus 1 according to the first embodiment, the person is narrowed down. Since the person image information is narrowed down by the unit 12 based on the in-passage narrowing rules, it is possible to more efficiently reduce the erroneous recognition of the person. As a result, there is an effect that the accuracy of narrowing down the person image information can be improved without extracting a sample of the target person to be detected for each different scene and causing the video analysis apparatus 1 to learn.
  • FIG. 3 A third embodiment of the present invention will be described with reference to FIGS.
  • the video analysis device 1 according to the third embodiment is obtained by adding a narrowing rule generation unit 17 to the video analysis device 1 shown in the first embodiment.
  • the other components are the same. 9 to 11, the same reference numerals as those shown in FIGS. 1 to 6 denote the same or corresponding parts.
  • the refinement rule generation unit 17 will be mainly described.
  • the refinement rule generation unit 17 generates a self-generated refinement rule based on the person's tracking result from the person tracking unit 14 and the attribute information of the person based on a set refinement criterion.
  • the person narrowing rule includes this self-generated narrowing rule.
  • the set narrowing criteria are: first, a person rectangle that appears as a person tracking result is a person rectangle that appears intermittently at random positions, except for false detection and false tracking; The person rectangle in which the person rectangle that appears as a result stays in the same position is excluded because it does not give useful information for generating a narrowing rule regardless of whether the person rectangle is erroneously detected or exists.
  • the number of persons appearing in the monitoring space per hour is a threshold value, for example, a time zone where two or less persons are extracted.
  • a threshold value for example, a time zone where two or less persons are extracted.
  • the tracking result extracted by such a procedure includes the result of person detection with high accuracy. That is, in a time zone in which the number of characters is equal to or less than a threshold value, that is, when there are few people in the video captured by the monitoring camera 2,
  • the number of persons is small and the associating accuracy is high. As a result, the accuracy of the person tracking result from the person tracking unit 14 is high.
  • the number of characters per hour may be the time of one frame of an image captured by the monitoring camera 2 or the time when a plurality of frames appear.
  • the geometrical relationship between the camera and the floor is calculated as described in the first embodiment, or on the screen on which the person is shown from the video taken by the camera.
  • a function for obtaining the height of the person rectangle for each height on the screen is calculated by a method of extracting the relationship between the height and the height of the rectangle, and a self-generated narrowing rule is obtained.
  • the person rectangle appearing As the result of tracking the person from the person tracking unit 14 in the time zone where the number of characters per time is equal to or less than the threshold, the person rectangle appearing intermittently at random positions and staying at the same position
  • a self-generated narrowing rule is generated based on the person rectangle excluding the person rectangle that is being processed, and is output to the person narrowing rule database 13.
  • the person refinement rule database 13 stores the self-generated refinement rule as one of the person refinement rules.
  • the generation of the self-generated narrowing rule may be performed for each frame, or the processing frequency may be lowered by collecting the daytime data and performing it at night.
  • the self-generated narrowing rule of the person narrowing rule is updated by the self-generated narrowing rule output from the narrowing-down rule generating unit 17. Based on the updated self-generated refinement rule, the person refinement unit 12 refines the person image information from the person image information and the person attribute information from the person detection unit 11.
  • the hardware configuration of the video analysis device 1 according to the third embodiment is the same as the configuration diagram shown in FIG. 5 and shows the processing flow of event recognition in the program shown in FIG.
  • the ROM 102 stores a program for executing the flowchart.
  • the flowchart shown in FIG. 10 includes a person detection step ST1, a person narrowing step ST2, a person tracking step ST3, an event determination step ST4, and a narrowing rule generation step ST21.
  • steps ST1 to ST4 and ST21 The relationship between steps ST1 to ST4 and ST21 and the person detection unit 11, person narrowing unit 12, person tracking unit 14, event determination unit 15, and narrowing rule generation unit 17 in the video analysis apparatus 1 shown in FIG. 9 is as follows. It has become. That is, the person detection step ST1 corresponds to a step executed by the person detection unit 11, the person narrowing step ST2 corresponds to a step executed by the person narrowing unit 12, and the person tracking step ST3 is a person tracking unit 14
  • the event determination step ST4 corresponds to a step executed by the event determination unit 15.
  • the refinement rule generation step ST21 corresponds to the refinement rule generation unit 17, generates a self-generated refinement rule based on the above criteria based on the person tracking result obtained in the person tracking step ST3, and generates the generated self-generated refinement.
  • the rule is reflected in the narrowing-down rule used in the person narrowing-down step ST2.
  • the program stored in the ROM 102 is stored in the computer constituting the hardware of the video analysis apparatus 1 with the person detection procedure shown as the person detection step ST1, the person narrowing procedure shown as the person narrowing step ST2, and the person tracking.
  • This is a program for executing the person tracking procedure indicated as step ST3, the event determination procedure indicated as event determination step ST4, and the refinement rule generation procedure indicated as refinement rule generation step ST21.
  • This program is read from the ROM 102 by the CPU 101 via the bus 107 and processed.
  • the person refinement rule stored in the secondary storage device 104 may be a person refinement rule that does not include a self-generated refinement rule as in the first embodiment as an initial state. It may be held.
  • the self-generated refinement rule is not described, but the self-generated refinement rule is updated in the same manner even when the self-generated refinement rule is stored in the video analysis apparatus 1 shown in the first embodiment.
  • the CPU 101 Upon receiving an instruction to start video analysis from the input device 105, the CPU 101 reads out a person detection procedure program from the ROM 102 and executes a person detection step ST1, and then the CPU 101 reads out a person narrowing procedure program from the ROM 102 and performs a person narrowing step ST2. Execute. At this time, since the self-generated narrowing rule is not stored as the person narrowing rule in the secondary storage device 104, the person image information detected in the person detecting step ST1 and the attribute information of the corresponding person are included in the self-generated narrowing rule. Not narrow down based on.
  • the CPU 101 reads a person tracking procedure program from the ROM 102 and executes a person tracking step ST3. After that, the CPU 101 reads out the narrowing rule generation procedure program from the ROM 102 and executes the narrowing rule generation step ST21. As a result, a self-generated refinement rule is generated based on the above-described criteria, and the generated self-generated refinement rule is stored in the secondary storage device 104 as one of the person refinement rules.
  • the next frame of the video imaged by the surveillance camera 2 is narrowed down based on the person narrowing down rule stored in the secondary storage device 104, and the person image information narrowed down and the person corresponding thereto are narrowed down. Attribute information can be obtained.
  • the accuracy of the self-generated narrowing-down rule of the person narrowing-down rule stored in the secondary storage device 104 is improved, and the accuracy of narrowing down the person image information is also increased.
  • the person tracking and the event determination are performed with the accuracy of narrowing down the person image information.
  • the video analysis device 1 according to the third embodiment of the present invention is configured as described above, and has the same effect as the video analysis device 1 according to the first embodiment.
  • a self-generated narrowing rule is generated as one of the narrowing rules, and the self-generated narrowing rule is used to narrow down the person image information. This further improves the accuracy of narrowing down the person image information and efficiently reduces human misrecognition. it can. As a result, there is an effect that the accuracy of narrowing down the person image information can be improved without extracting a sample of the target person to be detected for each different scene and causing the video analysis apparatus 1 to learn.
  • Embodiment 4 FIG. Next, a fourth embodiment of the present invention will be described.
  • the video analysis apparatus 1 according to the fourth embodiment has the same basic configuration as the video analysis apparatus 1 shown in the third embodiment, that is, the functional configuration diagram shown in FIG. 9 and the configuration diagram shown in FIG.
  • the basic configuration is the same.
  • the difference is that, as a person narrowing-down rule database 13 and, in terms of hardware, a person narrowing-down rule stored in the secondary storage device 104, when a passage further exists in the monitoring space and a person appears in the passage, Is added to the video analysis apparatus 1 shown in the third embodiment.
  • the passage information of the passage 6 obtained from the passage maps shown in FIGS. 7 and 8 is stored, the foot information of the person rectangle with respect to the person image information from the person detection unit 11 is compared with the passage information, and the comparison result
  • a person narrowing rule an in-passage narrowing rule for narrowing down only the information that the foot information of the person rectangle is determined to be located in the passage information as the person image information is added.
  • the in-passage narrowing rule of the person narrowing rule is stored in the person narrowing rule database 13 or the secondary storage device 104 in hardware.
  • the person image information and the person attribute information obtained in the person detecting step ST1 are narrowed down by the person rectangular height narrowing rule, and the in-passage narrowing rule.
  • the person image information is narrowed down, and further, the person image information is narrowed down by the self-generated narrowing rules that are generated by the narrowing rule generation step ST21 and sequentially updated. This is a step for obtaining attribute information.
  • the narrow-down rule generation unit 17 initializes the mask image, and sets the mask image information in which the area is not specified, for example, in a black paint state. Thereafter, the narrow-down rule generating unit 17 obtains the midpoint of the base for each person rectangle in the person tracking result from the person tracking unit 14 as the foot position, and for the mask image stored in the person narrowing rule database 13, Draw a white circle around the position. At this time, the radius of the circle may be a constant value or may be determined to be proportional to the size of the rectangle. Further, instead of a circle, another figure such as a rectangular shape may be drawn.
  • the white area on the mask image is defined as the passage area.
  • the mask image information in which the white area is defined as the passage area is stored in the person narrowing rule database 13 as a passage narrowing rule.
  • the number of times of drawing is added instead of drawing in white.
  • a method of adding 1 to the counter for each pixel to be drawn (frame) may be used.
  • the count for each pixel thus obtained is a value proportional to the appearance frequency of the person.
  • the product is multiplied by the reliability of the person detection result, and only the detection result exceeding a certain threshold is adopted as the detection result. This makes it possible to perform detection in consideration of the ease of appearance of a person by area.
  • the video analysis apparatus 1 according to the fourth embodiment of the present invention is configured as described above.
  • the passage 6 is in the monitoring space 5 with respect to the video analysis apparatus 1 according to the third embodiment, the person is narrowed down. Since the person image information is narrowed down by the unit 12 based on the in-passage narrowing rules, it is possible to more efficiently reduce the erroneous recognition of the person. As a result, there is an effect that the accuracy of narrowing down the person image information can be improved without extracting a sample of the target person to be detected for each different scene and causing the video analysis apparatus 1 to learn.
  • any combination of each embodiment, any component of each embodiment can be modified, or any component can be omitted in each embodiment. .
  • the video analysis apparatus analyzes video from surveillance cameras installed in commercial facilities, airports, stations, buildings, event venues, etc., tracks people, detects events, and is useful for crime prevention and marketing. It is applied to the video analysis device used.
  • the present invention is applied to a video analysis apparatus used for analyzing a video of a surveillance camera installed in a vehicle or the like, tracking a person, and detecting a suspicious behavior of a passenger.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Processing (AREA)

Abstract

監視カメラ(2)からの映像情報から人物画像を検出し、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報を得る人物検出部(11)と、人物検出部(11)によって得られた人物画像情報及び人物の属性情報を、人物絞り込みルールに基づき、人物画像情報を絞り込み、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得る人物絞り込み部(12)とを備える。

Description

映像解析装置、映像解析方法、及びプログラム
 この発明は、映像解析装置、映像解析方法及びプログラムに係り、特に、映像から人物の行動を認識する技術に関する。
 監視空間にて対象物としての人を監視カメラの監視画像によって検出、解析、追跡し、追跡結果に基づいて、不審人物を検出する技術として、特許文献1が知られている。
 特許文献1に示された技術は次のようなものである。すなわち、監視空間内に設置された監視カメラによって、監視空間を所定の時間間隔で撮影する。対象物を構成する複数の構成部分毎の立体形状を表す部分モデルと、それら部分モデル相互の配置関係とを記述したデータである対象物モデルを記憶させる。記憶された対象物モデルを撮影された監視空間の候補位置に所定の姿勢で仮想的に配置する。対象物モデルを投影条件に基づいて透視投影して、部分モデルが投影される部分モデル可視領域を部分モデル毎に求める。撮影された監視空間の監視画像から部分モデル可視領域に対応する部分を対象物の構成部分画像として抽出する。構成部分画像の所定の画像特徴から対象物の存在を判定する。
特開2010-2976号公報
 特許文献1に示された従来の技術では、監視空間内を撮影した監視カメラの監視画像に対して、複数の構成部分毎の立体形状を表す部分モデルを有する対象物モデルを用いて監視画像中における人の検出及び追跡の精度の向上を可能としている。
 しかし、所定の時間間隔で撮影した監視カメラの監視画像(シーン)によっては人物検出の精度が下がってしまうため、対象物モデルの精度を高める必要があり、適用先のシーンにおいて検出したい対象のサンプルを収集し、対象物モデルを更新するなどの必要があった。
 この発明は上記した課題を解決するもので、監視カメラからの映像情報から人物の行動を認識する新たな映像解析装置を得ることを目的とする。
 この発明に係る映像解析装置は、監視カメラからの映像情報から人物画像を検出し、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報を得る人物検出部と、この人物検出部によって得られた人物画像情報及び人物の属性情報を、人物絞り込みルールに基づき、人物画像情報を絞り込み、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得る人物絞り込み部とを備える。
 この発明によれば、監視カメラからの映像情報から検出された人物画像情報を、人物絞り込み部により絞り込むので、人物の誤認識を効率的に削減できる。
この発明の実施の形態1に係る映像解析装置1を備えた映像解析システムを示すブロック図である。 この発明の実施の形態1に係る映像解析装置1を示す機能構成図である。 ピンホールカメラを床面と平行に設置した際の人物が画面に映る様子を説明する図である。 実際に床面に対し平行よりやや見下ろす角度で監視カメラ2を設置した際、画面の高さに対する人物矩形の大きさの関係をプロットした図である この発明の実施の形態1に係る映像解析装置1のハードウェア構成を示す構成図である。 この発明の実施の形態1に係る映像解析装置1におけるイベント認識の処理フローを示すフローチャートである。 この発明の実施の形態2に係る映像解析装置1において、監視カメラ2が監視空間5における通路6の通行方向に直角、かつ仰角浅めに撮影した場合に得られる通路マップを示す図である。 この発明の実施の形態2に係る映像解析装置1において、監視カメラ2を監視空間5における通路6の通行方向正面から撮影した場合に得られる通路マップを示す図である。 この発明の実施の形態3に係る映像解析装置1を示す機能構成図である。 この発明の実施の形態3に係る映像解析装置1におけるイベント認識の処理フローを示すフローチャートである。
 以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 この発明の実施の形態1について、図1から図6を用いて説明する。
 まず、最初に、この発明の実施の形態1に係る映像解析装置1を備えた映像解析システムについて図1を用いて説明する。
 撮像装置2a~2cはそれぞれ対応した監視空間内を撮影する。この実施の形態1では撮像装置2a~2cは監視カメラで有り、以下、総称して監視カメラ2と称す。
 監視カメラ2によって撮像された映像情報はネットワーク3を介して送信される。映像解析装置1は、ネットワーク3を介して受信した映像情報を基にオブジェクト(人物など)を検出し、追跡する。映像解析装置1は、見え方(画像、空間方向)に関するルールと、動き(時間方向)に関するルールを組み合わせて行動を認識し、特に、不審行動、いわゆる逸脱行動を判定し、追跡する。不審行動の判定に際しては、不審者を特定する手掛かりとなる不審行動を定義することで不審者の検知につなげる。例えば、特急車両での検札の際に、乗客の動き検知(オプティカルフロー)と車掌の認識(CNN(Convolutional Neural Network))を組み合わせ、「車掌が入室したタイミングで席を立ち、避けるように退室する乗客」を不審乗客として検出する。このような不審行動の検出は例えばキセル乗車をしているような乗客の認識に繋がる。
 表示装置4はディスプレイなどによって構成され、映像解析装置1にて受信した映像情報、映像解析装置1による検出結果及び追跡結果、検出結果及び追跡結果に基づくイベントの判定結果などを表示する。
 なお、ネットワーク3は有線又は無線などの形態である。
 また、映像解析装置1は、ネットワーク3を介して監視カメラ2の映像情報を受信するものを示したが、これに限るものではなく、監視カメラ2の映像情報をビデオに読み込み、ビデオに読み込まれた監視カメラ2の映像情報を入力するものでも良い。
 次に、この発明の実施の形態1に係る映像解析装置1を、図2に示す機能構成図を用いて説明する。
 人物検出部11は、ネットワーク3を介して受信、つまり入力した監視カメラ2からの映像情報から人物画像を検出する。この検出は、見え方(画像、空間方向)に関するルールに基づくものであり、例えばCNN(Convolutional Neural Network)をベースにした機械学習の技術により実現される。
 人物画像の検出結果は、人物画像の矩形情報、検出結果の信頼度、判定に使った特徴マップなどの中間生成物などの人物画像情報として出力される。
 人物画像の検出に際し、属性判定も同時に行なわれる。属性判定としては、性別、年齢、表情、服装などを推定することにより行なわれる。例えば、車両では車掌を、ビルにおいては警備員を、高齢者及び白杖を持っている人(視覚障害者)を、係員などを認識、つまり人物の属性を認識する。
 この人物の属性の認識結果も、人物画像情報とともに人物の属性情報として得られる。
 人物絞り込み部12は、人物検出部11にて得られた人物画像情報及び人物の属性情報を、絞り込みルールデータベース(DB)13に記憶された人物絞り込みルールに基づき、人物画像情報を絞り込む。絞りこまれた人物画像情報には、それに対応した人物の属性情報も付加される。
 人物絞り込み部12は、シーン、つまり、監視カメラ2にて撮像された一画像(フレーム)において、監視空間の床面と監視カメラ2の幾何的関係に基づき計算された人物矩形高さ絞り込みルールを用いて、矩形の高さにより、人物矩形候補をスクリーニングする。絞り込みルールデータベース(DB)13に記憶された人物絞り込みルールは、この人物矩形高さ絞り込みルールを含む。
 監視空間の床面と監視カメラ2の幾何的関係に基づき計算された人物矩形高さ絞り込みルールの生成、つまり、矩形の高さによる人物矩形候補の選定について、例えば、ピンホールカメラを床面と平行に設置した際、人物が画面に映る様子を説明する図3を用いて説明する。
 図3において、Hは全身が映っている場合の人物の高さ、hはピンホールカメラに撮像された投射面における人物画像の大きさ、Z1はピンホールカメラから人物画像までの奥行き、Z2はピンホールカメラから投影面までの距離である。
 投射面における人物の大きさhは次式(1)にて現せる。
   h=H*Z2/Z1                    (1)
 この式(1)から理解されるように、人物の高さH及びピンホールカメラから投影面までの距離Z2を固定して考えれば、人物画像の大きさhは人物までの奥行きZ1に反比例する。
 投射面に撮像された人物画像と人物が平行でない場合、言い換えれば、ピンホールカメラの設置が、床面に対して平行に設置されていない場合でも、3次元幾何を用いて人物画像の大きさhと人物までの奥行きZ1の関係を数式で表すことができる。
 この場合、2つの条件が必要である。第1に、ピンホールカメラの内部行列を求めるため、実世界上の座標の相対関係が判っているパターン、例えばチェスボードなどをピンホールカメラにて複数撮影し、撮影した画像からの対応点の抽出である。第2に、ピンホールカメラと床面の幾何関係(外部行列)を計算するため、床面の複数点、具体的には3つ以上の点と画面上の対応点との関係を求めることである。
 このような事前準備はピンホールカメラ設置時に行うことができない場合もある。このような場合、画面上の高さを入力とし人物矩形の高さを出力する関数を近似的に求める方法がある。具体的には非線形でも直線でもよく、区分線形で求めることもできる。これらの関数のパラメータは、例えば、カメラにて撮影された映像から人物の映っている画面上の高さと矩形の高さを抽出し、データから最小二乗法を用いて決定するなどである。
 すなわち、カメラにて撮影された映像から人物の映っている画面上の高さと矩形の高さの関係を抽出する方法である。
 このようにして求める方法を、図4を用いて説明する。図4は、床面に対し平行よりやや見下ろす角度でカメラを設置した際、画面の高さごとの人物矩形の高さの関係をプロットしたものである。横軸に画面上の人物画像の高さを、縦軸に人物矩形の高さを示し、○印は推定値を、*印は実測値を示す。
 図4は、一つの例として、身長170cmの人物に関する画面の高さと人物矩形の高さとの関係を示している。このようにして求めた画面の高さと人物矩形の高さとの関係から、人物の身長について誤差の上限と下限を設定することで受容する画面上の矩形高さ範囲を設定する。例えば、画面の高さごとに求められた人物矩形の高さの上限及び下限を20%までを許容すれば、画面上の各高さにおいてデータを170cmの人物でとっていた場合には136cm~204cmまでの人物を検出範囲としていることになる。
 図4に示した例では、身長170cmの場合であるが、身長160cm、身長180cmなども同様にして検出範囲を求めることができる。
 また、画面の高さと人物矩形の高さの関係について、実際に測定した結果を用いてもよく、また、図4からも理解されるように実測値と推定値がほぼ一致していることから、画面の高さ位置ごとに身長を設定し、推定値によって決定しても良い。
 画面の高さに対し人物矩形の高さが一通りに決まるような決め方でなく、画面上の人物画像の高さごとに人物矩形の高さを分布、例えば、正規分布として表現し、分布そのもの又はその分布を表すパラメータを求めるのでもよい。
 このようにして求められた関数を用いて、例えば、一つの例として、170cmの人物に対して画面の高さ毎に求められた人物矩形の高さの上限及び下限を20%までを許容するようにする。
 すなわち、人物絞り込みルールデータベース13に保管される人物矩形高さ絞り込みルールの一つとして、人物絞り込み部12によって身長170cmの人物を絞り込む場合、身長136cm~204cmまでの人物を検出範囲とし、人物矩形の高さの検出範囲を、身長136cm~204cmまでの検出範囲に対応させる。
 このようにして求められた人物矩形の高さの検出範囲は、人物矩形高さ絞り込みルールの一つとして人物絞り込みルールデータベース13の人物絞り込みルールとして保管される。
 この検出範囲は人物矩形の高さの値として直接扱っているものを説明したが、分布の場合は積分値の上限値及び下限値を20%まで許容するように設定してもよい。
 人物絞り込みルールデータベース13に保管された人物矩形高さ絞り込みルールである人物矩形の高さの検出範囲に基づいて、人物絞り込み部12は、シーン毎に人物検出部11からの人物画像情報を絞り込む。
 このように、人物矩形高さ絞り込みルールである身長に対して上限値及び下限値を20%まで許容するとの身長に対する上限値及び下限値を設定した人物矩形の高さにより、人物絞り込み部12により人物画像情報を絞り込む、言い換えれば、上限値及び下限値が設定された人物矩形の高さの範囲から外れた人物矩形を誤認識として抑制するようにしたので、異なったシーン毎に検出したい対象人物のサンプルを抽出して映像解析装置1に学習させることをせずとも、人物画像情報の絞り込みの精度を向上できる。
 人物追跡部14は、人物絞り込み部12により絞り込まれた人物画像情報及びそれに対応した人物の属性情報に基づき、絞り込まれた人物画像をシーン毎に追跡する。追跡結果を人物の属性情報とともに得る。
 追跡結果は、以下のようにして得る。すなわち、一シーンである監視カメラ2にて撮像された一画像(フレーム)毎に、現フレームと前フレームの人物矩形の間の二部グラフのマッチング問題と捉え、グラフ問題として解くことにより対応付けを行う。
 このように、検出された人物矩形を基に対応付け問題として人物追跡を行う枠組みはtracking-by-detectionと呼ばれ、カルマンフィルター及び人物ごとの追跡器を学習する方式に比べた時、多人数が登場し互いにすれ違うような複雑なシナリオでもより頑健に処理が可能という利点がある。
 また、人物追跡部14は、オプティカルフローを用いて現フレームと前フレームの人物矩形の動きをベクトルで表した動きベクトル情報を出力する。
 動きベクトル情報を用いることにより、例えば、イベント会場では客の離着席、通路の移動などが動きとして検出可能であり、ビル及び商業施設では利用者の動きが検出可能である。また、物を持つ、手を挙げるなどの要素行動も認識可能である。
 イベント判定部15は、人物追跡部14からの人物の追跡結果とその人物の属性情報を基にイベント検出を行う。人物追跡部14からの人物の追跡結果は、人物追跡部14にて用いられた人物矩形がどう推移したかの軌跡を示す軌跡情報であり、また、人物矩形の動きをベクトルで表した動きベクトル情報である。
 イベント判定部15の判定の一例として、監視空間内に危険領域(床面)が存在し、人物が危険領域に足を踏み入れたか否かを判定する場合を説明する。この場合、イベント判定用データベース16に危険領域の情報が保管されている。人物絞り込み部12にて絞り込まれた人物画像情報に対応する人物追跡部14からの人物の追跡結果である人物矩形の足元(底辺の中点)が、イベント判定用データベース16に保管された危険領域の中に含まれるかどうかで判定を行う。なお、危険領域の情報をイベント判定用データベース16に保管する場合を説明したが、表示装置4に示された監視カメラ2にて撮像された画像上を指定することにより危険領域を現しても良い。
 また、イベント判定部15にて、例えば高齢者を指定し、指定された高齢者の情報と、人物追跡部14からの人物の追跡結果とその人物の属性情報とを比較、判定し、高齢者の抽出を行なうこともできる。
 なお、指定する高齢者の情報はイベント判定用データベース16に保管された情報であっても良い。
 さらに、イベント判定部15では、人物追跡部14からの複数の人物の追跡結果を組み合わせ、判定する。例えば、係員を指定し、指定された係員の情報と、人物追跡部14からの人物の追跡結果とその人物の属性情報とを比較、判定し、係員の抽出を行なう。併せて、人物追跡部14からの人物の追跡結果とその人物の属性情報から人物を特定する。指定した係員が監視カメラ2にて撮像された画像に現れたことをイベント判定部15が認識した後、監視カメラ2にて撮像された画像から、特定された人物が逃げるように移動を開始したとイベント判定部15が認識した場合、特定された人物を不審人物と判定し、出力する。「車掌が入室したタイミングで席を立ち、避けるように退室する乗客」を不審乗客として検出することが可能である。
 この場合、イベント判定用データベース16に、係員の情報、係員の情報と人物追跡部14からの人物矩形の軌跡情報との関係などルールを記憶しておく。
 イベント判定部15にて判定された判定情報、危険領域への立ち入りの有無、高齢者の有無、不振人物の有無などの情報は、監視カメラ2によって撮像された映像情報とともに表示装置4に出力されることになる。
 次に、図2に示した映像解析装置1のハードウェア構成を、図5及び図6を用いて説明する。
 映像解析装置1は図5に示したように、CPU101と、ROM102と、RAM103と、及びHDDなどの二次記憶装置104と、入力装置105と、出力装置106と、これら装置101から106間を接続するバス107を備える。
 CPU101は、ROM102又はRAM103に記録されたプログラムを読み込み、処理を実行する。
 ROM102は不揮発性メモリであり、プログラム及びシステムの起動に必要な処理を記録する。
 この実施の形態1では、図6に示す、映像解析装置1におけるイベント認識の処理フローを示すフローチャートを実行するプログラムを記憶している。
 図6に示すフローチャートは、人物検出ステップST1と、人物絞り込みステップST2と、人物追跡ステップST3と、イベント判定ステップST4により構成される。
 ステップST1からステップST4と図2に示した映像解析装置1における人物検出部11、人物絞り込み部12、人物追跡部14、イベント判定部15との関係は次のようになっている。
 すなわち、人物検出ステップST1は、人物検出部11によって実行されるステップに相当し、監視カメラ2からの映像情報から人物画像を、例えばCNNをベースにした機械学習の技術により、見え方(画像、空間方向)に関するルールに基づき検出し、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報を得るステップである。
 人物絞り込みステップST2は、人物絞り込み部12によって実行されるステップに相当し、人物検出ステップST1によって得られた人物画像情報及び人物の属性情報を受け、人物絞り込みルールに基づき、人物画像情報を絞り込み、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得るステップである。この時の人物絞り込みルールは、絞り込む人物の身長に対して、上限値と下限値とを設定し、上限値から下限値に相当する人物矩形の高さの検出範囲である人物矩形高さ絞り込みルールを含み、二次記憶装置104に記憶される。
 人物追跡ステップST3は、人物追跡部14によって実行されるステップに相当し、人物絞り込みステップST2によって絞り込まれた人物画像情報及びそれに対応した人物の属性情報を、シーン毎に追跡し、追跡結果と追跡結果の対象となった人物の属性情報を得るステップである。この時の追跡結果は、人物矩形がどう推移したかの軌跡を示す軌跡情報であり、また、人物矩形の動きをベクトルで表した動きベクトル情報である。
 イベント判定ステップST4は、イベント判定部15によって実行されるステップに相当し、人物追跡ステップST3によって得られた人物の追跡結果とその人物の属性情報を基にイベントの検出を行うステップである。この時のイベントの検出は、人物の動きの有無、例えば危険領域への侵入の有無の判定、指定した人物の有無の判定、不審人物の有無の判定などの判定を行なっての検出である。
 要するに、ROM102に格納されているプログラムは、映像解析装置1のハードウェアを構成するコンピュータに、人物検出ステップST1として示した人物検出手順と、人物絞り込みステップST2として示した人物絞り込み手順と、人物追跡ステップST3として示した人物追跡手順と、イベント判定ステップST4として示したイベント判定手順を実行させるためのプログラムである。このプログラムは、CPU101によりバス107を介してROM102から読み出され、処理が実行される。
 RAM103は揮発性メモリであり、イベント判定ステップST4によるイベントの認識、検出の際に生成される特徴マップ及び監視カメラ2によって撮像された映像情報などの一時データを、CPU101の管理の下、保管され、CPU101によりバス107を介して読み出され、処理が実行される。特徴マップとしては、上記した人物矩形の高さの検出範囲、危険領域の情報、指定する人物の属性情報、人物矩形の軌跡情報などである。
 二次記憶装置104はハードディスクドライブなどの記憶装置であり、監視カメラ2によって撮像された映像情報及びプログラムの設定情報などを記録する。記憶された情報はCPU101によりバス107を介して読み出され、処理が実行される。
 入力装置105はユーザからの入力を受け付けるキーボード及びマウスなどの装置であり、入力された情報はバス107を介してCPU101に通知される。
 出力装置106は結果を出力する装置で、バス107を介して得たCPU101による処理結果を表示装置4に描画するために出力し、また、他の装置に結果ファイルとして転送するためにCPU101による処理結果を出力する。
 次に、このように構成された映像解析装置1の動作について説明する。監視カメラ2にて撮像された映像情報を直接解析する場合も、監視カメラ2にて撮像された映像情報を一旦、二次記憶装置104に格納し、二次記憶装置104に記憶された映像情報を解析する場合も動作として同じである。
 まず、入力装置105から映像解析開始の指示を受けると、CPU101はROM102から人物検出手順のプログラムを読み出し、人物検出ステップST1を実行する。
 その結果、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報が得られる。
 次のステップとして、CPU101はROM102から人物絞り込み手順のプログラムを読み出し、人物絞り込みステップST2を実行する。この時、二次記憶装置104に記憶された人物絞り込みルールにおける人物矩形高さ絞り込みルールである人物矩形の高さの検出範囲がCPU101に読み出され、人物画像の検出結果としての人物画像情報が絞りこまれ、絞りこまれた人物画像情報及びそれに対応した人物の属性情報が得られる。
 そして、CPU101はROM102から人物追跡手順のプログラムを読み出し、人物追跡ステップST3を実行する。
 その結果、絞り込まれた人物画像情報及びそれに対応した人物の属性情報を、シーン毎に追跡し、追跡結果と追跡結果の対象となった人物の属性情報が得られる。
 最後に、CPU101はROM102からイベント判定手順のプログラムを読み出し、イベント判定ステップST4を実行する。
 この時、入力装置105によるイベントの指示情報に基づき、指示情報に沿った処理がCPU101によって行なわれる。例えば、人物の動きの有無、例えば危険領域への侵入の有無、指定した人物の有無、不審人物の有無などの指示情報に基づき、指示情報に基づいた判定を行い、イベントの検出結果が出力装置106を介して出力される。
 出力された結果は、表示装置4に表示され、ユーザに認識されることになる。
 この発明の実施の形態1に係る映像解析装置1は、上記のように構成されており、特に、人物検出部11が見え方(画像,空間方向)に関するルールに基づき検出し、イベント判定部15が動き(時間方向)に関するルールに基づき判定しているため、人物の認識精度が高められる。
 さらに、人物絞り込み部12によって人物絞り込みルールの人物矩形高さ絞り込みルールに基づき、人物画像情報を絞り込むので、人物の誤認識を効率的に削減できる。その結果、異なったシーン毎に検出したい対象人物のサンプルを抽出して映像解析装置1に学習させることをせずとも、人物画像情報の絞り込みの精度を向上できるという効果がある。
実施の形態2.
 次のこの発明の実施の形態2について説明する。
 実施の形態2に係る映像解析装置1は、実施の形態1にて示した映像解析装置1と基本的構成が同じ、つまり、図2に示した機能構成図及び図5に示した構成図と基本的構成が同じである。相違する点は、人物絞り込みルールデータベース13、ハード的には二次記憶装置104に記憶される人物絞り込みルールとして、さらに、監視空間内に通路が存在し、通路内に人物が現れた場合に人物を検出する通路内絞り込みルールを、実施の形態1にて示した映像解析装置1に追加したものである。
 すなわち、図7は、監視空間5内に通路6があり、監視カメラ2の設置角度が通路6の通行方向に直角に、かつ仰角浅めに撮影した通路マップであり、図8は監視カメラ2の設置角度が通路6の通行方向正面から撮影した通路マップである。
 これら通路マップから得られる通路6の通路情報を記憶させるとともに、人物検出部11からの人物画像情報に対する人物矩形の足元情報と通路情報とを比較し、比較結果として人物矩形の足元情報が通路情報内に位置すると判定したものだけを人物画像情報として絞り込む通路内絞り込みルールを人物絞り込みルールの一つとする。
 この人物絞り込みルールは、人物絞り込みルールデータベース13、ハード的には二次記憶装置104に記憶される。
 また、図6に示した人物絞り込みステップST2は、人物検出ステップST1によって得られた人物画像情報及び人物の属性情報を、人物矩形高さ絞り込みルールにより、人物画像情報が絞り込まれ、さらに、通路内絞り込みルールにより、人物画像情報が絞り込まれ、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得るステップとなる。
 なお、人物がよく通る領域を通路6として設定し、設定した領域以外の領域をマスクするマスク画像情報を通路内絞り込みルールとして記憶させ、人物絞り込みステップST2において、この通路内絞り込みルールにより、マスクされた領域における人物検出ステップST1によって得られた人物画像情報を抽出せず、マスクされていない設定した領域に対して、人物矩形高さ絞り込みルールにより、人物画像情報が絞り込まれるものでも良い。
 この発明の実施の形態2に係る映像解析装置1は、上記のように構成されており、実施の形態1に係る映像解析装置1に対し、監視空間5内に通路6がある場合、人物絞り込み部12によって通路内絞り込みルールに基づき、人物画像情報を絞り込むので、人物の誤認識をさらに効率的に削減できる。その結果、異なったシーン毎に検出したい対象人物のサンプルを抽出して映像解析装置1に学習させることをせずとも、人物画像情報の絞り込みの精度を向上できるという効果がある。
実施の形態3.
 この発明の実施の形態3について、図9から図11を用いて説明する。実施の形態3に係る映像解析装置1は、実施の形態1にて示した映像解析装置1に対して絞り込みルール生成部17を追加したものである。その他の構成要素については同じである。
 なお、図9から図11において、図1から図6に示された符号と同一符号は同一又は相当部分を示す。
 以下、絞り込みルール生成部17を中心に説明する。
 絞り込みルール生成部17は、人物追跡部14からの人物の追跡結果とその人物の属性情報を、設定された絞り込み基準により、自己生成絞り込みルールを生成する。人物絞り込みルールはこの自己生成絞り込みルールを含むことになる。
 設定された絞り込み基準は、第1に、人物の追跡結果として現れた人物矩形がランダムな位置に断続的に登場する人物矩形であると誤検出、誤追跡として除き、第2に、人物の追跡結果として現れた人物矩形が同じ位置に滞留している人物矩形を、この人物矩形が誤検出であるか人物が存在するかに係らず、絞り込みルール生成に有用な情報を与えないため除く。
 さらに、時間当たりの監視空間内に現れる人物の数、いわゆる登場人物数が閾値、例えば2人以下の時間帯を抽出する。混雑していない時間帯は矩形の対応付けの候補が少なく、このような手順で抽出した追跡結果は人物検出の結果が精度よく含まれていると考えられる。
 すなわち、登場人物数が閾値以下の時間帯、つまり、監視カメラ2にて撮像された映像に人物が少ない場合、人物絞り込み部12にて用いる人物の矩形情報に対する、対応付けの候補としての映像における人物が少なく、対応付け精度が高くなり、結果として、人物追跡部14からの人物の追跡結果の精度が高くなる。
 時間当たりの登場人物数の時間当たりは、監視カメラ2にて撮像された画像の一フレームの時間でもよいし、複数のフレームが現れる時間でも良い。
 このようにして集めた人物追跡結果から、実施の形態1にて説明したと同様にカメラと床面との幾何関係の計算、又はカメラにて撮影された映像から人物の映っている画面上の高さと矩形の高さの関係を抽出する方法で画面上の高さごとの人物矩形の高さを求める関数を計算し、自己生成絞り込みルールとする。
 要するに、時間当たりの登場人物数が閾値以下の時間帯に、人物追跡部14からの人物の追跡結果として現れた人物矩形の内、ランダムな位置に断続的に登場する人物矩形及び同じ位置に滞留している人物矩形を除いた人物矩形に基づき自己生成絞り込みルールを生成し、人物絞り込みルールデータベース13に出力する。人物絞り込みルールデータベース13は自己生成絞り込みルールを人物絞り込みルールの一つとして記憶する。
 この自己生成絞り込みルールの生成は、フレームごとに実施してもよいし、日中データを取りためておいて夜間に実施するなど、処理頻度を下げてもよい。
 人物絞り込みルールデータベース13では、絞り込みルール生成部17から出力された自己生成絞り込みルールにより、人物絞り込みルールの自己生成絞り込みルールが更新される。この更新された自己生成絞り込みルールにより、人物絞り込み部12は、人物検出部11からの人物画像情報及び人物の属性情報から、人物画像情報を絞り込む。
 この実施の形態3に係る映像解析装置1のハードウェア構成は、図5に示した構成図と同様であり、図10に示すプログラム、さまり、映像解析装置1におけるイベント認識の処理フローを示すフローチャートを実行するプログラムを、ROM102が記憶している。
 図10に示すフローチャートは、人物検出ステップST1と、人物絞り込みステップST2と、人物追跡ステップST3と、イベント判定ステップST4、絞り込みルール生成ステップST21により構成される。
 ステップST1からステップST4及びST21と図9に示した映像解析装置1における人物検出部11、人物絞り込み部12、人物追跡部14、イベント判定部15、絞り込みルール生成部17との関係は次のようになっている。
 すなわち、人物検出ステップST1は、人物検出部11によって実行されるステップに相当し、人物絞り込みステップST2は、人物絞り込み部12によって実行されるステップに相当し、人物追跡ステップST3は、人物追跡部14によって実行されるステップに相当し、イベント判定ステップST4は、イベント判定部15によって実行されるステップに相当する。
 絞り込みルール生成ステップST21は、絞り込みルール生成部17に相当し、人物追跡ステップST3によって得られた人物の追跡結果を基に、上記した基準に基づき自己生成絞り込みルールを生成し、生成した自己生成絞り込みルールを人物絞り込みステップST2で利用する絞り込みルールに反映する。
 また、ROM102に格納されているプログラムは、映像解析装置1のハードウェアを構成するコンピュータに、人物検出ステップST1として示した人物検出手順と、人物絞り込みステップST2として示した人物絞り込み手順と、人物追跡ステップST3として示した人物追跡手順と、イベント判定ステップST4として示したイベント判定手順と、絞り込みルール生成ステップST21として示した絞り込みルール生成手順を実行させるためのプログラムである。このプログラムは、CPU101によりバス107を介してROM102から読み出され、処理が実行される。
 次に、このように構成された映像解析装置1の動作について説明する。
 二次記憶装置104に記憶される人物絞り込みルールは、初期状態として実施の形態1に示したと同様に自己生成絞り込みルールを含まない人物絞り込みルールでもよく、また、人物絞り込みルールに自己生成絞り込みルールを持たせた状態でも良い。
 以下、自己生成絞り込みルールを持たない状態で説明するが、実施の形態1に示した映像解析装置1に自己生成絞り込みルールを記憶された状態からでも同様にして自己生成絞り込みルールは更新される。
 入力装置105から映像解析開始の指示を受けると、CPU101はROM102から人物検出手順のプログラムを読み出し、人物検出ステップST1を実行したのち、CPU101はROM102から人物絞り込み手順のプログラムを読み出し、人物絞り込みステップST2を実行する。この時、二次記憶装置104に人物絞り込みルールとして自己生成絞り込みルールが記憶されていないので、人物検出ステップST1にて検出された人物画像情報及びそれに対応した人物の属性情報が自己生成絞り込みルールに基づいて絞りこまれない。
 そして、CPU101はROM102から人物追跡手順のプログラムを読み出し、人物追跡ステップST3を実行する。
 その後、CPU101はROM102から絞り込みルール生成手順のプログラムを読み出し、絞り込みルール生成ステップST21を実行する。
 その結果、上記した基準に基づき自己生成絞り込みルールが生成され、生成された自己生成絞り込みルールを二次記憶装置104に人物絞り込みルールの一つとして記憶される。
 監視カメラ2にて撮像された映像の次のフレームは、二次記憶装置104に記憶された人物絞り込みルールに基づき、人物画像情報が絞りこまれ、絞りこまれた人物画像情報及びそれに対応した人物の属性情報が得られる。
 このような処理が繰り返されることにより、二次記憶装置104に記憶される人物絞り込みルールの自己生成絞り込みルールは精度が向上し、人物画像情報の絞り込みの精度も高まる。
 人物画像情報の絞り込みの精度が高まった状態で、人物追跡及びイベントの判定が行なわれることになる。
 この発明の実施の形態3に係る映像解析装置1は、上記のように構成されており、実施の形態1に係る映像解析装置1と同様の効果を奏する他、絞り込みルール生成部17にて人物絞り込みルールの一つとして自己生成絞り込みルールが生成され、人物画像情報の絞り込みに自己生成絞り込みルールが用いられるので、人物画像情報の絞り込みの精度がさらに向上し、人物の誤認識を効率的に削減できる。その結果、異なったシーン毎に検出したい対象人物のサンプルを抽出して映像解析装置1に学習させることをせずとも、人物画像情報の絞り込みの精度を向上できるという効果がある。
実施の形態4.
 次に、この発明の実施の形態4について説明する。
 実施の形態4に係る映像解析装置1は、実施の形態3にて示した映像解析装置1と基本的構成が同じ、つまり、図9に示した機能構成図及び図5に示した構成図と基本的構成が同じである。相違する点は、人物絞り込みルールデータベース13、ハード的には二次記憶装置104に記憶される人物絞り込みルールとして、さらに、監視空間内に通路が存在し、通路内に人物が現れた場合に人物を検出する通路内絞り込みルールを、実施の形態3にて示した映像解析装置1に追加したものである。
 すなわち、図7及び図8に示した通路マップから得られる通路6の通路情報を記憶させるとともに、人物検出部11からの人物画像情報に対する人物矩形の足元情報と通路情報とを比較し、比較結果として人物矩形の足元情報が通路情報内に位置すると判定したものだけを人物画像情報として絞り込む通路内絞り込みルールを人物絞り込みルールの一つとして追加する。
 この人物絞り込みルールの通路内絞り込みルールは、人物絞り込みルールデータベース13、ハード的には二次記憶装置104に記憶される。
 また、図10に示した人物絞り込みステップST2は、人物検出ステップST1によって得られた人物画像情報及び人物の属性情報を、人物矩形高さ絞り込みルールにより、人物画像情報が絞り込まれ、通路内絞り込みルールにより、人物画像情報が絞り込まれ、さらに、絞り込みルール生成ステップST21によって生成され、順次更新される自己生成絞り込みルールにより、人物画像情報が絞り込まれ、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得るステップとなる。
 上記した実施の形態4では、通路内絞り込みルールとして図7及び図8に示した通路マップから得られる通路6の通路情報を記憶させることによって行なったものを示したが、絞り込みルール生成部17によって通路内絞り込みルールを作成するものであっても良い。
 すなわち、通路領域以外をマスクするマスク画像を生成し、このマスク画像を通路内絞り込みルールとする。
 まず、絞り込みルール生成部17にてマスク画像を初期化し、領域指定がされていない、例えば黒塗り状態とするマスク画像情報とする。
 その後、絞り込みルール生成部17は、人物追跡部14からの人物の追跡結果における人物矩形ごとに底辺の中点を足元位置として求め、人物絞り込みルールデータベース13に記憶されたマスク画像に対して、足元位置を中心に白の円を描く。この時、円の半径は一定の値でもよいし、矩形の大きさに比例するように決めてもよい。また、円でなくてほかの図形、例えば矩形の形を描いてもよい。人物の追跡結果における人物矩形のすべてについて、白の図形の描画を終えた時、マスク画像上の白い領域を通路領域と定義する。このようにして求め、白い領域を通路領域として定義したマスク画像情報を通路内絞り込みルールとして人物絞り込みルールデータベース13に記憶させる。
 なお、円の描画において、白色で描画するのではなく、描画された回数を加算する。具体的には描画対象(フレーム)の画素ごとにカウンタに1加算する方式でもよい。このようにして求めた画素ごとのカウントは人物の登場頻度に比例した値になっており、例えば人物検出結果の信頼度と積を取り、ある一定の閾値を超えたもののみ検出結果として採用することで領域による人物の登場しやすさを考慮した検出ができる。
 この発明の実施の形態4に係る映像解析装置1は、上記のように構成されており、実施の形態3に係る映像解析装置1に対し、監視空間5内に通路6がある場合、人物絞り込み部12によって通路内絞り込みルールに基づき、人物画像情報を絞り込むので、人物の誤認識をさらに効率的に削減できる。その結果、異なったシーン毎に検出したい対象人物のサンプルを抽出して映像解析装置1に学習させることをせずとも、人物画像情報の絞り込みの精度を向上できるという効果がある。
 なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 この発明に係る映像解析装置は、商業施設、空港、駅、ビル、イベント会場などに設置された監視カメラの映像を解析し、人物を追跡し、イベントを検出し、防犯及びマーケティングに役立てるために使用する映像解析装置に適用される。車両などに設置された監視カメラの映像を解析し、人物を追跡し、乗客の不審行動の検出のために使用する映像解析装置に適用される。
 1 映像解析装置、11 人物検出部、12 人物絞り込み部、13 人物絞り込みルールデータベース、14 人物追跡部、15 イベント判定部、17 絞り込みルール生成部、101 CPU、102 ROM、103 RAM、104 二次記憶装置、ST1 人物検出ステップ、ST2 人物絞り込みステップ、ST3 人物追跡ステップ、ST4 イベント判定ステップ、ST21 絞り込みルール生成ステップ。

Claims (16)

  1.  監視カメラからの映像情報から人物画像を検出し、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報を得る人物検出部と、
     前記人物検出部によって得られた人物画像情報及び人物の属性情報を、人物絞り込みルールに基づき、人物画像情報の絞り込みを行い、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得る人物絞り込み部と、
     を備えた映像解析装置。
  2.  前記人物絞り込みルールは、人物の身長に対応して上限値及び下限値が設定された人物矩形の高さの検出範囲から外れた人物矩形を誤認識として抑制する人物矩形高さ絞り込みルールを含むことを特徴とする請求項1記載の映像解析装置。
  3.  前記人物絞り込みルールは、人物矩形の足元情報が前記監視カメラによる監視空間の通路情報内に位置すると判定したものに絞り込む通路内絞り込みルールを含むことを特徴とする請求項1又は請求項2記載の映像解析装置。
  4.  前記人物絞り込み部によって絞り込まれた人物画像情報及びそれに対応した人物の属性情報における追跡結果と追跡結果の対象となった人物の属性情報を得る人物追跡部と、
     前記人物追跡部によって得られた人物の追跡結果とその人物の属性情報を基にイベントの検出を行うイベント判定部と、
     を備えた請求項1から請求項3のいずれか1項に記載の映像解析装置。
  5.  前記人物絞り込み部によって絞り込まれた人物画像情報及びそれに対応した人物の属性情報における追跡結果と追跡結果の対象となった人物の属性情報を得る人物追跡部と、
     前記人物追跡部によって得られた人物の追跡結果とその人物の属性情報を基にイベントの検出を行うイベント判定部と、
     前記人物追跡部によって得られた人物の追跡結果とその人物の属性情報を、設定された絞り込み基準により、自己生成絞り込みルールを生成する絞り込みルール生成部と、
     を備え、
     前記人物絞り込みルールは前記自己生成絞り込みルールを含むことを特徴とする請求項1又は請求項2記載の映像解析装置。
  6.  前記設定された絞り込み基準により生成された自己生成絞り込みルールは、前記人物追跡部によって得られた人物の追跡結果として現れた時間当たりの人物矩形の数が閾値以下の時間帯に、前記人物追跡部によって得られた人物の追跡結果として現れた人物矩形の内、ランダムな位置に断続的に登場する人物矩形及び同じ位置に滞留している人物矩形を除いた人物矩形に基づくルールであることを特徴とする請求項5記載の映像解析装置。
  7.  前記人物絞り込みルールは、人物矩形の足元情報が前記監視カメラによる監視空間の通路情報内に位置すると判定したものに絞り込む通路内絞り込みルール含むことを特徴とする請求項5又は請求項6記載の映像解析装置。
  8.  前記通路内絞り込みルールは、前記絞り込みルール生成部により生成され、前記人物追跡部からの人物の追跡結果における人物矩形の足元位置情報に基づき通路領域として定義したマスク画像情報であることを特徴とする請求項7記載の映像解析装置。
  9.  監視カメラからの映像情報から人物画像を検出し、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報を得る人物検出ステップと、
     前記人物検出ステップによって得られた人物画像情報及び人物の属性情報を、人物絞り込みルールに基づき、人物画像情報を絞り込み、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得る人物絞り込みステップと、
     を備えた映像解析方法。
  10.  前記人物絞り込みステップによって絞り込まれた人物画像情報及びそれに対応した人物の属性情報における追跡結果と追跡結果の対象となった人物の属性情報を得る人物追跡ステップと、
     前記人物追跡ステップによって得られた人物の追跡結果とその人物の属性情報を基にイベントの検出を行うイベント判定ステップと、
     前記人物追跡ステップによって得られた人物の追跡結果とその人物の属性情報を、設定された絞り込み基準により、自己生成絞り込みルールを生成する絞り込みルール生成ステップと、
     を備え、
     前記人物絞り込みルールは前記自己生成絞り込みルールを含むことを特徴とする請求項9記載の映像解析方法。
  11.  前記人物絞り込みルールは、人物の身長に対応して上限値及び下限値が設定された人物矩形の高さの検出範囲から外れた人物矩形を誤認識として抑制する人物矩形高さ絞り込みルールを含むことを特徴とする請求項9又は請求項10記載の映像解析方法。
  12.  前記人物絞り込みルールは、人物矩形の足元情報が前記監視カメラによる監視空間の通路情報内に位置すると判定したものに絞り込む通路内絞り込みルールを含むことを特徴とする請求項9から請求項11のいずれか1項に記載の映像解析方法。
  13.  コンピュータに、
     監視カメラからの映像情報から人物画像を検出し、人物画像の検出結果としての人物画像情報及びその人物画像情報に対応した人物の属性情報を得る人物検出手順と、
     前記人物検出手順によって得られた人物画像情報及び人物の属性情報を、人物絞り込みルールに基づき、人物画像情報を絞り込み、絞りこまれた人物画像情報及びそれに対応した人物の属性情報を得る人物絞り込み手順と、
     を実行させるためのプログラム。
  14.  前記コンピュータに実行させる手順として、さらに、
     前記人物絞り込み手順によって絞り込まれた人物画像情報及びそれに対応した人物の属性情報における追跡結果と追跡結果の対象となった人物の属性情報を得る人物追跡手順と、
     前記人物追跡手順によって得られた人物の追跡結果とその人物の属性情報を基にイベントの検出を行うイベント判定手順と、
     前記人物追跡手順によって得られた人物の追跡結果とその人物の属性情報を、設定された絞り込み基準により、自己生成絞り込みルールを生成する絞り込みルール生成手順と、
     を備え、
     前記人物絞り込みルールは前記自己生成絞り込みルールを含むことを特徴とする請求項13記載のプログラム。
  15.  前記人物絞り込みルールは、人物の身長に対応して上限値及び下限値が設定された人物矩形の高さの検出範囲から外れた人物矩形を誤認識として抑制する人物矩形高さ絞り込みルールを含むことを特徴とする請求項13又は請求項14記載の映像解析方法。
  16.  前記人物絞り込みルールは、人物矩形の足元情報が前記監視カメラによる監視空間の通路情報内に位置すると判定したものに絞り込む通路内絞り込みルールを含むことを特徴とする請求項13から請求項15のいずれか1項に記載の映像解析方法。
PCT/JP2018/019102 2018-05-17 2018-05-17 映像解析装置、映像解析方法、及びプログラム WO2019220589A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2018/019102 WO2019220589A1 (ja) 2018-05-17 2018-05-17 映像解析装置、映像解析方法、及びプログラム
GB2017860.4A GB2587555C (en) 2018-05-17 2018-05-17 Image analysis device, image analysis method, and recording medium
JP2020518898A JP6779410B2 (ja) 2018-05-17 2018-05-17 映像解析装置、映像解析方法、及びプログラム
US17/096,470 US11417134B2 (en) 2018-05-17 2020-11-12 Image analysis device, image analysis method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/019102 WO2019220589A1 (ja) 2018-05-17 2018-05-17 映像解析装置、映像解析方法、及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/096,470 Continuation US11417134B2 (en) 2018-05-17 2020-11-12 Image analysis device, image analysis method, and recording medium

Publications (1)

Publication Number Publication Date
WO2019220589A1 true WO2019220589A1 (ja) 2019-11-21

Family

ID=68539844

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/019102 WO2019220589A1 (ja) 2018-05-17 2018-05-17 映像解析装置、映像解析方法、及びプログラム

Country Status (4)

Country Link
US (1) US11417134B2 (ja)
JP (1) JP6779410B2 (ja)
GB (1) GB2587555C (ja)
WO (1) WO2019220589A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022137955A1 (ja) * 2020-12-23 2022-06-30 株式会社デンソー 状態監視装置及び状態監視プログラム
WO2023148971A1 (ja) * 2022-02-07 2023-08-10 日本電気株式会社 管理装置、管理方法、およびコンピュータ可読媒体
JP7419090B2 (ja) 2020-02-06 2024-01-22 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10634506B2 (en) * 2016-12-12 2020-04-28 Position Imaging, Inc. System and method of personalized navigation inside a business enterprise
CN113850168A (zh) * 2021-09-16 2021-12-28 百果园技术(新加坡)有限公司 人脸图片的融合方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007274656A (ja) * 2006-03-31 2007-10-18 Saxa Inc 映像監視装置及び方法
JP2008250686A (ja) * 2007-03-30 2008-10-16 Matsushita Electric Ind Co Ltd 見守りシステムおよびマスキング処理方法
WO2014050518A1 (ja) * 2012-09-28 2014-04-03 日本電気株式会社 情報処理装置、情報処理方法および情報処理プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5027741B2 (ja) 2008-06-18 2012-09-19 セコム株式会社 画像監視装置
US9092675B2 (en) * 2012-03-29 2015-07-28 The Nielsen Company (Us), Llc Methods and apparatus to count people in images
JP6488647B2 (ja) 2014-09-26 2019-03-27 日本電気株式会社 物体追跡装置、物体追跡システム、物体追跡方法、表示制御装置、物体検出装置、プログラムおよび記録媒体
US10664705B2 (en) 2014-09-26 2020-05-26 Nec Corporation Object tracking apparatus, object tracking system, object tracking method, display control device, object detection device, and computer-readable medium
US20160196728A1 (en) * 2015-01-06 2016-07-07 Wipro Limited Method and system for detecting a security breach in an organization
JP2017041022A (ja) 2015-08-18 2017-02-23 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007274656A (ja) * 2006-03-31 2007-10-18 Saxa Inc 映像監視装置及び方法
JP2008250686A (ja) * 2007-03-30 2008-10-16 Matsushita Electric Ind Co Ltd 見守りシステムおよびマスキング処理方法
WO2014050518A1 (ja) * 2012-09-28 2014-04-03 日本電気株式会社 情報処理装置、情報処理方法および情報処理プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7419090B2 (ja) 2020-02-06 2024-01-22 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
WO2022137955A1 (ja) * 2020-12-23 2022-06-30 株式会社デンソー 状態監視装置及び状態監視プログラム
JP7363758B2 (ja) 2020-12-23 2023-10-18 株式会社デンソー 状態監視装置及び状態監視プログラム
WO2023148971A1 (ja) * 2022-02-07 2023-08-10 日本電気株式会社 管理装置、管理方法、およびコンピュータ可読媒体

Also Published As

Publication number Publication date
GB2587555A (en) 2021-03-31
JP6779410B2 (ja) 2020-11-04
US11417134B2 (en) 2022-08-16
GB2587555C (en) 2021-11-17
GB202017860D0 (en) 2020-12-30
US20210064857A1 (en) 2021-03-04
GB2587555B (en) 2021-10-27
JPWO2019220589A1 (ja) 2020-10-22

Similar Documents

Publication Publication Date Title
WO2019220589A1 (ja) 映像解析装置、映像解析方法、及びプログラム
US10776627B2 (en) Human flow analysis method, human flow analysis apparatus, and human flow analysis system
US10007850B2 (en) System and method for event monitoring and detection
JP6013241B2 (ja) 人物認識装置、及び方法
US20190347486A1 (en) Method and apparatus for detecting a garbage dumping action in real time on video surveillance system
EP2450832A1 (en) Image processing apparatus and image processing method
WO2017183769A1 (ko) 이상 상황을 감지하는 장치 및 방법
JP2009143722A (ja) 人物追跡装置、人物追跡方法及び人物追跡プログラム
JP2014229068A (ja) 人数計測装置および人物動線解析装置
Sokolova et al. A fuzzy model for human fall detection in infrared video
WO2010030814A2 (en) Pixel-level based micro-feature extraction
Abdo et al. Fall detection based on RetinaNet and MobileNet convolutional neural networks
JP2010198566A (ja) 人数計測装置、方法及びプログラム
JP5027741B2 (ja) 画像監視装置
TW201832182A (zh) 動作學習裝置、技能判別裝置以及技能判別系統
RU2713876C1 (ru) Способ и система выявления тревожных событий при взаимодействии с устройством самообслуживания
RU2315352C2 (ru) Способ и система для автоматического обнаружения трехмерных образов
Carletti et al. An efficient and effective method for people detection from top-view depth cameras
JP2019029935A (ja) 画像処理装置およびその制御方法
JPWO2008035411A1 (ja) 移動体情報検出装置、移動体情報検出方法および移動体情報検出プログラム
KR101572366B1 (ko) 지능형 영상 감시 시스템을 위한 납치 상황 인식 방법
KR101840042B1 (ko) 복합 가상 팬스 라인 설정 방법 및 이를 이용한 침입 감지 시스템
Abd et al. Human fall down recognition using coordinates key points skeleton
JP2011209794A (ja) 対象物認識システム及び該システムを利用する監視システム、見守りシステム
Hernández et al. People counting with re-identification using depth cameras

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18919291

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020518898

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 202017860

Country of ref document: GB

Kind code of ref document: A

Free format text: PCT FILING DATE = 20180517

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18919291

Country of ref document: EP

Kind code of ref document: A1